Puntos

¿Por qué?

¿Cómo?

¿Por qué?

Ejemplo: Tenemos una red para detectar caras.

Dentro de otra aplicación, con más código aparte, que ocupa más memoria
La red procesa fragmentos, con 100 capas de 6 procesadores, y ventanas de 9x9
- O sea, hace millones de operaciones
- Cargando en memoria millones de pesos
Tiene que dar resultado en centésimas, para que el resto de la aplicación reaccione
El dispositivo será simple, sin GPU ni nada parecido y sin demasiada RAM

¿Cuántos pesos tiene la última red?

¡¿Y qué más?!

Una red menor será más fácil que cumpla los requisitos: ejecutará en menos tiempo, ocupará menos memoria.

Y puede funcionar igual de bien, porque es fácil que no se necesiten todos los parámetros ¿Hace falta multiplicar algo por 10^-7 y sumarlo?

¿Cuántos pesos tiene la última red menores de 0.001? (este código quizá te inspire)

¿Cómo?

A priori

Imponer que las matrices de pesos tengan cierta estructura, que permite simplificarlas (pesos repetidos)
Obligar a ciertas convoluciones, reduciendo las que se dejan libres. Operar las convoluciones componiendo dimensiones distintas.
Combinación de redes simples, dirigidas por otra red simple

¿Qué sabes de la convolución con filtros separables?

¿Cómo?

A posteriori

Recortar
Cuantizar
Rediseñar (Knowledge distillation)
Descomponer matrices

Recortar

¿Recuerdas del diagrama de Hinton de pesos?

En Pytorch está torch.nn.utils.prune.L1Unstructured(ratioaeliminar)

¿Recuerdas cuando dijimos que también puedes eliminar procesadores?

En Pytorch está torch.nn.utils.prune.LnStructured(ratio,tiponorma) basado en el conjunto de pesos de entrada

¿Y si tuviésemos en cuenta derivadas respecto a los pesos?

Cuantizar

¿Cuántos bits ocupa cada peso? ¿Y si lo pusiéramos en sólo 4 bits, o en 2?

No tienen por qué ser equiespaciados. Podemos usar una tabla índice.

En Pytorch puedes tener algo como este ejemplo con la idea de calibrar la tabla de cuantización

¿Hay relación entre esto y un agrupamiento?

Rediseñar

Preparamos un modelo pequeño para que replique al grande, dándole la salida del grande y la real

En vez de dar la salida del grande, si es clasificación, se le puede dar logits (logaritmos de la probabilidad [antes de softmax])

O también un softmax modificado: $y_{i} = \frac{e^{z_{i} / T}}{\sum_{j} e^{z_{j} / T}}$

Para tener ventaja respecto a entrenar desde cero, hay que meter errores por capa, simulando la grande, etc.

¿Se puede aprovechar un estudio del grande para diseñar el pequeño?

Descomposición SVD

\begin{matrix} P \in ℝ^{m \times n} : matriz de pesos \\ P = US V^{T}, U \in ℝ^{m \times r}, S \in ℝ^{r \times r}, V^{T} \in ℝ^{r \times n} \\ \begin{matrix} r ≪ m \\ r ≪ n \end{matrix}} \Rightarrow m \times r + r + r \times n ≪ m \times n \end{matrix}

Pero sólo si $\begin{matrix} r ≪ m \\ r ≪ n \end{matrix}$

¿Hay funciones para hacer esto por ahí?

Redes Neuronales

Métodos para reducir redes

Puntos

¿Por qué?

¿Cómo?

¿Por qué?

¡¿Y qué más?!

¿Cómo?

¿Cómo?

A posteriori

Recortar

Cuantizar

Rediseñar

Descomposición SVD