Redes profundas con Pytorch

Empecemos con una red profunda convencional. Coge un programa que amplía lo que vimos de este problema y su fichero de configuración .Ponle unas cuantas capas ocultas (números entre los corchetes). Pruébalo. Entre las pruebas que hagas asegúrate de probar la combinación de función final Softmax con error CrossEntropy
Sobre esa red prueba los enfoques vistos en la práctica anterior.
Probemos una red convolutiva (alguien por ahí dice que pongas loteajuste un poco alto para no eternizarte)
Las capas convolutivas se indican como '...c...' donde delante va la cantidad de procesadores y detrás el ancho de convolución. Una capa con ancho de convolución grande puede ser sustituida con ventaja por varias capas de anchos menores, o por una capa con paso mayor (dilation). En este último caso el esquema de definición sería, por ejemplo, '3c5d2' para una capa con 3 procesadores de convolución de ancho 5 y paso 2

Si simplemente quieres cambiar el número de procesadores, sin convolución espacial, basta que pongas ancho 1
Añadamos reductoras. Las capas reductoras se marcan como 'rx...' donde en los puntos suspensivos va el factor de reducción y x es una letra indicando el tipo de reducción:

p

promedio

m

máximo

c

convolución (con salto=ancho=factor)
Añadamos un final convencional. Los anchos de capas convolutivas te dan el lado de la imagen con que trabaja la siguiente capa; es mejor que el tamaño al llegar a la parte convencional esté dentro de un orden.
Haz los siguientes experimentos:
- Cambiar la arquitectura de red: capas, reducciones, convoluciones, número de procesadores, ...
- Distintos métodos de ajuste
- Enfoques de la práctica anterior
- Recortar y reajustar la red, como vimos en la práctica de análisis
Otros enfoques para poder poner redes grandes y que no se dispare el número de pesos:

Matrices de pesos simplificadas

Prueba a poner que las capas tengan matrices de pesos parametrizadas, por ejemplo, mediante una simplificación a ortogonales (enlace a documentación) En una de las convolutivas, ponle o por delante. Esto hace que el tamaño de una matriz $m \times n$ pase a $\frac{m (n + 1)}{2}$ (podemos pensar en aproximadamente la mitad)
Prepara y ajusta. en principio a las de más impacto (más pesos) y vete ampliando hasta que veas que la precisión cae significativamente. Donde te quedes, anota otra línea en la tabla de comparación.

Aplicación de filtros separables

Sustituye las convoluciones normales por separables. Anteponle a la capa que quieras una s. El cambio es del estilo de, por ejemplo, en vez de aplicar una convolución (5,5), aplicar sucesivamente (5,1) y (1,5). Fíjate que en este ejemplo, hemos pasado de 25 pesos a 10

Prepara, ajusta primero las capas de más pesos, hasta que veas que la precisión se degrada. Hasta donde llegues, anota otra línea