Coge el fichero que incluye nuevas funcionalidades o variaciones:
ocultos
- Ahora es una lista, así que entre los corchetes pon los procesadores ocultos de varias capas, separados por comas. Puedes probar las redes que quieras, prueba también la que se comenta en la página previa.
fallosval
- Comprueba si el conjunto de validación mejora, o no. Detiene el ajuste tras este número de fallos seguidos.
- Normalización
- Añade una capa que lleva sus valores a escala normalizada; para ello tienes que añadir tras la capa que quieras normalizar, otra normalizadora, que indicarás con el texto
'b'
En lugar de un número. Probablemente un algoritmo de ajuste con gradiente simple, como SGD sea más apropiado.
loteajuste
- ¿Cada cuántas muestras se aplica el algoritmo de ajuste? Si lo pones a 0 es cada toda la muestra. Puedes probar a que el ajuste se haga por trozos del tensor, algo como por ejemplo 50. Si es grande irá más rápido. Si es pequeño es más difícil que se atasque en mínimos locales.
regularizacion
- Penalización de valor de pesos. No todos los algoritmos de ajuste lo admiten. Quizá tengas que pasar a un algoritmo simple de ajuste por gradiente, como SGD
- Desactivar aleatoriamente los procesadores ocultos durante el ajuste.
- Para ello tienes que añadir una capa
'd...'
donde en los puntos suspensivos va la probabilidad de desactivación
Algunos algoritmos de ajuste especialmente pensados para gradientes con problemas, que es algo que pasa con cierta frecuencia en las redes profundas:
- Rprop
- descenso gradiente, limitando el valor mínimo y máximo del gradiente
- Adam
- descenso gradiente con corrección automática de módulo
- RMSprop
- descenso gradiente sólo con el signo
Aunque cada caso tiene sus particularidades, aquí tienes ideas y sugerencias típicas para cuando las cosas no van bien