Selección de variables

¿Por qué?

Calcula cuántos puntos hacen falta para poblar razonablemente una parte de R1000 y calcula el tamaño de esa muestra

Posibilidades

¿Qué tal sería usar una red neuronal para la combinación no-lineal?

Seleccionar variables

Normalmente es una búsqueda combinatoria: probar cada conjunto de variables a ver qué tal va.

Si se prueba con la red neuronal, entonces vamos de mal a infernal

Si se prueba con un modelo lineal es rápido, pero ... ¿no habíamos dicho que la red neuronal interesaba cuando no es lineal?

Si queremos que no se nos salte las no linealidades, debe ser un modelo no lineal. Aunque sea sencillo, llevará algo de tiempo, multiplicado por una búsqueda combinatoria, ...

Si tenemos 1000 variables y vamos a probar modelos que sólo cojan 10 ¿cuántas pruebas tendremos que hacer?

Búsqueda secuencial: sequentialfs en la toolbox estadística de Matlab. Con un árbol de regresión podado por validación cruzada y 10000 variables, pueden ser horas.

Combinación lineal no supervisada

Componentes principales

Buscar los ejes del espacio en los que la varianza es máxima

Suele ser efectivo.

A ojo, ¿cómo quedaría esta muestra a dos y una dimensiones?
princomp en la toolbox estadística de Matlab.

Combinación no lineal no supervisada

Sammon

Busca puntos correspondientes tales que las distancias sean como las originales

SNE

Que la probabilidad de que los puntos sean vecinos no varíe

¿Cuál es la probabilidad de que un punto sea vecino de otro?

toolbox de Matlab para reducción de dimensión

Combinación supervisada

Son para clasificación