- Calidad
- Ruido: Fichero con datos de reactor (ordenador de procesos). La primera columna es la presión
- Visualiza
- Filtra (media, mediana móvil)
- Cimarrones. ¿Los hay en los datos de censo?
- Faltas
- Eliminar ¿Cómo queda la muestra de censo si eliminas todos los datos con atributos faltantes?
- Estimar. Requiere modelo.
- Generar varios casos, ponderados por probabilidad. Escoge atributo que tenga faltantes y visualiza su distribución, excluidos los faltantes.
- Cantidad: reducir
- Eliminación (atributos redundantes o no significativos) Volcado de ordenador de procesos Visualiza (más de 60 variables en el tiempo). ¿Hay variables/atributos duplicados? Grafica los que tengan rangos y medias similares
- Reduce número de posibilidades de discretos
- Muestreo/agrupamiento (combina/elige sujetos): individual/estratificado, con/sin reemplazo. ¿Qué se pierde si en el registro del reactor se toman muestras cada segundo, en vez de cada medio? Prueba un muestreo individualizado con y sin reemplazo en los datos de censo, reduciéndolos a la décima y a la centésima parte ¿Sale distinta visualización?
- Proyección a dimensión menor (combinar atributos): caso y fichero de datos y paquete Matlab de reducción de dimensión En Python (
from scipy.io import loadmat;
datos = loadmat('arcene.mat')
), necesitará el paquete scikit-learn; busca en "Dimensionality reduction", "Decomposing signals in components" (puedes limitarte a PCA) y Manifold learning" (puedes limitarte a MDS) Para la dimensión reducida, o tanteas, o usas la estimación de PCA
Dificultad: transformar los datos para facilitar proceso posterior
- Escalado: Visualiza distribución de variables individuales. Lleva a intervalo unidad o a media nula y varianza unidad (si la distribución parece gaussiana/normal, lo segundo; si no, lo primero; pero si hay valores muy extremos, lo segundo). Hazlo con una selección del volcado de ordenador de procesos.
- Cambiar variables por otras que faciliten la tarea posterior: visualiza relación entre variables de interés en los datos de reactor. Localiza la más funcional/determinista. Ejemplo: matriz de gráficos. Haz una transformación intuitiva. Intenta reproducir la forma.
- Transformaciones clásicas: logaritmos, potencias, Box-Cox, Yeo-Johnson. Haz una prueba con Box-Cox.