1. Calidad
    1. Ruido: Fichero con datos de reactor (ordenador de procesos). La primera columna es la presión
      1. Visualiza
      2. Filtra (media, mediana móvil)
    2. Cimarrones. ¿Los hay en los datos de censo?
    3. Faltas
      • Eliminar ¿Cómo queda la muestra de censo si eliminas todos los datos con atributos faltantes?
      • Estimar. Requiere modelo.
      • Generar varios casos, ponderados por probabilidad. Escoge atributo que tenga faltantes y visualiza su distribución, excluidos los faltantes.
  2. Cantidad: reducir
    1. Eliminación (atributos redundantes o no significativos) Volcado de ordenador de procesos Visualiza (más de 60 variables en el tiempo). ¿Hay variables/atributos duplicados? Grafica los que tengan rangos y medias similares
    2. Reduce número de posibilidades de discretos
    3. Muestreo/agrupamiento (combina/elige sujetos): individual/estratificado, con/sin reemplazo. ¿Qué se pierde si en el registro del reactor se toman muestras cada segundo, en vez de cada medio? Prueba un muestreo individualizado con y sin reemplazo en los datos de censo, reduciéndolos a la décima y a la centésima parte ¿Sale distinta visualización?
    4. Proyección a dimensión menor (combinar atributos): caso y fichero de datos y paquete Matlab de reducción de dimensión En Python (from scipy.io import loadmat; datos = loadmat('arcene.mat')), necesitará el paquete scikit-learn; busca en "Dimensionality reduction", "Decomposing signals in components" (puedes limitarte a PCA) y Manifold learning" (puedes limitarte a MDS) Para la dimensión reducida, o tanteas, o usas la estimación de PCA
  3. Dificultad: transformar los datos para facilitar proceso posterior
    1. Escalado: Visualiza distribución de variables individuales. Lleva a intervalo unidad o a media nula y varianza unidad (si la distribución parece gaussiana/normal, lo segundo; si no, lo primero; pero si hay valores muy extremos, lo segundo). Hazlo con una selección del volcado de ordenador de procesos.
    2. Cambiar variables por otras que faciliten la tarea posterior: visualiza relación entre variables de interés en los datos de reactor. Localiza la más funcional/determinista. Ejemplo: matriz de gráficos. Haz una transformación intuitiva. Intenta reproducir la forma.
    3. Transformaciones clásicas: logaritmos, potencias, Box-Cox, Yeo-Johnson. Haz una prueba con Box-Cox.