Descárgate el fichero base, nuevamente para el problema de los precios de las casas. Cuando se define el error a optimizar y cuando se define el método de ajuste verás varias líneas alternativas comentadas. Comenta y descomenta estás líneas para hacer distintas pruebas ¿Con qué métodos, y con qué parámetros, obtienes mejores resultados?
En este fichero los datos no se han normalizado. Analiza, recurriendo a los ficheros de otras prácticas, qué importancia tiene eso.
Ya sabemos que medimos la eficiencia del modelo por el error de predicción. Pero, en primer lugar, no debemos medirlo sobre la muestra de ajuste, sino sobre un conjunto más general. En segundo lugar, una sola estimación seguramente no es suficiente. Por ello vamos a obtener varias estimaciones. Los dos métodos que vienen a continuación se diferencian en cómo se elige los conjuntos de puntos de ajuste dentro de la muestra completa de la que disponemos.
En este caso elegimos conjuntos de puntos para el ajuste utilizando un muestreo con reemplazo. Hacemos esto varias veces con cada modelo y aún tenemos finalmente el histograma de medidas error de cada modelo en las distintas pruebas. Eso es lo que utilizamos como criterio de selección.
Aquí tienes un esqueleto para construir el programa que nos permita hacerlo. Observa que le faltan partes que tú tendrás que definir:
Este caso es equivalente al anterior sólo que el método de selección no es un muestreo con reemplazo, sino una partición aleatoria de la muestra completa. Te servirá el mismo fichero de esqueleto de antes, en el que puedes observar que hay una línea comentada para sustituir la clase que nos va a proporcionar los conjuntos de puntos de ajuste. Tienes que definir, aparte de lo ya comentado, en cuántas partes vas a dividir la muestra total, numcrosval. Tal y como está puesto ahí el modelo se ajusta en los datos de la partición y se mide su error en todos; en la validación cruzada auténtica el modelo se ajusta en toda la muestra menos en una partición y el error se mide precisamente en la partición que se ha quedado fuera. Programa tú esta variación.