EL ANÁLISIS DE DATOS EXPLORATORIO (EDA) Y EL ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES (ESDA)

El EDA se originó en la década de 1960, a partir del libro clásico de John Tukey (Tukey 1977). Este autor resaltó la necesidad de analizar los datos estadísticos brutos mediante otras herramientas adicionales, como los gráficos, algunos de los cuales fueron desarrollados por el propio Tukey, como el diagrama de caja y bigotes y el diagrama de tallo y hojas.

Figura 1: John Tukey
Figura 1: John Tukey
Figura 2: libro EDA
Figura 2: libro EDA

El objetivo de Tukey era crear herramientas que guiasen al investigador en el proceso de análisis de la información contenida en los datos, proporcionando “indicaciones sobre fenómenos inesperados”, “mostrando lo imprevisto” (Tukey 1962; Tukey y Wilk 1966), o incluso “descubriendo patrones potencialmente explicables” (Good 1983).

De acuerdo con este propósito, el EDA a menudo contrasta con el análisis de datos confirmatorios, o CDA, como reflejo de la dicotomía entre un enfoque inductivo (primero los datos, luego las hipótesis) y un enfoque deductivo (primero la hipótesis, después los datos). En realidad, dado su énfasis en la exploración visual (Tufte 1997), la EDA sigue un enfoque abductivo, un proceso lógico utilizado para llegar a conclusiones, incluso si no hay suficiente evidencia o información disponible. Este tipo de razonamiento es útil en situaciones donde no hay suficientes datos y se busca alcanzar una conclusión probable, en el que interactúan la exploración de datos y la percepción humana para detectar patrones junto con la formulación de hipótesis (Gahegan 2009).

Las primeras propuestas para resaltar la importancia de la visualización de los datos se remontan a la época griega, aunque no se produjeron innovaciones importantes hasta el trabajo de William Playfair a finales del siglo XVIII y principios del XIX, o los posteriores de Minard o Florence Nightingale. Sin embargo, la exploración visual de grandes conjuntos de datos tuvo que esperar al desarrollo de la informática, a través de los llamados gráficos dinámicos (Becker, Cleveland y Wilks 1987; Cleveland y McGill 1988; Cleveland 1993). Éstos representan los datos simultáneamente por medio de diferentes herramientas, es decir, gráficos, tablas, cuadros e incluso mapas, centrados en algún aspecto de la distribución de los datos.

Figura 3: Series temporales de Playfair
Figura 3: Series temporales de Playfair
Figura 4: Debacle de la Grand Armee en Rusia
Figura 4: Debacle de la Grand Armee en Rusia
Figura 5: Mortalidad según Florence Nightingale
Figura 5: Mortalidad según Florence Nightingale

El análisis exploratorio de datos espaciales (ESDA) es una variante adaptada a la naturaleza singular de los datos espacial, y se realiza sin un conocimiento previo de las interacciones entre los patrones espaciales y los procesos que los generan, basado en gran medida en la percepción y utilizando métodos visuales y gráficos univariados (cuando sólo se analiza una única variables) y multivariados (cuando se analizan 2 - método bivariados o más -métodos multivariados). Además de las herramientas típicas del EDA (tablas, estadísticos, gráficos), el ESDA añade otras herramientas (pe. los mapas) para que el investigador describa el territorio, identifique patrones dentro de él y busque interacciones. Por ello, la ESDA se emplea a menudo como un primer paso para ayudar en la formación de éstas hipótesis (Unwin, 1996).

INTRODUCCIÓN: LA ESTADÍSTICA DESCRIPTIVA Y EL ANÁLISIS EXPLORATORIO DE DATOS

Para el diseño de los temas 2 a 6 de la asignatura, se ha tomado como referencia la propuesta del libro R for Data Science, cuyos autores son Wickman y Grolemund (2017) para el análisis exploratorio de datos. Esta propuesta se organiza de la siguiente manera:

Figura 6: EDA
Figura 6: EDA

A esta estructura se añadió el tema 2, consistente en la visualización previa de la información mediante cartografía temática. En consecuencia, la adaptación de la asignatura a estas propuesta lleva a establecer los siguientes temas: