El EDA se originó en la década de 1960, a partir del libro clásico de John Tukey (Tukey 1977). Este autor resaltó la necesidad de analizar los datos estadísticos brutos mediante otras herramientas adicionales, como los gráficos, algunos de los cuales fueron desarrollados por el propio Tukey, como el diagrama de caja y bigotes y el diagrama de tallo y hojas.
El objetivo de Tukey era crear herramientas que guiasen al investigador en el proceso de análisis de la información contenida en los datos, proporcionando “indicaciones sobre fenómenos inesperados”, “mostrando lo imprevisto” (Tukey 1962; Tukey y Wilk 1966), o incluso “descubriendo patrones potencialmente explicables” (Good 1983).
De acuerdo con este propósito, el EDA a menudo contrasta con el análisis de datos confirmatorios, o CDA, como reflejo de la dicotomía entre un enfoque inductivo (primero los datos, luego las hipótesis) y un enfoque deductivo (primero la hipótesis, después los datos). En realidad, dado su énfasis en la exploración visual (Tufte 1997), la EDA sigue un enfoque abductivo, un proceso lógico utilizado para llegar a conclusiones, incluso si no hay suficiente evidencia o información disponible. Este tipo de razonamiento es útil en situaciones donde no hay suficientes datos y se busca alcanzar una conclusión probable, en el que interactúan la exploración de datos y la percepción humana para detectar patrones junto con la formulación de hipótesis (Gahegan 2009).
Las primeras propuestas para resaltar la importancia de la visualización de los datos se remontan a la época griega, aunque no se produjeron innovaciones importantes hasta el trabajo de William Playfair a finales del siglo XVIII y principios del XIX, o los posteriores de Minard o Florence Nightingale. Sin embargo, la exploración visual de grandes conjuntos de datos tuvo que esperar al desarrollo de la informática, a través de los llamados gráficos dinámicos (Becker, Cleveland y Wilks 1987; Cleveland y McGill 1988; Cleveland 1993). Éstos representan los datos simultáneamente por medio de diferentes herramientas, es decir, gráficos, tablas, cuadros e incluso mapas, centrados en algún aspecto de la distribución de los datos.