1 INTRODUCCIÓN: LA ESTADÍSTICA DESCRIPTIVA Y EL ANÁLISIS EXPLORATORIO DE DATOS

La Estadística Descriptiva consiste en un conjunto de técnicas cuyo objetivo es resumir, describir, analizar y presentar una (Estadística univariante) o varias (Estadística bivariante -2 variables o multivariante -más de 2- variables) características de los individuos de una población. Los datos univariantes son los que provienen de una única variable.

Figura 1: Proceso científico

La Estadística Descriptiva univariante se centra en el análisis de una única característica o cualidad del individuo. Como sabemos, estas características pueden ser:

Cualitativas (atributos). Si admiten una ordenación, hablaremos de variables cualitativas ordinales (nivel de estudios, clase social,…); en caso contrario, se denominarán variables cualitativas nominales (sexo, sector productivo,…).
Cuantitativas (variables). Si toman pocos valores y bien diferenciados (el número de miembros de una familia) se denominan variables discretas); si toman muchos valores y poco diferenciados (la renta familiar) se convierten en variables continuas. En este último caso, bien sea por la forma de recoger los datos, bien sea por facilitar su análisis e interpretación, los datos pueden ser incluidos en intervalos, esto es, se pueden categorizar.

La Estadística Descriptiva está muy relacionada con el “Análisis Exploratorio de datos” (EDA, Tukey 1978), que está enfocada a comprender la estructura subyacente de esos datos.

Figura 2: John Tukey

Los procedimientos más usuales usados en este tema serán los siguientes:

La organización de los datos mediante tablas estadísticas.
El cálculo de valores característicos (sólo variables cuantitativas).
La representación visual de los datos (gráficos).

Figura 3: Componentes de la Estadística Descriptiva

Los ficheros (scripts) con los comandos correspondientes al tema 2 pueden descargarse aquí Scripts tema 2

ACTIVIDADES DE EVALUACIÓN CONTINUA

Una vez concluida la explicación teórica de cada uno de los apartados, cada alumno deberá analizar la información estadística contenida en el fichero contaminacion a través de los procedimientos revisados en el tema 2:

La elaboración de tablas estadísticas.
El cálculo de valores característicos.
La generación de gráficos.

Este fichero contiene los datos horarios registrados en el año 2019 de algunos contaminantes (pm10, so2, no2, o3) y parámetros meteorológicos (ws -velocidad del viento en m/s-, tem -temperatura en ºC-, hr -humedad relativa- y rad -radiación solar en W/m2), amén del nombre de la estación (CASTRO, CORRALES, GUARNIZO, REINOSA y TOJOS) y del año (yr), mes (mm), día (dy) y hora (hh) de la observación.

La actividad consistirá en seleccionar uno de los contaminantes y caracterizar su régimen en dos estaciones, utilizando para ello los recursos que el alumno considere más oportunos. Recuérdese que, para importar en R un fichero csv generado en países como España que utilizan la coma como decimal y el punto y como como separador entre variables, se debe usar la función read.csv2(), como por ejemplo.

datos <- read.csv2("D:/G14_EE_CC_SS_2023/TEMA_2_Estadistica_Descriptiva/datos/contaminacion.csv", 
                    header = TRUE, 
                    na.strings = "-9999")

Para su evaluación, cada alumno deberá enviar al profesor la siguiente documentación:

Un script que incluirá los códigos con todos los procedimientos realizados en respuesta a los desafíos propuestos.
Un fichero, en formato *.RData que incluya las varibles originales y las nuevas variables creadas a raíz del tratamiento previo de la información.

TEMA 2: ANÁLISIS EXPLORATORIO DE DATOS

G14: Estadística para las ciencias sociales

Domingo F. Rasilla

2023-10-30

1 INTRODUCCIÓN: LA ESTADÍSTICA DESCRIPTIVA Y EL ANÁLISIS EXPLORATORIO DE DATOS