1 INTRODUCCIÓN: LA ESTADÍSTICA DESCRIPTIVA Y EL ANÁLISIS EXPLORATORIO DE DATOS

La Estadística Descriptiva consiste en un conjunto de técnicas cuyo objetivo es resumir, describir, analizar y presentar una (Estadística univariante) o varias (Estadística bivariante -2 variables o multivariante -más de 2- variables) características de los individuos de una población. Los datos univariantes son los que provienen de una única variable.

Figura 1: Proceso científico

La Estadística Descriptiva univariante se centra en el análisis de una única característica o cualidad del individuo. Como sabemos, estas características pueden ser:

La Estadística Descriptiva está muy relacionada con el “Análisis Exploratorio de datos” (EDA, Tukey 1978), que está enfocada a comprender la estructura subyacente de esos datos.

Figura 2: John Tukey

Los procedimientos más usuales usados en este tema serán los siguientes:

Figura 3: Componentes de la Estadística Descriptiva

Los ficheros (scripts) con los comandos correspondientes al tema 2 pueden descargarse aquí Scripts tema 2

ACTIVIDADES DE EVALUACIÓN CONTINUA

Una vez concluida la explicación teórica de cada uno de los apartados, cada alumno deberá analizar la información estadística contenida en el fichero contaminacion a través de los procedimientos revisados en el tema 2:

  • La elaboración de tablas estadísticas.

  • El cálculo de valores característicos.

  • La generación de gráficos.

Este fichero contiene los datos horarios registrados en el año 2019 de algunos contaminantes (pm10, so2, no2, o3) y parámetros meteorológicos (ws -velocidad del viento en m/s-, tem -temperatura en ºC-, hr -humedad relativa- y rad -radiación solar en W/m2), amén del nombre de la estación (CASTRO, CORRALES, GUARNIZO, REINOSA y TOJOS) y del año (yr), mes (mm), día (dy) y hora (hh) de la observación.

La actividad consistirá en seleccionar uno de los contaminantes y caracterizar su régimen en dos estaciones, utilizando para ello los recursos que el alumno considere más oportunos. Recuérdese que, para importar en R un fichero csv generado en países como España que utilizan la coma como decimal y el punto y como como separador entre variables, se debe usar la función read.csv2(), como por ejemplo.

datos <- read.csv2("D:/G14_EE_CC_SS_2023/TEMA_2_Estadistica_Descriptiva/datos/contaminacion.csv", 
                    header = TRUE, 
                    na.strings = "-9999")

Para su evaluación, cada alumno deberá enviar al profesor la siguiente documentación:

  • Un script que incluirá los códigos con todos los procedimientos realizados en respuesta a los desafíos propuestos.

  • Un fichero, en formato *.RData que incluya las varibles originales y las nuevas variables creadas a raíz del tratamiento previo de la información.