La Estadística Descriptiva consiste en un conjunto de técnicas cuyo objetivo es resumir, describir, analizar y presentar una (Estadística univariante) o varias (Estadística bivariante -2 variables o multivariante -más de 2- variables) características de los individuos de una población. Los datos univariantes son los que provienen de una única variable.
Figura 1: Proceso científico
La Estadística Descriptiva univariante se centra en el análisis de una única característica o cualidad del individuo. Como sabemos, estas características pueden ser:
Cualitativas (atributos). Si admiten una ordenación, hablaremos de variables cualitativas ordinales (nivel de estudios, clase social,…); en caso contrario, se denominarán variables cualitativas nominales (sexo, sector productivo,…).
Cuantitativas (variables). Si toman pocos valores y bien diferenciados (el número de miembros de una familia) se denominan variables discretas); si toman muchos valores y poco diferenciados (la renta familiar) se convierten en variables continuas. En este último caso, bien sea por la forma de recoger los datos, bien sea por facilitar su análisis e interpretación, los datos pueden ser incluidos en intervalos, esto es, se pueden categorizar.
La Estadística Descriptiva está muy relacionada con el “Análisis Exploratorio de datos” (EDA, Tukey 1978), que está enfocada a comprender la estructura subyacente de esos datos.
Figura 2: John Tukey
Los procedimientos más usuales usados en este tema serán los siguientes:
La organización de los datos mediante tablas estadísticas.
El cálculo de valores característicos (sólo variables cuantitativas).
La representación visual de los datos (gráficos).
Figura 3: Componentes de la Estadística Descriptiva
Los ficheros (scripts) con los comandos correspondientes al tema 2 pueden descargarse aquí Scripts tema 2
ACTIVIDADES DE EVALUACIÓN CONTINUA
Una vez concluida la explicación teórica de cada uno de los apartados, cada alumno deberá analizar la información estadística contenida en el fichero contaminacion a través de los procedimientos revisados en el tema 2:
La elaboración de tablas estadísticas.
El cálculo de valores característicos.
La generación de gráficos.
Este fichero contiene los datos horarios registrados en el año 2019 de algunos contaminantes (pm10, so2, no2, o3) y parámetros meteorológicos (ws -velocidad del viento en m/s-, tem -temperatura en ºC-, hr -humedad relativa- y rad -radiación solar en W/m2), amén del nombre de la estación (CASTRO, CORRALES, GUARNIZO, REINOSA y TOJOS) y del año (yr), mes (mm), día (dy) y hora (hh) de la observación.
La actividad consistirá en seleccionar uno de los contaminantes y
caracterizar su régimen en dos estaciones, utilizando para ello los
recursos que el alumno considere más oportunos. Recuérdese que, para
importar en R un fichero csv generado en países como España que utilizan
la coma como decimal y el punto y como como separador entre variables,
se debe usar la función read.csv2()
, como por ejemplo.
<- read.csv2("D:/G14_EE_CC_SS_2023/TEMA_2_Estadistica_Descriptiva/datos/contaminacion.csv",
datos header = TRUE,
na.strings = "-9999")
Para su evaluación, cada alumno deberá enviar al profesor la siguiente documentación:
Un script que incluirá los códigos con todos los procedimientos realizados en respuesta a los desafíos propuestos.
Un fichero, en formato *.RData
que incluya las
varibles originales y las nuevas variables creadas a raíz del
tratamiento previo de la información.