INTRODUCCIÓN.

Informan sobre cuánto se alejan los valores del centro de la distribución. Cuanto mayores sean las diferencias entre los individuos del grupo respecto de su promedio, mayor será la dispersión, y por tanto, la utilidad de los valores de tendencia central será menor.

Dispersión alrededor de la media
Dispersión alrededor de la media

Los principales estadísticos de dispersión son:

Comenzaremos creando un nuevo vector con los siguientes valores.

x <- c(18,22,16,19,23,18,35,16,45,20,20,22,40,18,45)

RANGO (RECORRIDO)

Es la diferencia entre el dato de mayor valor y el de menor valor. Por lo tanto, en su cálculo sólo se tiene en cuenta los valores extremos por lo que no necesariamente implica una gran dispersión. En R se calcula anidando la función diff() en la función range().

max(x) - min(x)
## [1] 29
range(x)
## [1] 16 45
rango <- diff(range(x))

DESVIACIÓN RESPECTO A LA MEDIA

Es la diferencia entre cada valor y la media aritmética de toda la distribución.

\[ D_i= x_i - \overline{x}\]

desv_respecto_media <- x - mean(x)

DESVIACIÓN MEDIA

Es la media aritmética de los valores absolutos de las desviaciones respecto a la media.

Fórmula de la media armónica
Fórmula de la media armónica
desv_media <- sum(abs(x - mean(x)))/length(x)

VARIANZA

La varianza y su raíz cuadrada positiva, la desviación típica, son las medidas de dispersión más importantes.

La varianza es la media aritmética de las diferencias al cuadrado entre los datos \(x_i\) y la media \(\overline{x}\) de la variable. Se representa por \(σ^2\) (población) o \(s^2\) (muestra).

Fórmula de la varianza
Fórmula de la varianza

La varianza muestral se calcula con la misma fórmula que la varianza salvo que el denominador es \(n-1\) en lugar de \(n\). \[ \tilde{s}^2 =\frac{\sum_{i=1}^n (x_i-\overline{x})^2}{n-1}. \]

La distinción entre la versión muestral y la “verdadera” de la varianza está motivada por la interrelación entre la estadística descriptiva y la inferencial. Por un lado, se debe mediar la variabilidad de un conjunto de datos cuantitativos mediante su varianza “verdadera”; pero, por otro lado, nuestro conjunto de datos será, normalmente, una muestra de una población mucho mayor, de la que querremos estimar información, y en concreto su variabilidad. Con las técnicas de la estadística descriptiva, resumimos y representamos las características de esta muestra concreta; pero este estudio suele ser solo un paso previo al análisis inferencial, cuyo objetivo no es analizar esta muestra en si misma, sino inferir información sobre toda la población a partir de esta muestra.

La varianza de una muestra tiende a dar valores más pequeños que la varianza real de la población. Para muestras grandes, la diferencia no es sustancial: si \(n\) es grande, dividir por \(n\) o por \(n-1\) no supone una gran diferencia, sobre todo si tenemos en cuenta que se trata de estimar la varianza de la población, no de calcularla exactamente. Pero si el tamaño de la muestra es pequeño (menos de 25 individuos), la varianza muestral de una muestra aproxima significativamente mejor a la varianza real de la población que su varianza “verdadera”.

La varianza tiene las siguientes propiedades matemáticas:

La función de R para el cálculo de la varianza (muestral) es var().

var(x)
## [1] 110.1238

LA DESVIACIÓN TÍPICA (tipo o estándar)

La desviación típica es la raíz cuadrada \(s\) de la varianza: \(s=\sqrt{s^2}\). Se representa por σ (población) o s (muestra)

La desviación típica muestral es la raíz cuadrada positiva \(\tilde{s}\) de la varianza muestral: \(\tilde{s}=\sqrt{\tilde{s}^2}\).

Fórmula de la desviación típica
Fórmula de la desviación típica

Se calcula con la función sd()

sd(x)
## [1] 10.49399

Propiedades de la desviación típica:

Observaciones:

📝 ACTIVIDAD DE EVALUACIÓN CONTINUA:

Calcula los siguientes estadísticos de la variable superficie perteneciente al dataframe zonas_verdes.Rdata. Crea luego una tabla con todos esos valores

  • Rango
rango <- diff(range(zonas_verdes$superficie))
  • Desviación media
desv_media <- sum(abs(zonas_verdes$superficie - mean(zonas_verdes_superficie)))/length(zonas_verdes_superficie)
  • Varianza
varianza <- var(zonas_verdes$superficie)
  • Desviación típica
desviacion_tipica <- sd(zonas_verdes$superficie)

tabla <- rbind(rango, desv_media, varianza, desviacion_tipica)

PUNTUACIONES TÍPICAS (estandarizadas)

Constituyen un método para describir un dato en relación con la desviación media y estándar de un grupo de datos. Se utilizan para comparar variables diferentes, que pueden tener medias y desviaciones típicas muy diferentes.

Se define como el número de desviaciones típicas que un valor dado toma con respecto a la media de su muestra o población. Si, por ejemplo, una herramienta devuelve una puntuación z de +2,5, diría que el resultado son desviaciones estándar de 2,5

Fórmula para el cálculo de las puntuaciones típicas Observaciones:

z <- (x - mean(x)) / sd(x)                     
z
##  [1] -0.6797542 -0.2985836 -0.8703395 -0.5844616 -0.2032910 -0.6797542
##  [7]  0.9402208 -0.8703395  1.8931472 -0.4891689 -0.4891689 -0.2985836
## [13]  1.4166840 -0.6797542  1.8931472

:::{.alert .alert-warning}

EJEMPLO:

Un problema típico al analizar la evolución de las precipitaciones en España son los valores tan dispares existentes entre unos lugares y otros. Esto supone una dificultad, que se puede solventar transformando las precipitaciones en puntuaciones estandarizadas. Para ilustrar esta solución, analizaremos las evolución de las precipitaciones anuales en 3 observatorios españoles, Santiago de Compostela-Labacolla, Bilbao-Sondica y Murcia-Alcantarilla

precipitaciones <- read.csv2("http://personales.unican.es/rasillad/docencia/G2040/TEMA_5/precipitaciones_mensuales.csv")

# Cambio en el nombre de la variable
names(precipitaciones)[1] <- "AÑOS"

Los valores medios anuales de precipitación son muy diferentes en estos observatorios

mean(precipitaciones$SANTIAGO)/10
## [1] 1796.09
mean(precipitaciones$BILBAO)/10
## [1] 1187.752
mean(precipitaciones$MURCIA)/10
## [1] 292.145

Representación gráfica de la evolución de las precipitaciones

plot(precipitaciones$AÑOS, precipitaciones$SANTIAGO/10, lwd = 2, col = "blue", type = "l", lty = 1, ylim = c(0,2700))
lines(precipitaciones$AÑOS, precipitaciones$BILBAO/10, lwd = 2, col = "red", type = "l", lty = 2, add = TRUE)
lines(precipitaciones$AÑOS, precipitaciones$MURCIA/10, lwd = 2, col = "darkgreen", type = "l", lty = 4, add = TRUE)

Conversión de los valores brutos de precipitación en anomalías estandarizadas (z)

precipitaciones$ZSANTIAGO <- (precipitaciones$SANTIAGO - mean(precipitaciones$SANTIAGO)) / sd(precipitaciones$SANTIAGO)
precipitaciones$ZBILBAO <- (precipitaciones$BILBAO - mean(precipitaciones$BILBAO)) / sd(precipitaciones$BILBAO)
precipitaciones$ZMURCIA <- (precipitaciones$MURCIA - mean(precipitaciones$MURCIA)) / sd(precipitaciones$MURCIA)

Representación gráfica de la evolución de las precipitaciones transformadas en puntuaciones Z

plot(precipitaciones$AÑOS, precipitaciones$ZSANTIAGO, lwd = 2, col = "blue", type = "l", lty = 1, ylim = c(-3,3))
lines(precipitaciones$AÑOS, precipitaciones$ZBILBAO, lwd = 2, col = "red", type = "l", lty = 2, add = TRUE)
lines(precipitaciones$AÑOS, precipitaciones$ZMURCIA, lwd = 2, col = "darkgreen", type = "l", lty = 4, add = TRUE)

📝 ACTIVIDAD DE EVALUACIÓN CONTINUA: transformación en puntuaciones Z de una variable:
Datos para la actividad

  1. A partir de las series de valores Z creadas a partir de la precipitación anual de Santiago de Compostela, Bilbao y Murcia, identifica qué años pueden considerarse extremadamente secos(húmedos) en cada observatorio (aquellos con valores superiores/inferiores a +- 1.96).
años_lluviosos <- subset(precipitaciones,                                       # Dataframe
                    ZSANTIAGO >= 1.96 | ZBILBAO >= 1.96 | ZMURCIA >= 1.96)      # Condiciones

años_secos <- subset(precipitaciones,                                           # Dataframe
                    ZSANTIAGO <= -1.96 | ZBILBAO <= -1.96 | ZMURCIA <= -1.96)   # Condiciones
  • ¿Han sido simultáneos en los 3 observatorios?
  1. Importa el fichero comunidades_pib

  2. Transforma las variables superficie_km2, poblacion y pib en puntuaciones Z.

comunidades$Z_superficie <- (comunidades$superficie_km2 - mean(comunidades$superficie_km2)) / sd(comunidades$superficie_km2)
comunidades$Z_poblacion <- (comunidades$poblacion - mean(comunidades$poblacion)) / sd(comunidades$poblacion)
comunidades$Z_pib <- (comunidades$pib - mean(comunidades$pib)) / sd(comunidades$pib)
  1. Responde a las siguientes preguntas:
  • ¿Hay alguna comunidad que puntúe por encima o por debajo de +/- 1.96?

  • ¿Cuáles son las puntuaciones Z correspondientes a Cantabria?. Compáralas con las del resto de regiones y comenta su situación con respecto a las restantes regiones.

EL COEFICIENTE DE VARIACIÓN.

Se calcula como la relación entre la desviación típica y la media y se expresa como porcentaje. Permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas. En líneas generales, a mayor coeficiente de variación mayor dispersión

Fórmula del coeficiente de variación
Fórmula del coeficiente de variación
cv <- sd(x) / mean(x) * 100                              
cv
## [1] 41.75327

El coeficiente de variación también puede aplicarse a los datos de precipitaciones para saber cuál de los 3 observatorios presenta una mayor regularidad/irregularidad

CV_SANTIAGO <- sd(precipitaciones$SANTIAGO) / mean(precipitaciones$SANTIAGO) * 100                              
CV_BILBAO <- sd(precipitaciones$BILBAO) / mean(precipitaciones$BILBAO) * 100                              
CV_MURCIA <- sd(precipitaciones$MURCIA) / mean(precipitaciones$MURCIA) * 100                              

De acuerdo con estos datos, el observatorio de Murcia es el que presenta una mayor irregularidad interanual, lo cual es típico de los climas mediterráneos, mientras el de Bilbao es el que presenta una mayor regularidad interanual, típico a su vez de los climas oceánicos.

📝 ACTIVIDAD DE EVALUACIÓN CONTINUA: CÁLCULO DEL COEFICIENTE DE VARIACIÓN:

  1. Los alumnos del Grado en Geografía y Ordenación del Territorio tienen una estatura media de 174 cm con una desviación típica de 16 cm. Estos mismos alumnos, tienen un peso medio de 70 kg con una desviación estándar de 14 kg. ¿Cuál de las 2 variables presenta mayor variabilidad relativa?
cv_altura <- 16/174 *100
cv_peso <- 14/70 *100
  1. Calcula el coeficiente de varación correspondiente a las variables Temp, Ozone, Solar.R y Wind del conjunto de datos airquality. Recuerda que alguna de estas variables contiene datos NA. Interpreta los resultados desde el punto de vista de la variabilidad.
cv_ozone <- sd(airquality$Ozone, na.rm = TRUE) / mean(airquality$Ozone, na.rm = TRUE) * 100                              
cv_solar_R <- sd(airquality$Solar.R, na.rm = TRUE) / mean(airquality$Solar.R, na.rm = TRUE) * 100 
cv_Wind <- sd(airquality$Wind, na.rm = TRUE) / mean(airquality$Wind, na.rm = TRUE) * 100 
cv_Temp <- sd(airquality$Temp, na.rm = TRUE) / mean(airquality$Temp, na.rm = TRUE) * 100 

📝 ACTIVIDAD DE EVALUACIÓN CONTINUA: :

El fichero cuencas_precipitacion.csv contiene los datos anuales de precipitación en cada una de las cuencias hidrográficas de la Península Ibérica. A partir de esos datos:

  • Ordena las cuencas hidrográficas en función de la precipitación media recibida: ¿cuál es la cuenca con precipitaciones más abundantes? ¿y la más seca?

  • ¿Cuál es la cuenca con una mayor regularidad en las precipitaciones? ¿y la cuenca con mayor irregularidad?

  • Transforma los valores originales en puntuaciones típicas y extrae los 3 años más secos y los 3 más lluviosos en cada una de las cuencas. ¿Existe simultaneidad entre algunas de ellas?