Informan sobre cuánto se alejan los valores del centro de la distribución. Cuanto mayores sean las diferencias entre los individuos del grupo respecto de su promedio, mayor será la dispersión, y por tanto, la utilidad de los valores de tendencia central será menor.
Los principales estadísticos de dispersión son:
Rango o recorrido.
Desviación respecto a la media.
Desviación media.
Varianza.
Desviación típica.
Comenzaremos creando un nuevo vector con los siguientes valores.
x <- c(18,22,16,19,23,18,35,16,45,20,20,22,40,18,45)
Es la diferencia entre el dato de mayor valor y el de menor valor.
Por lo tanto, en su cálculo sólo se tiene en cuenta los valores extremos
por lo que no necesariamente implica una gran dispersión. En R se
calcula anidando la función diff()
en la función
range()
.
max(x) - min(x)
## [1] 29
range(x)
## [1] 16 45
rango <- diff(range(x))
Es la diferencia entre cada valor y la media aritmética de toda la distribución.
\[ D_i= x_i - \overline{x}\]
desv_respecto_media <- x - mean(x)
Es la media aritmética de los valores absolutos de las desviaciones respecto a la media.
desv_media <- sum(abs(x - mean(x)))/length(x)
La varianza y su raíz cuadrada positiva, la desviación típica, son las medidas de dispersión más importantes.
La varianza es la media aritmética de las diferencias al cuadrado entre los datos \(x_i\) y la media \(\overline{x}\) de la variable. Se representa por \(σ^2\) (población) o \(s^2\) (muestra).
La varianza muestral se calcula con la misma fórmula que la varianza salvo que el denominador es \(n-1\) en lugar de \(n\). \[ \tilde{s}^2 =\frac{\sum_{i=1}^n (x_i-\overline{x})^2}{n-1}. \]
La distinción entre la versión muestral y la “verdadera” de la varianza está motivada por la interrelación entre la estadística descriptiva y la inferencial. Por un lado, se debe mediar la variabilidad de un conjunto de datos cuantitativos mediante su varianza “verdadera”; pero, por otro lado, nuestro conjunto de datos será, normalmente, una muestra de una población mucho mayor, de la que querremos estimar información, y en concreto su variabilidad. Con las técnicas de la estadística descriptiva, resumimos y representamos las características de esta muestra concreta; pero este estudio suele ser solo un paso previo al análisis inferencial, cuyo objetivo no es analizar esta muestra en si misma, sino inferir información sobre toda la población a partir de esta muestra.
La varianza de una muestra tiende a dar valores más pequeños que la varianza real de la población. Para muestras grandes, la diferencia no es sustancial: si \(n\) es grande, dividir por \(n\) o por \(n-1\) no supone una gran diferencia, sobre todo si tenemos en cuenta que se trata de estimar la varianza de la población, no de calcularla exactamente. Pero si el tamaño de la muestra es pequeño (menos de 25 individuos), la varianza muestral de una muestra aproxima significativamente mejor a la varianza real de la población que su varianza “verdadera”.
La varianza tiene las siguientes propiedades matemáticas:
Siempre es mayor que 0 \(s^2\geq 0\), porque es una suma de cuadrados de numeros reales.
Sólo la varianza equivale a 0 \(s^2=0\) cuando todos los sumandos \((x_i-\overline{x})^2\) son 0 y, por lo tanto, todos los datos son iguales a su media. - Si a todos los individuos de la variable se les suma un número la varianza no varía; si se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número
Es muy sensible a valores atípicos
La función de R para el cálculo de la varianza (muestral) es
var()
.
var(x)
## [1] 110.1238
La desviación típica es la raíz cuadrada \(s\) de la varianza: \(s=\sqrt{s^2}\). Se representa por σ (población) o s (muestra)
La desviación típica muestral es la raíz cuadrada positiva \(\tilde{s}\) de la varianza muestral: \(\tilde{s}=\sqrt{\tilde{s}^2}\).
Se calcula con la función sd()
sd(x)
## [1] 10.49399
Propiedades de la desviación típica:
Siempre produce 0 o un valor positivo.
Si todos los valores de la variable se les suma un número la desviación típica no varía; si se multiplican por ese número la desviación típica queda multiplicada por dicho número.
Observaciones:
Cuanta más pequeña es la desviación típica más concentrados están los datos alrededor de la media.
Muy sensible a las puntuaciones extremas.
📝 ACTIVIDAD DE EVALUACIÓN CONTINUA:
Calcula los siguientes estadísticos de la variable
superficie
perteneciente al dataframe
zonas_verdes.Rdata
. Crea luego una tabla con todos esos
valores
rango <- diff(range(zonas_verdes$superficie))
desv_media <- sum(abs(zonas_verdes$superficie - mean(zonas_verdes_superficie)))/length(zonas_verdes_superficie)
varianza <- var(zonas_verdes$superficie)
desviacion_tipica <- sd(zonas_verdes$superficie)
tabla <- rbind(rango, desv_media, varianza, desviacion_tipica)
Constituyen un método para describir un dato en relación con la desviación media y estándar de un grupo de datos. Se utilizan para comparar variables diferentes, que pueden tener medias y desviaciones típicas muy diferentes.
Se define como el número de desviaciones típicas que un valor dado toma con respecto a la media de su muestra o población. Si, por ejemplo, una herramienta devuelve una puntuación z de +2,5, diría que el resultado son desviaciones estándar de 2,5
Observaciones:
La media aritmética de las puntuaciones típicas es 0.
La desviación típica de las puntuaciones típicas es 1.
Es un estadístico adimensional, o sea, independiente de las unidades utilizadas.
Sirve para detectar observaciones anómalas: valores superiores(inferiores) a +-1.96 pueden ser considerados, de acuerdo con una distribución normal, como datos anómalos, dado que su probabilidad de ocurrencia es inferiores a 0.05.
z <- (x - mean(x)) / sd(x)
z
## [1] -0.6797542 -0.2985836 -0.8703395 -0.5844616 -0.2032910 -0.6797542
## [7] 0.9402208 -0.8703395 1.8931472 -0.4891689 -0.4891689 -0.2985836
## [13] 1.4166840 -0.6797542 1.8931472
:::{.alert .alert-warning}
✅ EJEMPLO:
Un problema típico al analizar la evolución de las precipitaciones en España son los valores tan dispares existentes entre unos lugares y otros. Esto supone una dificultad, que se puede solventar transformando las precipitaciones en puntuaciones estandarizadas. Para ilustrar esta solución, analizaremos las evolución de las precipitaciones anuales en 3 observatorios españoles, Santiago de Compostela-Labacolla, Bilbao-Sondica y Murcia-Alcantarilla
precipitaciones <- read.csv2("http://personales.unican.es/rasillad/docencia/G2040/TEMA_5/precipitaciones_mensuales.csv")
# Cambio en el nombre de la variable
names(precipitaciones)[1] <- "AÑOS"
Los valores medios anuales de precipitación son muy diferentes en estos observatorios
mean(precipitaciones$SANTIAGO)/10
## [1] 1796.09
mean(precipitaciones$BILBAO)/10
## [1] 1187.752
mean(precipitaciones$MURCIA)/10
## [1] 292.145
Representación gráfica de la evolución de las precipitaciones
plot(precipitaciones$AÑOS, precipitaciones$SANTIAGO/10, lwd = 2, col = "blue", type = "l", lty = 1, ylim = c(0,2700))
lines(precipitaciones$AÑOS, precipitaciones$BILBAO/10, lwd = 2, col = "red", type = "l", lty = 2, add = TRUE)
lines(precipitaciones$AÑOS, precipitaciones$MURCIA/10, lwd = 2, col = "darkgreen", type = "l", lty = 4, add = TRUE)
Conversión de los valores brutos de precipitación en anomalías estandarizadas (z)
precipitaciones$ZSANTIAGO <- (precipitaciones$SANTIAGO - mean(precipitaciones$SANTIAGO)) / sd(precipitaciones$SANTIAGO)
precipitaciones$ZBILBAO <- (precipitaciones$BILBAO - mean(precipitaciones$BILBAO)) / sd(precipitaciones$BILBAO)
precipitaciones$ZMURCIA <- (precipitaciones$MURCIA - mean(precipitaciones$MURCIA)) / sd(precipitaciones$MURCIA)
Representación gráfica de la evolución de las precipitaciones transformadas en puntuaciones Z
plot(precipitaciones$AÑOS, precipitaciones$ZSANTIAGO, lwd = 2, col = "blue", type = "l", lty = 1, ylim = c(-3,3))
lines(precipitaciones$AÑOS, precipitaciones$ZBILBAO, lwd = 2, col = "red", type = "l", lty = 2, add = TRUE)
lines(precipitaciones$AÑOS, precipitaciones$ZMURCIA, lwd = 2, col = "darkgreen", type = "l", lty = 4, add = TRUE)
📝 ACTIVIDAD DE EVALUACIÓN CONTINUA: transformación en puntuaciones Z de una variable:
Datos para la actividad
años_lluviosos <- subset(precipitaciones, # Dataframe
ZSANTIAGO >= 1.96 | ZBILBAO >= 1.96 | ZMURCIA >= 1.96) # Condiciones
años_secos <- subset(precipitaciones, # Dataframe
ZSANTIAGO <= -1.96 | ZBILBAO <= -1.96 | ZMURCIA <= -1.96) # Condiciones
Importa el fichero comunidades_pib
Transforma las variables superficie_km2
,
poblacion
y pib
en puntuaciones Z.
comunidades$Z_superficie <- (comunidades$superficie_km2 - mean(comunidades$superficie_km2)) / sd(comunidades$superficie_km2)
comunidades$Z_poblacion <- (comunidades$poblacion - mean(comunidades$poblacion)) / sd(comunidades$poblacion)
comunidades$Z_pib <- (comunidades$pib - mean(comunidades$pib)) / sd(comunidades$pib)
¿Hay alguna comunidad que puntúe por encima o por debajo de +/- 1.96?
¿Cuáles son las puntuaciones Z correspondientes a Cantabria?. Compáralas con las del resto de regiones y comenta su situación con respecto a las restantes regiones.
Se calcula como la relación entre la desviación típica y la media y se expresa como porcentaje. Permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas. En líneas generales, a mayor coeficiente de variación mayor dispersión
cv <- sd(x) / mean(x) * 100
cv
## [1] 41.75327
El coeficiente de variación también puede aplicarse a los datos de precipitaciones para saber cuál de los 3 observatorios presenta una mayor regularidad/irregularidad
CV_SANTIAGO <- sd(precipitaciones$SANTIAGO) / mean(precipitaciones$SANTIAGO) * 100
CV_BILBAO <- sd(precipitaciones$BILBAO) / mean(precipitaciones$BILBAO) * 100
CV_MURCIA <- sd(precipitaciones$MURCIA) / mean(precipitaciones$MURCIA) * 100
De acuerdo con estos datos, el observatorio de Murcia es el que presenta una mayor irregularidad interanual, lo cual es típico de los climas mediterráneos, mientras el de Bilbao es el que presenta una mayor regularidad interanual, típico a su vez de los climas oceánicos.
📝 ACTIVIDAD DE EVALUACIÓN CONTINUA: CÁLCULO DEL COEFICIENTE DE VARIACIÓN:
cv_altura <- 16/174 *100
cv_peso <- 14/70 *100
Temp
, Ozone
, Solar.R
y
Wind
del conjunto de datos airquality
.
Recuerda que alguna de estas variables contiene datos NA. Interpreta los
resultados desde el punto de vista de la variabilidad.cv_ozone <- sd(airquality$Ozone, na.rm = TRUE) / mean(airquality$Ozone, na.rm = TRUE) * 100
cv_solar_R <- sd(airquality$Solar.R, na.rm = TRUE) / mean(airquality$Solar.R, na.rm = TRUE) * 100
cv_Wind <- sd(airquality$Wind, na.rm = TRUE) / mean(airquality$Wind, na.rm = TRUE) * 100
cv_Temp <- sd(airquality$Temp, na.rm = TRUE) / mean(airquality$Temp, na.rm = TRUE) * 100
📝 ACTIVIDAD DE EVALUACIÓN CONTINUA: :
El fichero cuencas_precipitacion.csv
contiene los datos
anuales de precipitación en cada una de las cuencias hidrográficas de la
Península Ibérica. A partir de esos datos:
Ordena las cuencas hidrográficas en función de la precipitación media recibida: ¿cuál es la cuenca con precipitaciones más abundantes? ¿y la más seca?
¿Cuál es la cuenca con una mayor regularidad en las precipitaciones? ¿y la cuenca con mayor irregularidad?
Transforma los valores originales en puntuaciones típicas y extrae los 3 años más secos y los 3 más lluviosos en cada una de las cuencas. ¿Existe simultaneidad entre algunas de ellas?