INTRODUCCIÓN

Muestran si la forma de una distribución presenta ciertas características que permiten clasificarlas en diferentes tipos. Son últiles para compararlas con la forma de distribuciones de probabilidad conocidas, para identificar la que mejor representa el comportamiento de los datos.

Hay dos tipos de estadísticos.

ASIMETRÍA

Son indicadores que permiten establecer el grado de simetría (o asimetría) que presentan los datos de una distribución sin tener que representarlos gráficamente. Para medir la simetría se toma como eje de asimetría la recta paralela al eje de ordenadas que pasa por la media aritmética.

Existen diferentes estadísticos para medir la asimetría. Los más importantes son:

Coeficiente de asimetría de Fisher

El coeficiente de asimetría de Fisher es el más utilizado. Tiene en cuenta el número casos, el promedio y la desviación típica.

Fórmula del coeficiente de asimetría de Fisher
Fórmula del coeficiente de asimetría de Fisher
  • Si CAF<0: la distribución tiene una asimetría negativa y se alarga a valores menores que la media.

  • Si CAF=0: la distribución es simétrica.

  • Si CAF>0: la distribución tiene una asimetría positiva y se alarga a valores mayores que la media.

Coeficiente de asimetría de Fisher
Coeficiente de asimetría de Fisher

Para obtener el coeficiente de asimetría es necesario instalar la librería “moments”. Esta librería contiene la función skewness que proporciona el coeficiente de asimétrica de Fisher.

if (!require("moments")) install.packages("moments")    
library(moments)

x <- sample(17:89,
           1000,                # Número de observaciones a ser generadas
           replace = TRUE)
hist(x)

skewness(x)
## [1] 0.02954438

Coeficiente de asimetría de Pearson

Es otro de los coeficientes de gran uso, pero limitado a distribuciones uniformes, unimodales y moderadamente asimétricas. Se basa en comparar la media de la distribución con respecto a su moda.

Fórmula del coeficiente de asimetría de Pearson
Fórmula del coeficiente de asimetría de Pearson
  • Si CAP<0: la distribución tiene una asimetría negativa, puesto que la media es menor que la moda.

  • Si CAP=0: la distribución es simétrica.

  • Si CAP>0: la distribución tiene una asimetría positiva, ya que la media es mayor que la moda.

Coeficiente de asimetría de Pearson Su cálculo en R es relativamente sencillo, pero necesitamos el cálculo de la moda a través de la función mlv() con el argumento “mfv”.

library(modeest)
cap_pearson <- (mean(x)- mlv(x, method="mfv"))/mean(x)

Coeficiente de asimetría de Bowley-Yule

Está basado en la posición de los cuartiles y la mediana, y utiliza la siguiente expresión:

Coeficiente de asimetría de PearsonD:/G14_EE_CC_SS_2023/TEMA_2_Estadistica_Descriptiva/graficos/3_imagen_Estadisticos_18_Bowley.png){width=40%}

  • Si CAB<0: la distribución tiene una asimetría negativa, puesto que la distancia de la mediana al primer cuartil es mayor que al tercero.

  • Si CAB=0: la distribución es simétrica, ya que el primer y tercer cuartil están a la misma distancia de la mediana.

  • Si CAB>0: la distribución tiene una asimetría positiva, ya que la distancia de la mediana al tercer cuartil es mayor que al primero.

Coeficiente de asimetría de de Bowley
Coeficiente de asimetría de de Bowley

Para obtener el Coeficiente de asimetría de Bowley, es necesario obtener antes los cuartiles.

Q1 <- quantile(x, probs = 0.25)
Q2 <- quantile(x, probs = 0.50)
Q3 <- quantile(x, probs = 0.75)

cab <- (Q3+Q1-2*Q2)/(Q3-Q1)
cab
## 75% 
##   0

También existe un Coeficiente Absoluto de Asimetría, que requiere también requiere haber calculado previamente los cuartiles, pero en el que el denominador es la desviación típica.

caa <- (Q3+Q1-2*Q2)/sd(x)
caa
## 75% 
##   0

APUNTAMIENTO(curtosis)

Es una medida de forma que mide cuán escarpada o achatada está una distribución. Indica la cantidad de datos que hay cercanos a la media, de manera que a mayor curtosis, más escarpada (o apuntada) será la curva, al tiempo que existe una relativamente menor frecuencia de valores intermedios.

La fórmula de la curtosis es la siguiente:

Formula de la curtosis
Formula de la curtosis

Una distribución puede clasificarse como:

Leptocúrtica: en la cual los valores están muy agrupados alrededor de la media, por lo que la distribución se presenta bastante apuntada y esbelta.

Mesocúrtica: posee una concentración moderada de valores alrededor de la media.

Platicúrtica: está distribución tiene una forma más ancha, pues los valores tienden a estar más dispersos.

Formula de la curtosis
Formula de la curtosis

Para calcular curtosis en R y RStudio vamos a usar la función kurtosis.

kurtosis(x)
## [1] 1.86507

Ejemplo desarrollado de asimetría y curtosis en R.

Supongamos el siguiente conjunto de datos:

datos <- c(88, 95, 92, 97, 96, 97, 94, 86, 91, 95, 97, 88, 85, 76, 68)

Para visualizar rápidamente la distribución de valores de estos datos se dibuja un histograma

hist (datos)

El paquete moments ofrece la función jarque.test() , que realiza una prueba de bondad de ajuste que determina si los datos de la muestra tienen asimetría y curtosis que coinciden con una distribución normal. Las hipótesis nula y alternativa de esta prueba son las siguientes:

  • Hipótesis nula: el conjunto de datos tiene una asimetría y una curtosis que coincide con una distribución normal.

  • Hipótesis alternativa: el conjunto de datos tiene una asimetría y una curtosis que no coincide con una distribución normal.

Para realizar la prueba:

jarque.test (datos)
## 
##  Jarque-Bera Normality Test
## 
## data:  datos
## JB = 5.7097, p-value = 0.05756
## alternative hypothesis: greater

El valor p de la prueba resulta ser 0.05756. Dado que este valor es superior al nivel de significación α = .05, no rechazamos la hipótesis nula. Esto significa que no hay evidencia suficiente para decir que este conjunto de datos tiene una asimetría y una curtosis diferente a la distribución normal.

📝 ACTIVIDAD DE EVALUACIÓN CONTINUA: :

A partir de los datos contenidos en el fichero cuencas_precipitacion.csv:

  • Calcula los diferentes índices de forma estudiados en este bloque y verifica si existen diferencias entre la distribución de la precipitación anual en cada una de las cuencas hidrográficas.

  • Aplica la prueba de Jarque para determinar si las series de precipitación muestran una distribución normal o no.

rm(list=ls())