En el tema anterior se revisaron diferentes procedimientos para el análisis y la representación gráfica de variables individuales. Sin embargo, muchos fenómenos naturales y sociales deben abordarse a través del estudio simultáneo de varias propiedades (variables). Según se analicen \(2, 3,…, n\) variables, estas distribuciones se denominan \(n-dimensionales\).
Estas variables pueden poseer una propiedad denominada covariabilidad, que refleja su grado de asociación. El objetivo de este tema es proporcionar las herramientas necesarias para averiguar si esas variables poseen dicha propiedad. Dependiendo del tipo de variables, existen diferentes procedimientos para medirla:
Variables nominales: el objetivo es determinar si alguna clase o categoría de la primera variable está más relacionadas con ciertas clases o categorías de la segunda variable. Los procedimientos más adecuados son:
Representar gráficamente las variables.
Organizar la información en una tabla de contingencia (tabla de doble entrada), donde los diversos casos o individuos se distribuyen entre las clases en que se hallan divididas ambas variables.
Verificar y cuantificar la relación entre variables mediante diversas pruebas, como la de \(\chi^2\), o varios coeficientes de contingencia.
Variables cuantitativas: también existen diversos procedimientos, como son:
La elaboración de gráficos, como el de dispersión.
Cuantificar el grado de asociación mediante el cálculo de la covarianza o diversos coeficientes de correlación, como el de Pearson (variables cuantitativas continuas). En caso de que las variables tengan un orden interno, creciente o decreciente, se pueden utilizar los coeficientes de correlación de Spearman y Kendall.
ATENCIÓN: no debe confundirse el análisis de correlación con el de regresión, si bien este último suele requerir el primero, pero no al revés. ¿Qué diferencias existe entre ellos:
Correlación: analiza la intensidad y el sentido de la variación conjunta de dos variables.
Regresión: es un paso posterior. Si dos variables están estrechamente relacionadas, los valores de una de las variables (variable dependiente) podrían depender de los valores de la otra (variable independiente), lo que serviría para predecir un valor desconocido de esa variable dependiente según los valores previamente conocidos que tome la variable independiente.
También existen diferentes pruebas para analizar la relación entre una o varias variables cualitativas y una o varias variables cuantitativas.
De las posibles combinaciones, destacan las siguientes:
Si dos o más variables cuantitativas están correlacionadas (es decir, asociadas).
Si dos o más variables cualitativas están relacionadas entre sí.
Si dos grupos (n = 2) difieren entre sí.
Si varios grupos (n >= 2) difieren entre sí.
Si la variabilidad (dispersión) de dos o más grupos difieren entre sí.
Esquema con diferentes pruebas estadísticas
Cada una de estas preguntas se puede responder utilizando las siguientes pruebas estadísticas:
Cálculo de proporciones (pe. chi cuadrado).
Comparación de las medias de dos grupos:
Prueba t de Student (paramétrica).
Prueba de rango de Wilcoxon (no paramétrica).
Comparación de las medias de más de dos grupos.
Prueba ANOVA (análisis de varianza, paramétrico): extensión de la prueba t para comparar más de dos grupos.
Prueba de suma de rangos de Kruskal-Wallis (no paramétrica): extensión de la prueba de rangos de Wilcoxon para comparar más de dos grupos.
Comparando las varianzas:
Comparación de las varianzas de dos grupos: prueba F (paramétrica).
Comparación de las varianzas de más de dos grupos: test de Bartlett (paramétrico), test de Levene (paramétrico) y test de Fligner-Killeen (no paramétrico).
Correlación entre dos variables (coeficientes de correlación).
De acuerdo con esta estructura, el tema se organiza de la siguiente manera:
Relación entre dos variables cualitativas.
Relación entre una variable cualitativa y otra cuantitativa.
Relación entre dos variables cuantitativas y regresión lineal.
Para la elección de alguna de estas pruebas, se requiere tener en cuenta ciertos supuestos. Por ejemplo, la mayoría asumen que los datos poseen ciertas características:
Los datos se distribuyen normalmente.
Las varianzas de los grupos a comparar son homogéneas (iguales).
Algunas pruebas (por ejemplo, correlación, prueba t y ANOVA) se denominan paramétricas, porque su validez depende de la distribución de los datos. Antes de usar la prueba paramétrica, debemos realizar algunas pruebas preliminares para asegurarnos de que se cumplan los supuestos de la prueba. En las situaciones en las que se violan los supuestos, se recomiendan pruebas no paramétricas.
¿Cómo evaluar la normalidad de los datos?
Con tamaños de muestra lo suficientemente grandes (n > 30), la violación del supuesto de normalidad no debería causar problemas importantes (teorema del límite central). Esto implica que podemos ignorar la distribución de los datos y usar pruebas paramétricas.
Sin embargo, para ser coherentes, podemos utilizar la prueba de significación de Shapiro-Wilk comparando la distribución de la muestra con una normal para determinar si los datos muestran o no una desviación grave de la normalidad.
¿Cómo evaluar la igualdad de varianzas?
La prueba t de Student estándar (comparación de dos muestras independientes) y la prueba ANOVA (comparación de múltiples muestras) asumen también que las muestras a comparar tienen varianzas iguales.
Si las muestras, que se comparan, siguen una distribución normal, entonces es posible utilizar:
Prueba F para comparar las varianzas de dos muestras.
Prueba de Bartlett o Prueba de Levene para comparar las varianzas de múltiples muestras.
En este momento también es conveniente introducir algunos conceptos fundamentales en Estadística. El primero es el concepto de significación estadística. En estadística, un resultado o efecto es estadísticamente significativo cuando es improbable que haya sido debido al azar. Este concepto está asociado al de nivel de significación de una prueba estadística, que está asociado a la verificación de una hipótesis. El nivel de significación se define como la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando ésta es verdadera (decisión conocida como error de tipo I, o falso positivo). La decisión se toma a menudo utilizando el valor p: si el valor p es inferior al nivel de significación, entonces la hipótesis nula es rechazada. Cuanto menor sea el valor p, más significativo será el resultado.En otros términos, el nivel de significación de un contraste de hipótesis es una probabilidad p tal que la probabilidad de tomar la decisión de rechazar la hipótesis nula —cuando esta es verdadera— no es mayor que p.
También debe conocerse qué se entiende por hipótesis nula e hipótesis alternativa. Siempre que se aborde el análisis de un proceso, el investigador debe establecer estas dos hipótesis.
La hipótesis nula (H0) se refiere a la afirmación contraria a la que ha llegado el investigador. Es la hipótesis que el investigador pretender rechazar. Si tiene la evidencia suficiente para ello, podrá probar que lo contrario es cierto. Por lo general la hipótesis nula incluye un no (o un desigual a) en su enunciado.
Por lo tanto, la hipótesis alternativa (H1) es la conclusión a la que el investigador ha llegado a través de su investigación.
Por ejemplo, si queremos analizar el papel que tiene la implantación de una zona de bajas emisiones en una ciudad, podemos calcular el valor medio de un contaminante antes y después de esa fecha.
La hipótesis de partida (hipótesis nula) es que esa implantación no tuvo efecto (los valores medios del contaminante eran iguales).
El rechazo de la hipótesis nula (hipótesis alternativa) es que dichas medidas sí tuvieron efecto.
Otro ejemplo. Un investigador analiza el salario medio en un determinado barrio, concluyendo que el promedio mensual es 1500 euros. El investigador quiere contrastar:
Si ese salario es igual a 1.500 (conclusión del estudio = hipótesis alternativa).
Si por el contrario el salario medio mensual por habitante es distinto a 1500 (conclusión contraria a la del estudio que se pretende negar y por ende hipótesis nula).
ATENCIÓN: el principio “Cum hoc ergo propter hoc” (en latín «con esto, por tanto a causa de esto»).
La obtención de un valor numérico estadísticamente significativo cuando comparamos dos variables no prueba una relación entre ambos. El principio mencionado es una falacia (un argumento no válido), que se comete al suponer que dos o más eventos están conectados causalmente por haberse observado esa relación estadística. Se expresa mediante la frase «correlación no implica causalidad». Para ello, se debe considerar la validez de al menos una de las siguientes posibilidades:
Que la variable B sea la causa conocida de la variable A.
Que haya una tercera variable, desconocida, que sea realmente la causa de la relación entre A y B.
Que la relación sea tan compleja y numerosa que los hechos sean simples coincidencias.
Que el efecto sea tomado por la causa, y la causa por el efecto. Es decir, dados dos eventos A y B que aparecen juntos, puede creerse que A es causa de B, cuando en realidad B es causa de A (falacia de dirección incorrecta o de causalidad inversa).
Que B sea la causa de A y al mismo tiempo A sea la de B, es decir, que manifiesten una relación sinérgica o simbiótica donde la unión cataliza los efectos que se observan.
Sitio web con coincidencias sorprendentes
Además, existe otro principio falso, conocido como “Post hoc ergo propter hoc” (en latín «después de eso, esto; entonces, a consecuencia de eso, esto» o «tras eso; luego, por causa de eso»), conocido como correlación coincidente. En este caso, se asume que si un acontecimiento sucede después de otro, el segundo es consecuencia del primero, resultado de observar sólo el orden de los acontecimientos. La falacia post hoc puede expresarse así:
El acontecimiento A sucedió antes que el acontecimiento B.
Por lo tanto, A debe haber causado B.
Un ejemplo puede ser:
Las ventas de helado aumentan mucho a principios del mes de junio.
Los accidentes de tráfico aumentan mucho a finales del mes de junio.
Por lo tanto, el que las ventas de helado aumenten provoca que los coches tengan más accidentes.
Para la realización de las actividades de este apartado deben descargarse los scripts correspondientes.