1 INTRODUCCIÓN

En el tema anterior se revisaron diferentes procedimientos para el análisis y la representación gráfica de variables individuales. Sin embargo, muchos fenómenos naturales y sociales deben abordarse a través del estudio simultáneo de varias propiedades (variables). Según se analicen \(2, 3,…, n\) variables, estas distribuciones se denominan \(n-dimensionales\).

Estas variables pueden poseer una propiedad denominada covariabilidad, que refleja su grado de asociación. El objetivo de este tema es proporcionar las herramientas necesarias para averiguar si esas variables poseen dicha propiedad. Dependiendo del tipo de variables, existen diferentes procedimientos para medirla:

Variables nominales: el objetivo es determinar si alguna clase o categoría de la primera variable está más relacionadas con ciertas clases o categorías de la segunda variable. Los procedimientos más adecuados son:

Variables cuantitativas: también existen diversos procedimientos, como son:

ATENCIÓN: no debe confundirse el análisis de correlación con el de regresión, si bien este último suele requerir el primero, pero no al revés. ¿Qué diferencias existe entre ellos:

También existen diferentes pruebas para analizar la relación entre una o varias variables cualitativas y una o varias variables cuantitativas.

2 TIPOS DE PRUEBAS

De las posibles combinaciones, destacan las siguientes:

Esquema con diferentes pruebas estadísticas

Cada una de estas preguntas se puede responder utilizando las siguientes pruebas estadísticas:

De acuerdo con esta estructura, el tema se organiza de la siguiente manera:

3 REQUISITOS BÁSICOS

Para la elección de alguna de estas pruebas, se requiere tener en cuenta ciertos supuestos. Por ejemplo, la mayoría asumen que los datos poseen ciertas características:

Algunas pruebas (por ejemplo, correlación, prueba t y ANOVA) se denominan paramétricas, porque su validez depende de la distribución de los datos. Antes de usar la prueba paramétrica, debemos realizar algunas pruebas preliminares para asegurarnos de que se cumplan los supuestos de la prueba. En las situaciones en las que se violan los supuestos, se recomiendan pruebas no paramétricas.

¿Cómo evaluar la normalidad de los datos?

Con tamaños de muestra lo suficientemente grandes (n > 30), la violación del supuesto de normalidad no debería causar problemas importantes (teorema del límite central). Esto implica que podemos ignorar la distribución de los datos y usar pruebas paramétricas.

Sin embargo, para ser coherentes, podemos utilizar la prueba de significación de Shapiro-Wilk comparando la distribución de la muestra con una normal para determinar si los datos muestran o no una desviación grave de la normalidad.

¿Cómo evaluar la igualdad de varianzas?

La prueba t de Student estándar (comparación de dos muestras independientes) y la prueba ANOVA (comparación de múltiples muestras) asumen también que las muestras a comparar tienen varianzas iguales.

Si las muestras, que se comparan, siguen una distribución normal, entonces es posible utilizar:

4 EL CONCEPTO DE SIGNIFICACIÓN ESTADÍSTICA

En este momento también es conveniente introducir algunos conceptos fundamentales en Estadística. El primero es el concepto de significación estadística. En estadística, un resultado o efecto es estadísticamente significativo cuando es improbable que haya sido debido al azar. Este concepto está asociado al de nivel de significación de una prueba estadística, que está asociado a la verificación de una hipótesis. El nivel de significación se define como la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando ésta es verdadera (decisión conocida como error de tipo I, o falso positivo). La decisión se toma a menudo utilizando el valor p: si el valor p es inferior al nivel de significación, entonces la hipótesis nula es rechazada. Cuanto menor sea el valor p, más significativo será el resultado.En otros términos, el nivel de significación de un contraste de hipótesis es una probabilidad p tal que la probabilidad de tomar la decisión de rechazar la hipótesis nula —cuando esta es verdadera— no es mayor que p. 

También debe conocerse qué se entiende por hipótesis nula e hipótesis alternativa. Siempre que se aborde el análisis de un proceso, el investigador debe establecer estas dos hipótesis.

Por ejemplo, si queremos analizar el papel que tiene la implantación de una zona de bajas emisiones en una ciudad, podemos calcular el valor medio de un contaminante antes y después de esa fecha.

Otro ejemplo. Un investigador analiza el salario medio en un determinado barrio, concluyendo que el promedio mensual es 1500 euros. El investigador quiere contrastar:

5 CAUSALIDAD vs CASUALIDAD

ATENCIÓN: el principio “Cum hoc ergo propter hoc” (en latín «con esto, por tanto a causa de esto»).

La obtención de un valor numérico estadísticamente significativo cuando comparamos dos variables no prueba una relación entre ambos. El principio mencionado es una falacia (un argumento no válido), que se comete al suponer que dos o más eventos están conectados causalmente por haberse observado esa relación estadística. Se expresa mediante la frase «correlación no implica causalidad». Para ello, se debe considerar la validez de al menos una de las siguientes posibilidades:

Sitio web con coincidencias sorprendentes

Además, existe otro principio falso, conocido como “Post hoc ergo propter hoc” (en latín «después de eso, esto; entonces, a consecuencia de eso, esto» o «tras eso; luego, por causa de eso»), conocido como correlación coincidente. En este caso, se asume que si un acontecimiento sucede después de otro, el segundo es consecuencia del primero, resultado de observar sólo el orden de los acontecimientos. La falacia post hoc puede expresarse así:

Un ejemplo puede ser:

Para la realización de las actividades de este apartado deben descargarse los scripts correspondientes.