💡 Datos para la actividad:

Datos: para la realización de esta actividad se utilizará el fichero creado en el tema anterior, que en el caso del ejemplo realizado en clase, tiene por nombre at_df. Los ficheros en formato *.csv utilizados en la unidad pueden descargarse aquí. Además, se hará uso del dataframe zonas_verdes.

Scripts.

INTRODUCCIÓN

En el tema anterior se revisaron diferentes procedimientos para el análisis y la representación gráfica de variables de manera individual. Sin embargo, muchos fenómenos deben abordarse a través del estudio simultáneo de sus propiedades (variables). Según se analicen \(2, 3,…, n\) variables, estas distribuciones se denominan \(n-dimensionales\).

Estas variables pueden poseer una propiedad denominada covariabilidad, que refleja su grado de asociación; el objetivo de este tema es proporcionar las herramientas necesarias para averiguar si poseen dicha propiedad.

Dependiendo del tipo de variables, existen diferentes procedimientos (herramientas) para medirla:

⚠️ ATENCIÓN:
no debe confundirse el análisis de correlación con el de regresión, si bien este último suele venir precedido por el primero, pero no al revés. ¿Qué diferencias existe entre ellos:

  • Correlación: analiza la intensidad y el sentido de la variación conjunta de dos variables.

  • Regresión: es un paso posterior. Si dos variables están estrechamente relacionadas, los valores de una de las variables (variable dependiente) podrían depender de los valores de la otra (variable independiente), lo que serviría para predecir un valor desconocido de esa variable dependiente según los valores conocidos que tome la variable independiente.

También existen diferentes pruebas para analizar la relación entre una o varias variables cualitativas y una o varias variables cuantitativas.

TIPOS DE PRUEBAS

De las posibles combinaciones, destacan las siguientes:

Esquema con diferentes pruebas estadísticas
Esquema con diferentes pruebas estadísticas

Cada una de estas preguntas se puede responder utilizando las siguientes pruebas estadísticas:

De acuerdo con esta estructura, el tema se organiza de la siguiente manera:

REQUISITOS BÁSICOS

Para la elección de alguna de estas pruebas, se requiere tener en cuenta ciertos supuestos. Por ejemplo, la mayoría asumen que los datos poseen ciertas características:

Algunas pruebas (por ejemplo, correlación, prueba t y ANOVA) se califican como paramétricas, porque su validez depende de la distribución de los datos. Antes de usar una prueba paramétrica, debemos realizar algunas pruebas preliminares para asegurarnos de que se cumplan los supuestos de la prueba. En las situaciones en las que se violan los supuestos, se recomiendan pruebas no paramétricas.

¿Cómo evaluar la normalidad de los datos?

Con tamaños de muestra lo suficientemente grandes (n > 30), la violación del supuesto de normalidad no debería causar problemas importantes (teorema del límite central). Esto implica que podemos ignorar la distribución de los datos y usar pruebas paramétricas.

Sin embargo, para ser coherentes, podemos utilizar la prueba de de Shapiro-Wilk comparando la distribución de la muestra con otra teóricamente normal para determinar si los datos muestran o no una desviación grave de la normalidad.

¿Cómo evaluar la igualdad de varianzas?

La prueba t de Student estándar (comparación de dos muestras independientes) y la prueba ANOVA (comparación de múltiples muestras) asumen también que las muestras a comparar tienen varianzas iguales.

Si las muestras, que se comparan, siguen una distribución normal, entonces es posible utilizar:

  • Prueba F para comparar las varianzas de dos muestras.

  • Prueba de Bartlett o Prueba de Levene para comparar las varianzas de múltiples muestras.

EL CONCEPTO DE SIGNIFICACIÓN ESTADÍSTICA

En este momento también es conveniente introducir otro concepto fundamental, el de significación estadística. Un resultado o efecto es estadísticamente significativo cuando es improbable que haya sido debido al azar.

Este concepto está asociado al de nivel de significación de una prueba estadística, que está asociado a la verificación de una hipótesis. El nivel de significación se define como la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando ésta es verdadera (decisión conocida como error de tipo I, o falso positivo).

La decisión se toma a menudo utilizando el valor p: si el valor p es inferior al nivel de significación, entonces la hipótesis nula es rechazada. Cuanto menor sea el valor p, más significativo será el resultado. En otros términos, el nivel de significación de un contraste de hipótesis es una probabilidad p tal que la probabilidad de tomar la decisión de rechazar la hipótesis nula —cuando esta es verdadera— no es mayor que p. 

También debe conocerse qué se entiende por hipótesis nula e hipótesis alternativa. Siempre que se aborde el análisis de un proceso, el investigador debe establecer estas dos hipótesis.

ATENCIÓN:

Por ejemplo, si queremos analizar el papel que tiene la implantación de una zona de bajas emisiones en una ciudad, podemos calcular el valor medio de un contaminante antes y después de esa fecha.

  • La hipótesis de partida (hipótesis nula) es que esa implantación no tuvo efecto (los valores medios del contaminante fueron iguales antes y después).

  • El rechazo de la hipótesis nula (hipótesis alternativa) es que dichas medidas sí tuvieron efecto (los valores medios fueron diferentes.

Otro ejemplo. Un investigador analiza el salario medio en un determinado barrio, concluyendo que el promedio mensual es 1500 euros. El investigador quiere contrastar:

  • Si ese salario es igual a 1.500 (conclusión del estudio = hipótesis alternativa).

  • Si por el contrario el salario medio mensual por habitante es distinto a 1500 (conclusión contraria a la del estudio que se pretende negar y por ende hipótesis nula).

CAUSALIDAD vs CASUALIDAD

Principio “Cum hoc ergo propter hoc” (en latín «con esto, por tanto a causa de esto»).

La obtención de un valor numérico estadísticamente significativo cuando comparamos dos variables no prueba una relación entre ambos. El principio mencionado es una falacia (un argumento no válido), que se comete al suponer que dos o más eventos están conectados causalmente por haberse observado esa relación estadística. Se expresa mediante la frase «correlación no implica causalidad». Para ello, se debe considerar la validez de al menos una de las siguientes posibilidades:

  • Que la variable B sea la causa conocida de la variable A.

  • Que haya una tercera variable, desconocida, que sea realmente la causa de la relación entre A y B.

  • Que la relación sea tan compleja y numerosa que los hechos sean simples coincidencias.

  • Que el efecto sea tomado por la causa, y la causa por el efecto. Es decir, dados dos eventos A y B que aparecen juntos, puede creerse que A es causa de B, cuando en realidad B es causa de A (falacia de dirección incorrecta o de causalidad inversa).

  • Que B sea la causa de A y al mismo tiempo A sea la de B, es decir, que manifiesten una relación sinérgica o simbiótica donde la unión cataliza los efectos que se observan.

Sitio web con coincidencias sorprendentes

Principio “Post hoc ergo propter hoc”

Además, existe otro principio falso, conocido como “Post hoc ergo propter hoc” (en latín «después de eso, esto; entonces, a consecuencia de eso, esto» o «tras eso; luego, por causa de eso»), conocido como correlación coincidente. En este caso, se asume que si un acontecimiento sucede después de otro, el segundo es consecuencia del primero, resultado de observar sólo el orden de los acontecimientos. La falacia post hoc puede expresarse así:

  • El acontecimiento A sucedió antes que el acontecimiento B.

  • Por lo tanto, A debe haber causado B.

Un ejemplo puede ser:

  • Las ventas de helado aumentan mucho a principios del mes de junio.

  • Los accidentes de tráfico aumentan mucho a finales del mes de junio.

  • Por lo tanto, el que las ventas de helado aumenten provoca que los coches tengan más accidentes.