Las variables temáticas de interés geográfico son muy variadas, ya que es objeto de estudio tanto el medio físico (litología, relieve, clima, vegetación, suelo, hidrografía, etc.) como el humano (características sociales, económicas, políticas, culturales, etc.). Pero en estos casos, el estudio de los fenómenos espaciales no tiene en cuenta su posición en el espacio, y se aplica desde la óptica de la Estadística Clásica,
Al igual que en otros campos científicos, en Geografía la recopilación y posterior tratamiento de la información implica:
Definir previamente las unidades que sirven de soporte a la recogida de la información.
Concretar el tipo de variables o atributos temáticos que caracterizarán a cada unidad de análisis.
En referencia a las unidades de análisis, en Geografía se suelen clasificar en objetos puntuales (sin dimensiones), objetos lineales (una dimensión), objetos superficiales planos o polígonos (dos dimensiones) y objetos superficiales o volúmenes (tres dimensiones).
A su vez, estas unidades pueden ser naturales o artificiales.
Las unidades naturales son intrínsecas al propio fenómeno observado. Por ejemplo, los usos del suelo constituyen un buen ejemplo de este tipo de unidades, ya que sus los límites espaciales entre las categorías representadas vienen determinados por las características del fenómeno en sí.
Por su parte, las unidades artificiales no se hallan relacionadas con ningún hecho geográfico, sino que han sido definidas de forma arbitraria. Las unidades administrativas (desde barrios a países) constituyen el mejor ejemplo de cómo subdividir el espacio sin una relación geográfica definida.
Otros autores diferencian los conceptos de entidad (derivado del inglés «entity») y campo (derivado, igualmente, de «field» ).
El término entidad se refiere a un objeto discreto e individualizable, representación de un fenómeno real, cuyos límites y extensión espacial están relativamente bien definidos: edificios, ciudades, oleoductos, carreteras, etc. Las entidades vienen representadas por elementos geométricos discretos (puntos, líneas y polígonos).
Por su parte, el concepto de campo se caracteriza por la variación cuantitativa de un fenómeno, de modo continuo en el espacio, como los campos escalares (campos de presión o temperatura) o modelos digitales del terreno (variación de la topografía de un territorio) o bien pueden ir asociados a variables nominales (v.g., los usos del suelo) que se manifiesten de manera discontinua en el espacio.
Es el elemento básico de información y cuantifica (mide) una determinada propiedad o característica de un objeto o de un fenómeno. También puede definirse como cada una de los fragmentos individuales de información, resultado de medir las características de objetos o individuos.
Los datos pueden ser o bien:
primarios, es decir, adquiridos directamente de la fuente original,
secundarios, procedentes de algún organismo (INE, ONU, WMO…).
En este último caso, el acceso es ahora bastante fácil a través de la web, pero su procedencia condiciona muchas de sus características; la obtención de datos primarios consume mucho tiempo e implica una discusión previa previa para su selección, pero su calidad está controlada por el investigador.
El valor es cada uno de los distintos resultados de esa medición; pe.e el medallero olímpico tiene 3 valores: oro, plata, bronce. En estadística también se utiliza el término puntuación. Hablaremos de valores atípicos (en inglés, outliers) en el caso de un valor inusual, muy pequeño o muy grande en comparación con el resto de los valores.
Una base de datos, en el sentido más general, es una colección de datos organizada de tal manera que que permite un acceso fácil a la información. Dentro de ellas existen varios tipos:
Las bases de datos estadísticas son fundamentalmente de lectura, almacenando datos fijos que después se pueden usar para estudiar el comportamiento de un fenómeno.
Las bases de datos dinámicas permite la modificación permanente de la información almacenada a través de operaciones como la actualización, el borrado y la edición de datos, además de su consulta.
Desde el punto de vista formal, y de acuerdo a las tres componentes antes citadas (espacial, temática y temporal), la información geográfica puede disponerse de manera práctica en una matriz en la que la información espacial se organiza de forma tabular, con:
Campos (columnas), equivalente a variables o a un atributos. Es la componente temática de la información espacial.
En Ciencias Sociales, una variables es cualquier característica que posee un objeto o individuo, por ejemplo, la edad, la altura y el peso son variables que caracterizan a seres humanos, animales u objetos. Estas características “varían” de sujeto a sujeto (cada sujeto tiene un valor para cada variable). Suelen designarse con letras mayúsculas del final del abecedario (X, Y, Z), mientras que los valores que toman las variables se representan con letras minúsculas con subíndice \(x_{1}\), \(x_{2}\), \(x_{3}\),…, \(x_{n}\).
En el caso de los datos espaciales, un atributo es el término equivalente a una variable, por lo que ambos términos se pueden usar indistintamente. Un atributo puede ser la población de un código postal o el ingreso anual per cápita en un distrito censal.
Un registro (fila) es un conjunto de campos y es equivalente a un caso. Aquí se ubica la información espacial (cualquier elemento geográfico definido: país, región, municipio, sección censal, cuadrícula del terreno, puntos relativos a observatorios, etc.).
La intersección de una fila con una columna determina una celda, cuyo valor expresa la medición del atributo considerado en la unidad espacial correspondiente.
Los elementos de una columna reflejarían la variación espacial de un atributo, mientras que los de una fila constituirían el inventario de valores temáticos correspondientes a un elemento geográfico. Por ejemplo, una guía telefónica contiene una lista de registros, cada uno de los cuales consta habitualmente de tres campos: nombre, dirección y número de teléfono.
Fuente: https://www.tuinstitutoonline.com/cursos/bbdd/basebasico1_v19es/02tablas.php
Estadísticamente, el geógrafo analiza simultáneamente 2 dimensiones, manteniendo fija la tercera, lo que propicia diferentes puntos de vista.
La introducción de la componente temporal se realiza, mediante la disposición de una serie de cortes transversales en el eje del tiempo, que muestren la distribución espacial de los valores temáticos de forma dinámica. Esta información permitiría la consecución de estudios de carácter temporal.
Comparar una fila o una columna (o parte de ellas) en dos momentos de tiempo diferentes.
Estudiar los cambios en las asociaciones o covariaciones espaciales a través del tiempo.
Otra matriz geográfica de gran empleo es la relativa a la interacción o relación entre las unidades espaciales. En este caso, las filas y las columnas se refieren a las entidades geográficas y las celdas recogen los flujos de relación existentes entre las mismas. A esta matriz se la conoce con el nombre de matriz de interacción.
La diversidad de la información geográfica implica trabajar con un variado conjunto de variables o atributos, relativos. Esta amplia variedad de características procede, tanto de la presencia de fenómenos en el interior de cada una de las unidades descritas (personas, edificios, especies animales o vegetales, etc.), como de la medición de los variados fenómenos que se manifiestan en el espacio (variables climáticas, tipos de suelo o roquedo, etc.), la medida respecto a una posición de referencia geográfica (coordenadas geográficas, altitud) o la magnitud de los flujos o relaciones mutuas existentes entre las unidades espaciales del análisis (Duncan, Cuzzort y Duncan, 1961). En un intento de mostrar esta amplia gama de atributos geográficos, así como de sus unidades de medida, podríamos referirnos a:
Si el territorio de estudio es analizado como una colección de «items» o «entes» contables, un posible resultado del análisis geográfico es simplemente medir el número de esos entes en cada unidad espacial. Ejemplos de este tipo de datos es el volumen de la población (número de personas censadas en un espacio geográfico concreto), o el número de familias, establecimientos industriales, el número de cabezas de ganado o el de especies vegetales determinadas. Estas variables se denominan extensivas, ya que su cuantía no depende del tamaño de las unidades geográficas en las que se insertan. Además, si existen subconjuntos dentro de esos entes (población de sexo masculino o aquélla que posee una determinada edad o nivel educativo) su número aumenta notablemente. Este tipo de variables pertenece a la escala de razón, ya que los resultados son fácilmente comparables con una unidad de medida (la persona, el establecimiento, el edificio, la especie animal o vegetal, etc.), y existe un cero absoluto en cada una de ellas.
Otro tipo de variables surge de la relación entre dos variables extensivas, creando los índices. Este tipo de variable se expresa como relación entre las poblaciones de dos estratos de la población total (por ejemplo el índice de masculinidad como relación entre el numero de hombres y el de mujeres) o la relación entre la población perteneciente a un estrato de población respecto a la población total (v. g. el índice de juventud, medido por el porcentaje de personas de edad menor de 15 años respecto al total de la población).
Si se relaciona la cuantía de un atributo con la unidad espacial de recogida de la información, las anteriores variables se expresan en forma de densidad, o relación entre el número de entes y su superficie (en el caso de polígonos) o longitud (en el caso de líneas). Es muy frecuente referirse al volumen de población por unidad de superficie o al número de estaciones de servicios de una carretera determinada, expresado por unidad de longitud. Este tipo de variables, como en el caso anterior, son de escala de razón.
Otro tipo de variables geográficas se deriva de la medición de un fragmento del territorio respecto a su superficie total. La medida de variables de carácter nominal, como la existencia de determinadas categorías de usos del suelo o de litología, puede ser evaluada por la presencia o ausencia de este fenómeno, en cuyo caso la escala de medida sería de tipo cualitativo, pero también por la relación de la superficie ocupada respecto al total de superficie de la unidad de análisis, en cuyo caso nos hallaríamos en presencia de una variable de razón. Este sería el caso de medir la superficie destinada al regadío de un municipio concreto, bien en hectáreas o en porcentaje respecto al total de la superficie del mismo.
El cálculo de las relaciones o flujos entre las unidades espaciales del análisis, medido en número de personas, bienes o capitales, es una variable de uso frecuente en los estudios geográficos. Así, la investigación acerca del mercado laboral de una gran ciudad requiere del conocimiento de los desplazamientos diarios entre los lugares de residencia y trabajo, medidos entre los municipios o distritos que la integran. Las variables derivadas estarían referidas a los flujos o movimientos de personas existentes entre cada unidad espacial objeto de estudio y las demás.
Para estudiar las variaciones sobre el territorio de un fenómeno determinado es necesario un procedimiento que asigne “símbolos” (bien en forma de números o de conjuntos de caracteres) a las distintas variantes que adopta una propiedad o atributo (una variable) en cada unidad de observación. Ese número representa el valor de una cualidad de esa unidad de observación. Este procedimiento de medida de las cualidades espaciales de cada elemento del universo espacial considerado se halla condicionado por la naturaleza del fenómeno espacial que se desea medir, por lo que, a causa de la diversidad de fenómenos, no es posible medirlos de la misma manera y con las mismas herramientas. Por ello, se han formulado varias escalas de medida, cada una adaptada a las características de esos procesos.
El proceso para definir y medir las variables es crucial, ya que una definición inapropiada o una medición incorrecta compromete el resto de decisiones. Algunas variables no son difíciles de definir (ejemplo “sexo”, “edad”), pero otras, aparentemente “obvias”, no lo son tanto: ejemplo “estado civil”, “estatus social”, “religiosidad”…
Su nivel de medición describe cómo se organizan sus valores entre sí. Dependiendo de la naturaleza de las variables que se estudian o de la precisión que requiera la organización de los datos, las variables o atributos poseen diferentes niveles de medición, dando origen a diferentes tipos de variables: variables cualitativas, a su vez divididas en nominales y ordinales, y las variables cuantitativas, divididas en discretas y continuas.
Variables cualitativas (categóricas). Sus características o cualidades que no pueden ser medidas con números, sino que son “categorías”, diferentes por una cualidad (no por una cantidad). Ofrecen dos propiedades: son exhaustivas, es decir, deben clasificar a todas las unidades de análisis (suele aparecer una categoría –”otros”- cuando hay individuos difíciles de clasificar) y mutuamente excluyentes, de manera que cada individuo es asignado a una categoría y sólo a ellas, es decir, no poseen ambigüedad (un único criterio de clasificación).
En este caso, los individuos objeto de estudio no sólo quedan clasificados sino ordenados.
Imaginemos que deseamos medir la productividad del suelo de forma categórica en tres clases: alta, media y baja producción. El tratamiento de la variable «producción agraria» podría realizarse, bien mediante variable nominal, o también en mediante variable ordinal, al existir un orden ascendente desde la baja a la alta producción.
Tanto las variables nominales como las ordinales se denominan, asimismo, como variables categóricas o cualitativas. Las categorías definidas deben cumplir una serie de propiedades: ser exhaustivas, mutuamente excluyentes y basadas en un único principio de clasificación. Las categorías son exhaustivas cuando permiten clasificar a todas las unidades de análisis.
La existencia de individuos difíciles de clasificar supone la necesidad de crear una clase que los integre y a la cual se le dé la etiqueta de «otros» o «resto». El principio de mutua exclusión. supone que no exista ambigüedad, de manera que cada individuo sea asignado a una categoría y sólo a ella.
Esta circunstancia implica que, cuando existen variables categóricas delimitadas por intervalos, se debe definir con exactitud a qué categoría pertenece el valor-frontera. Por ejemplo, si definimos la altitud como variable categórica, mediante las clases: 100-200 metros, 200-300 metros Y 300-400 metros, deberíamos señalar a qué categoría pertenecen los valore 200 y 300. Finalmente, las clases definidas en cada variable deben proceder de un único principio clasificatorio.
Los atributos de la entidad espacial medidos a niveles nominales u ordinales también se denominan atributos o variables categóricas.
ATENCIÓN: “números” que son “etiquetas”: código postal, número de teléfono, código de una asignatura.
La diferencia entre ambos se debe a que la escala de intervalo asigna un valor cero como origen de medición, que es elegido arbitrariamente, y que no significa que el objeto tenga ausencia de la característica que se mide. Un ejemplo característico de esta escala de medida es la temperatura. La temperatura 0°C (centígrados) no significa que no exista temperatura alguna, sino que ese punto es el origen de la medición. Por tanto, entre dos temperaturas, de 20 ºC y 40 ºC, no sería correcto decir que una es el doble de la otra. Muchas variables geográficas pertenecen, igualmente, a esta escala de medida. Por ejemplo, la renta per cápita de las provincias españolas, expresada con relación a una renta base igual a 100, sería una variable medida en escala de intervalo. La diferencia entre dos provincias con valores, de 80 y 90, sería la misma que otras dos, entre 110 y 120, sin que ocurra lo mismo entre los valores absolutos de las mismas.
Finalmente, las variables medidas en escala de razón se caracterizan por tener un cero absoluto, que representa la ausencia de la característica medida; por ejemplo, si se considera la altura media de la cubierta vegetal, dicha variable tendría valor cero en las zonas totalmente despejadas de vegetación; por esta causa, el cociente entre dos valores cualesquiera de una variable de este tipo es significativo en relación con la característica medida. Siguiendo con el mismo ejemplo, si se consideran dos zonas, cuya altura media de la cubierta vegetal sea, respectivamente, de 2 m y de 1 m, tiene sentido decir que la altura media de dicha cubierta es doble en la primera zona que en la segunda.
La selección de un tipo u otro de escala viene, en general, condicionado por las características de la variable a medir, aunque, a veces, una misma variable pueda medirse en una escala u otra. Pensemos en la vegetación de un área concreta, que únicamente reflejemos el tipo de planta existente (variable nominal), o el número de especies vegetales por unidad de superficie (variable cuantitativa). En general, la transformación de variables de carácter cuantitativo a ordinal o nominal supone una disminución de tiempo y esfuerzo en la realización del inventario de las mismas, aunque limite su tratamiento a métricas determinadas (no paramétricas).
Además, una variable puede ser modificada o transformada, con objeto de obtener una mejor representación de los datos, sin que ello represente nada más que una simple operación de cálculo. Solo las variables de mayor escala de medida pueden ser transformadas en otras de escala inferior o de la misma escala. Así, a partir de variables cuantitativas, es posible obtener escalas cualitativas, por categorización de la variable. Por ejemplo, la variable representativa de la pendiente del terreno, de tipo de razón, podría ser transformada en una variable cualitativa, al definir varios intervalos: 0-10%, 10-20%, 20-30% y 30-40%. La nueva variable sería una variable ordinal de cuatro clases, ordenadas de mayor a menor. Igualmente, una variable ordinal podría ser transformada en nominal o en una variable nominal podrían agruparse las categorías, reduciendo su número.
Como conclusión, el nivel de medición define el conjunto de los procedimientos estadísticos que se utilizarán posteriormente en el análisis. Muchos procedimientos y técnicas estadísticas no se pueden utilizar en todos los niveles de medición, ya que se aplican diferentes operaciones lógicas y aritméticas a diferentes niveles. Desde el punto de vista estadístico, se pueden utilizar más técnicas para analizar las variables de razón que las que se pueden utilizar para las variables nominales y ordinales.
A su vez, una base de datos puede contener:
Una población, es decir, toda la colección de observaciones/objetos/mediciones sobre las que se busca información. Como sinónimos la literatura ofrece los conceptos de colectivo o universo. Se representa con la letra N
Una muestra, o sea, un subconjunto representativo de una población de referencia, cuyo tamaño es menor que el de toda la población. Relacionados con el concepto de muestra aparecen los siguientes:
◦ Tamaño muestral: es el número de valores que componen la muestra
◦ Muestreo: acción de seleccionar una muestra, que puede ser aleatorio (los elementos que componen la muestra se seleccionan al azar) o no aleatorio (estratificado), por el que se aplican determinados criterios para elaborar la muestra, criterior que reproducen las características de una población.
Trabajar con muestras ofrece algunas ventajas, como es la reducción de tiempo y costes, siendo imprescindible cuando la población es infinita o la prueba es destructiva (duración de un determinado tipo de bombilla), pero presenta algunos inconvenientes, ya que las conclusiones que se extraen de trabajar con una muestra conllevan cierto grado de error, tanto mayor cuanto más pequeño es el tamaño de la muestra.
Otra distinción usual es la que se refiere a variables fundamentales y derivadas.
Las variables fundamentales son las generadas directamente por el proceso de medición, en el que no interviene otra operación más que la de medir (o contar en el caso de características contabilizadas). Son las observadas directamente o producidas mediante el empleo directo de algún instrumento de medida (precipitaciones, altitud, etc.).
Las variables derivadas se obtienen al relacionar, mediante alguna operación aritmética o similar, dos o más variables fundamentales, medidas independientemente. Ejemplos de ellas son la densidad de población, las tasas (de natalidad, de mortalidad, etc.) o los índices de precios etc. La realización de análisis estadísticos con las variables derivadas plantea, en muchas ocasiones, serios problemas, como ocurre en el caso de los porcentajes y proporciones.
Hay tres ramas principales de la estadística clásica (Linneman, 2011, p. 20):
La estadística descriptiva es un conjunto de procedimientos que resumen las características básicas de un conjunto de datos; cuando se analiza sólo una muestra no es apropiada para hacer inferencias con respecto a la población total. En este sentido, los resultados de la estadística descriptiva se aplican solo al conjunto de datos específico para el que se han calculado. La estadística descriptiva hace uso de tablas, gráficos y procedimientos estadísticos sencillos (Linneman 2011, p. 21).
La estadística inferencial analiza muestras para sacar conclusiones para toda la población. Los enfoques típicos para tratar con estadística inferencial incluyen pruebas de significación (prueba de hipótesis), intervalo de confianza e inferencia bayesiana.
La estadística explicativa utiliza métodos y técnicas para identificar relaciones entre variables y potencialmente “explicar” causalidades. En este tipo de estadística, las variables se tratan como dependientes o independientes (Linneman 2011, p. 21). La variable dependiente es lo que intentamos explicar a través de un conjunto de variables independientes. El análisis de regresión se utiliza normalmente en estadística explicativa.
El tiempo juega un papel de primera magnitud en la interpretación de los fenómenos en el espacio. El mundo real sólo puede ser explicado a partir de la evolución de las estructuras espaciales y de los procesos temporales que intervienen en su modificación. Así, un estudio de los usos del suelo de una determinada región requiere del conocimiento de los mismos en una etapa anterior, para comprender la modificación de la realidad según un patrón o modelo que ofrezca las claves de la transformación acontecida. El cambio puede afectar, exclusivamente, a la componente temática y no a la espacial. En este caso, el estudio de la evolución temporal de un fenómeno se ve facilitada. Ello supondría que las unidades espaciales continuarían siendo las mismas. Sería el caso de que los municipios de una región mantuvieran idénticos perfiles espaciales. Es frecuente, en las estadísticas ofrecidas por las administraciones públicas, una organización diferente de la información, de un año censal a otro, por el cambio de categorías en la distribución de la población de un colectivo, aunque no afecte a las unidades administrativas de referencia. Este hecho hace difícil la comparación de valores a lo largo del tiempo y la interpretación de la evolución temporal de un determinado fenómeno. Si los cambios suponen una modificación de los objetos de análisis, el estudio temporal complica la interpretación del fenómeno a analizar. Si los elementos geográficos son el resultado de la división o agrupación de los ya existentes, la información temática podría ser reconstruida, haciendo intervenir la totalidad de los mismos en las diversas etapas del estudio.
El estudio temporal, cuando se dispone de información suficiente es más fácil de realizar en el modelo raster. En este modelo, la atención se centra, exclusivamente, en el cambio temático, ya que las unidades espaciales, para el mismo nivel de resolución (tamaño de celda), permanecen idénticas.
El alumnado deberá entregar a los profesores a través de correo electrónico un script con los comandos de R correspondientes a las cuestiones planteadas a continuación.