A menudo, la falta de pensamiento espacial entre los analistas o la carencia de conocimiento acerca del análisis espacial conlleva el que la información de naturaleza espacial sea analizada sin tener en cuenta sus dimensiones espaciales. Al retirar el espacio geográfico del análisis, se pierde una gran cantidad de información o surgen problemas que invalidan los resultados. Por ejemplo, si existe una autocorrelación espacial, entonces la aplicación de la estadística clásica a menudo viola los supuestos esenciales para obtener resultados estadísticamente significativos, y los resultados pueden estar sesgados. Por lo tanto, los datos espaciales son especiales, y para su análisis se deben utilizar nuevos métodos y técnicas que tengan en cuenta las relaciones espaciales y la conceptualización espacial*.
Por datos espaciales hacemos referencia a un tipo de información referenciada geográficamente (“georeferenciada) y que representa fenómenos ubicados en un determinado territorio o espacio. Los datos espaciales no solo poseen los valores o atributos representativos de uno o varios fenómenos de interés (población, la tasa de desempleo, la renta per cápita o la temperatura media mensual), sino también proprorcionan información de naturaleza geográfica (geometría, localización en el espacio -coordenadas y sistema de coordenadas-).
Mientras el análisis estadístico clásico sólo utiliza esos atributos, el análisis espacial combina ambos tipos de información, mediante un conjunto específico de herramientas que veremos más adelante. La inclusión de esa información diferencia los métodos y los estadísticos resultado del análisis espacial respecto a los del análisis de datos clásico (Anselin, 1989).
Los datos espaciales se pueden expresar en varios formatos, siendo los fundamentales el formato vectorial y el formato ráster.
Los datos espaciales presentan unas singularidades que, como veremos más adelante, requieren métodos específicos de análisis. Por lo tanto, cabe preguntarse por estas singularidades
En primer lugar, el análisis espacial trabaja con conceptos y parámetros derivados de esa información georeferenciada, como la ubicación, la distancia, la forma, el área, el vecindario, la adyacencia y la interacción.
En segundo lugar, muchos de los enfoques estadísticos convencionales no se pueden aplicar directamente a los datos espaciales porque éstos últimos experimentan problemas específicos:
Conceptualización del espacio. De acuerdo con la citada primera ley de geografía de Tobler, “las cosas cercanas están más relacionadas que las cosas distantes”. Los fenómeno geográficos no están aislados entre sí, sino que muestran interacciones de naturaleza social, económica, demográfica, etc… Estas interacciones tienen una dimensión espacial, en relación a la ubicación y a la distancia entre los fenómenos. Para estudiarlos, hay que determinar matemáticamente si un objeto está cerca de otro, cómo se define el que dos objetos sean “contiguos”, qué tamaño tiene un vecindario etc… A esto se le llama conceptualización de las relaciones espaciales.
La (elección de la) escala geográfica. Antes de cualquier análisis espacial debe seleccionarse la escala geográfica adecuada, ya que afecta directamente al tipo de datos a recopilar, los métodos a utilizar y, en definitiva, su resultado final. Por ejemplo, una ciudad puede representarse como un punto a escala nacional, como un polígono a escala regional o como un conjunto de polígonos (por ejemplo, códigos postales) a una escala local.
La (elección de la) escala de análisis de los datos. La escala de análisis está estrechamente relacionada con la escala geográfica, pero no es exactamente el mismo concepto. En la práctica, la escala de análisis se refiere a la distancia a la que se analizarán las características espaciales (por ejemplo, a escala municipal, de distrito o de secciones censales) para calcular las estadísticas espaciales. Por lo tanto, define el tamaño y la forma del territorio después de que se haya establecido la escala geográfica. Es esencialmente el nivel de comprensión de los fenómenos espaciales y está estrechamente relacionado con el fenómeno espacial sometido a estudio. Por lo tanto, aunque la escala geográfica suele ser la misma en todo el conjunto de datos, la escala de análisis depende de la distribución espacial de los valores de los atributos. Por lo general, las distancias más grandes reflejan tendencias más amplias (por ejemplo, de carácter zonal), mientras que distancias más pequeñas reflejan tendencias más locales (por ejemplo, entre vecindarios). Si utilizamos una escala de análisis grande pero observando a nivel local, se corre el riesgo de generalizar, borrando posibles fenómenos de heterogeneidad. En un ejemplo hipotético, la agrupación del desempleo podría ser evidente a escala de análisis de 100 m y 1000 m, lo que refleja patrones de agrupación tanto a nivel de bloque censal como a nivel de código postal.
El problema de la unidad de área modificable (MAUP). Los datos de los atributos obtenidos de fuentes administrativas, como los de los censos, a menudo se agregan en zonas predefinidas. La definición de esas zonas (límites y extensión) es arbitraria con respecto al problema geográfico específico. El diseño de esa zona puede tener influencia en los resultados del análisis; un diseño diferente probablemente conduciría a resultados diferentes. Por ejemplo, en muchas ciudades, los códigos postales son más pequeños en el centro y se hacen más grandes en las afueras. Un ejemplo típico de las consecuencias de este problema son las elecciones presidenciales de Estados Unidos de 2000. Al Gore obtuvo más votos que George Bush, pero perdió debido a la forma en que se diseñaron los condados dentro de cada estado (O’Sullivan y Unwin, 2010). El MAUP se relaciona tanto con la escala del análisis como con el nivel de agregación de los datos. En general, con unidades más grandes, tendemos a generalizar, es decir, los valores agregados tienden a ser similares a la media global y las desviaciones respecto a esa media tienden a ser más suaves, en cuyo caso podemos perder información valiosa.
Cuando existe heterogeneidad espacial, la recopilación de datos y análisis de la información ofrece ciertas dificultades. Por ejemplo, supongamos un estudio sobre la incidencia de determinadas enfermedades, como las cerebrovasculares, en un área urbana donde la población no está distribuida uniformemente (alta heterogeneidad poblacional). Si cartografiamos ese fenómeno, observaremos que ese tipo de enfermedades se concentran en determinados barrios, pero esto no significa que los habitantes de esos barrios puedan tener mayor propensión a sufrir tales dolencias. Simplemente, el agrupamiento de esas dolencias puede deberse al hecho de que más personas viven en estas áreas. En tal caso, hay que tener en cuenta primero la distribución de la población a la hora de plantear posibles vínculos entre ubicación y las tasas de accidente cerebrovascular. Una manera de solventar el problema es transformar los datos originales en ratios (densidad de accidentes cerebrovasculares per cápita) para cada subárea dentro de la ciudad y ajustar la heterogeneidad de la población.
Por otro lado, la heterogeneidad espacial no supone la ausencia de autocorrelación espacial. Dentro de un área de estudio, pueden convivir áreas con alta heterogeneidad espacial con autocorrelación espacial negativa, y otras áreas con autocorrelación positiva en un espacio no uniforme. De hecho, la dependencia espacial no se distingue fácilmente de la heterogeneidad espacial. Esto también se conoce en la literatura como el “problema inverso” (Anselin 2010). En la dependencia espacial, la correlación o covarianza entre variables en distintas ubicaciones está determinada por la disposición espacial de los objetos en el espacio geográfico. Sin embargo, aunque la presencia de agrupaciones y de patrones patrones espaciales pueden detectarse a través de diversos procedimientos, como las pruebas de autocorrelación espacial, no podemos determinar si estos conglomerados se deben a un cambio estructural (heterogeneidad) o a un verdadero proceso que crea conglomerados independientemente de la heterogeneidad del espacio.
Los efectos de borde. Las unidades espaciales que se encuentran en el centro del área de estudio tienden a tener vecinos en todas las direcciones, mientras que las unidades espaciales en los bordes del área de estudio tienen vecinos solo en algunas direcciones específicas. La estandarización de filas se utiliza normalmente para tener en cuenta esta asimetría en el recuento de vecinos. La experiencia cotidiana ofrece varios ejemplos de los cambios bruscos de un fenómeno en el espacio (no isótropía), debido a fronteras naturales (como ríos) o artificiales (canales, carreteras).
La falacia ecológica. Este problema se produce cuando se supone que una relación que es estadísticamente significativa en un cierto nivel de análisis también es cierta a niveles de análisis inferiores. Este es un error típico que ocurre cuando usamos datos agregados. Por ejemplo, si a nivel de código postal la variable “mayor ingreso” está fuertemente correlacionada con “educación superior”, esto no significa necesariamente que todas las personas con educación superior tenga un ingreso alto. La interpretación correcta es que los códigos postales vinculados a personas con educación superior tienden a indicar ingresos más altos, no que cada individuo con educación superior tenga un ingreso alto. Para llegar a una conclusión sobre el nivel individual y cómo la educación se vincula con los ingresos, debemos realizar una investigación en este nivel de análisis (obteniendo datos a nivel individual, no agregados a algún otro nivel).
Cada vez es mayor la preocupación que existe por la calidad de los datos, ya que las conclusiones de un estudio pueden variar de acuerdo a la disponibilidad o no de una información fiable y rigurosa.
La evaluación de calidad debe tener presente las cuatro componentes que integran la información geográfica. De ahí que son varios los aspectos a considerar en la valoración de la calidad:
La exactitud. Este aspecto hace referencia a la ausencia de errores o al menos la limitación de los mismos, dentro de unos márgenes determinados, entre la información real y la información disponible (entre el valor observado o medido y el valor real). Esta cualidad debe ser interpretada de forma diferente si se trata de la componente temática o espacial.
Así, cabría referirse a la exactitud espacial, como a la diferencia existente entre la localización de un elemento geográfico en el mapa (analógico o digital) y la posición real que ocupa en el espacio. En general, resulta más fácil medir el error de los elementos puntuales que en los lineales y superficiales. En el caso de considerar varios puntos, el error de medida más utilizado es el error medio cuadrático, o raíz cuadrada de la suma de las desviaciones de cada punto (medida por la distancia entre las coordenadas del punto real y observado).
La exactitud temática se refiere a los errores existentes en los atributos, que pueden atribuirse a múltiples causas. Así, la altitud del territorio, errores derivados de la medición directa de los puntos de control (medida de esta variable en una serie de puntos del espacio) y de la generación de un modelo digital de elevaciones, a su vez resultado de un procedimiento de interpolación, etc.), lo que exige, antes de su empleo, la valoración de los errores existentes entre el modelo teórico y el real.
Finalmente, la exactitud temporal también resulta de gran importancia en los análisis de tipo histórico, cuando se manejan elementos de gran variabilidad a lo largo del tiempo.
Además, interesa que los datos sean lo más completos posible, referentes a su grado de actualización o a la disponibilidad de series temporales homogéneas, aspecto, éste último, de gran interés en los análisis de carácter evolutivo.
La procedencia. La fuente u origen de los datos proporciona información sobre el proceso de creación de la base de datos, como los criterios aplicados en el momento de su obtención, así como en posibles transformaciones que hayan podido sufrir a lo largo de su vida. Si nos referimos a la información espacial, es importante conocer sus características o metadatos (escala, resolución, sistema de proyección, etc.), sobre todo si han de integrarse con otros datos de procedencia diferente, que podría originar errores de ensamblaje.
La consistencia lógica. Se refiere a las relaciones existentes en la estructura de la base de datos, de manera que no haya contradicciones de tipo lógico o que queden indefinidos algunos elementos del conjunto. Así, los elementos espaciales deben estar perfectamente definidos en cuanto a su métrica, su topología (que no existan polígonos abiertos, o líneas que se crucen sin nodo de intersección), su identificación, etc. ni tampoco deben existir valores redundantes o anómalos.
Temporalidad de la información. El tiempo es un elemento fundamental de la información geográfica que puede influir, decisivamente, en la calidad. En primer lugar, conviene registrar los posibles cambios de la base de datos, ya que las modificaciones que tienen lugar a lo largo del tiempo pueden hacer que la información pierda consistencia. También es importante la actualización de la información. El uso de fuentes diversas, con actualizaciones diferentes en el tiempo, es otro factor de inconsistencia.
La resolución. El detalle que es posible discernir, en el elemento más pequeño de la base de datos espacial, influye en la capacidad del sistema informático, en el caso de los SIG, para cartografiar y visualizar la información con mayor bondad y ajuste a la realidad, así como para gestionar la información temática contenida en esta unidad espacial con superior rigor y precisión. La resolución temporal o duración mínima de un hecho apreciable y la resolución temática o precisión de medida de los atributos también intervienen como factores modificadores del nivel de calidad alcanzado en el tratamiento ulterior de la información.
Debido a la naturaleza de la información geográfica, son muy variados los errores que podemos incorporar a las bases de datos, tanto espaciales como temáticas, con la consiguiente incertidumbre que puedan causar en los resultados obtenidos en un estudio concreto. Hay que partir de la base, de que los errores son consustanciales a los datos ( Gutiérrez Puebla y Gould, 1994). Desde este punto de vista, más que de evitarlos, se trataría de asumirlos e intentar controlarlos, de manera que se limiten sus efectos más perjudiciales.
Las fuentes de error pueden ser muy diversas. El origen de los errores tiene mucho que ver con las principales fases de manejo de la información geográfica en un sistema informático: recogida e introducción de la información, almacenamiento, gestión y análisis y, finalmente, representación. Aronoff (1989) presenta una tipología de errores, en el tratamiento y manejo de la información geográfica, que tienen, precisamente, que ver con este tipo de clasificación:
Errores derivados de la recogida de la información. Debemos partir de la consideración de que las principales fuentes de la información geográfica (mapas, estadísticas oficiales, imágenes de teledetección, fotografías aéreas, etc.) contienen errores que se incorporar a las bases de datos.
Errores derivados de la captura de datos. Aparte de los errores existentes en los documentos fuente, otro tipo de errores se derivan de los procesos de digitalización de la información y su conversión de un formato analógico a otro digital. Los procedimiento de digitalización semiautomática suponen la captación de las diferentes figuras geométricas, puntos, líneas y polígonos, representativas de los elementos geográficos, a partir de una línea quebrada, constituida por una serie de puntos, cuya parecido con el elemento real es solo aproximado. Otro tipo de errores procede de la incertidumbre en el momento de la captura de los datos, sobre la definición de los elementos espaciales y la delimitación clara de las fronteras de separación entre uno y otro.
Errores de procesamiento y almacenamiento de los datos. La codificación de la información supone la trascripción de determinada información, cualitativa y/o o cuantitativa, y su sustitución por dígitos o números, previo establecimiento de un sistema de clasificación que permita agrupar los datos con un criterio adecuado al análisis. La codificación es, por tanto, un procedimiento que define la información, con vistas a su registro y almacenamiento, generalmente informático. En esta labor, muchas veces manual, reiterativa y aburrida, es frecuente cometer errores, que se añaden a los anteriores y que es preciso considerar. Además, la precisión del almacenamiento de la información, según se trate de números de simple precisión o doble precisión, almacena los datos con mayor exactitud y certeza, aunque a costa de un mayor consumo de memoria. También influye la cantidad de memoria de ordenador destinada al almacenamiento de cada valor de una variable (precisión simple o doble precisión): cuanto mayor sea ésta, con mayor exactitud se registran los datos, si bien aumentando el consumo de recursos informáticos.
Errores generados durante la manipulación y gestión de los datos. Este tipo de errores tiene lugar como consecuencia de la propagación de alguno de los errores anteriores, al aplicar algún procedimiento inherente a los sistemas informáticos que manejan la información geográfica. Así, la superposición de capas, con elementos geográficos idénticos, pero que no coinciden en las mismas, origina la aparición de polígonos ficticios, consecuencia de una intersección deficiente.
Errores debidos a la representación cartográfica de la información. Los dispositivos de representación automática de los mapas de salida trabajan con una precisión limitada, que origina errores de trazado. Estos errores se suman a los correspondientes a la posible deformación del papel, soporte habitual donde se realiza la impresión.