R es un entorno de software libre y uno de los lenguajes de programación más utilizados en investigación por la comunidad estadística. Consiste en un lenguaje de programación y en un entorno de ejecución con gráficos, un depurador, acceso a ciertas funciones del sistema y la capacidad de ejecutar programas almacenados en archivos de script. Además, puede ejecutarse en una amplia variedad de plataformas: Linux, Windows y MacOS.
Es un lenguaje de programación porque, a través de instrucciones precisas (un código), realiza tareas específicas.
Es un entorno de trabajo porque incluye un intérprete de esos códigos.
R presenta algunas peculiaridades ligadas a su origen. R fue creado inicialmente como soporte para el cálculo estadístico. Por ello, se considera a R un lenguaje difícil de entender para aquellos investigadores con experiencia en otros lenguajes de programación, pero también es la razón por la que es una herramienta muy poderosa. El origen de R se remonta a los años 90; dos investigadores neozelandeses, Ross Ihaka y Robert Gentleman, de la Universidad de Auckland, comenzaron en 1992 a diseñar una implementación abierta y gratuita del lenguaje de programación S, propiedad de los Laboratorios Bell. Una versión inicial se ofreció en 1995 y ya en el 2000 existía una versión final estable. Por tanto, R hereda muchas características de S. Por ejemplo, una de las más sorprendentes es que frecuentemente existe más de una manera de ejecutar una misma tarea, normalmente una compatible con S y otra diseñada específicamente para R. Esta peculiaridad implica una sintaxis poco intuitiva que conduce a frustaciones durante el aprendizaje de R.
El R Development Core Team, un equipo de especialistas provenientes de diferentes instituciones y lugares alrededor del mundo, es el encargado del mantenimiento y desarrollo de R. La versión de R mantenida por este equipo es conocida como “base”, sobre la que se desarrollan mejoras asó como nuevos paquetes. R es un software libre y de código abierto, siendo distribuido de manera gratuita, a través de la Licencia Pública General de GNU. Por ello, se puede examinar su código, así como crear versiones propias “ad hoc”, así como usar R para diferentes fines (personales, académicos, comerciales), sin limitaciones.
A diferencia de muchos programas en entorno windows, R carece de botones para ejecutar órdenes. El usuario se comunica directamente con el software mediante un lenguaje específico (código). En la era de Windows, ¿qué ventajas aporta R?:
Replicabilidad: cualquier persona a quien enviemos nuestro código podrá entender qué hemos realizado y replicarlo de manera exacta. Cada vez es más habitual que las revistas académicas exijan los archivos de sintaxis para la publicación de resultados.
Eficiencia: a la larga, el uso de sintaxis ahorra tiempo cuando se repiten los procedimientos, o cuando se encadenan varios procedimientos secuencialmente.
Control: el usuario controla todas las fases de su trabajo, pudiendo simplificar o añadir complejidad a su conveniencia. Además, facilita la detección de errores y potencia el trabajo colaborativo, ya que diferentes investigadores(as) comparten el mismo lenguaje.
Flexibilidad. R incorpora paquetes adicionales a su versión básica, que posibilitan la aplicación de una gran variedad de técnicas de procesamiento de datos, análisis estadístico e incluso geoespacial, así como el uso de diferentes fuentes de información (por ejemplo, datos existentes en la web). Si bien programas como Microsoft Excel o SPSS cuentan con las herramientas para un análisis estadístico básico, para otras más sofisticadas resultan limitadas.
Costo. R es un software libre que cuya distribución y uso es gratuita; sus usuarios son libres de copiarlo, distribuirlo, editarlo y modificarlo según sus propias necesidades. El valor del software libre también se sustenta en una gran transparencia en cuanto al diseño de sus diferentes funcionalidades. Esto permite que lo realizado no sea una “caja negra”, lo que es importante para su uso en investigación científica, proceso en el cual se busca tener un control de los análisis realizados. Microsoft Excel, SPSS y Stata requieren la adquisición de una licencia de pago, cuyo costo puede incrementarse si se requiere paquetes de análisis más sofisticados.
Facilidad de uso. Una de las principales características del software comercial es su facilidad de uso. Son softwares amigables, que ponen a disposición del usuario una amplia variedad de herramientas de uso intuitivo. Por otra parte, Python y R presentan una interfaz de mayor complejidad. Tal dificultad implica una curva de aprendizaje más lenta que se compensa con las ventajas ya señaladas en relación a los criterios de costo y generalidad.
Desarrollo y actualización. R es una plataformas en continuo desarrollo y actualización, que se sustenta en una comunidad científica activa e involucrada en la producción de nuevas herramientas y soluciones. Si bien existen otras alternativas de softwares altamente especializados en técnicas específicas de análisis de datos (sea de análisis cuantitativo o cualitativo) éstas tienden a quedar desactualizadas una vez pierden popularidad y su negocio deja de ser rentable.
La siguiente tabla resume de forma comparada los atributos y características de algunos softwares analizados.
Dimensión / Lenguaje | R | Python | SPSS | Excel | Stata |
---|---|---|---|---|---|
Alcance | General, orientación multidisciplinar | General, orientación multidisciplinar | Limitado, orientado a Ciencias Sociales | Limitado, orientado a administración | Limitado, orientado a Economía |
Licencia | Libre (freeware) | Libre (freeware) | Pago (versión de prueba limitada) | Pago (versión de prueba limitada) | Pago (versión de prueba limitada) |
Aprendizaje | Sintaxis, poco intuitivo | Sintaxis, poco intuitivo | Botones y sintaxis, intuitivo | Botones y sintaxis, intuitivo | Botones y sintaxis, intuitivo |
Visualización | Avanzada | Intermedia | Básica | Intermedia | Intermedia |
Análisis de texto | Intermedio, poca eficiencia | Avanzado, amplia eficiencia | No | No | No |
Minería Datos | Intermedia, poca eficiencia | Avanzado, amplia eficiencia | No | No | No |
Sistema operativo | Windows, Mac OS, Linux | Windows, Mac OS, Linux | Windows, Mac OS | Windows, Mac OS | Windows, Mac OS |
Aunque originado como un lenguaje de programación orientado hacia el análisis estadísticos, R ha sido utilizado para el análisis de datos espaciales desde su origen. Actualmente, existen diferentes paquetes de R que manejan información geográfica y que pueden ser aplicados a múltiples tareas incorporadas al análisis espacial, como la lectura y escritura de datos espaciales, el análisis de patrones de puntos, la Geoestadística e incluso la teledetección.
Es decir, R aúna tanto el análisis estadístico como la representación gráfica y cartográfica. El disponer de estas capacidades en un único lenguaje le convierte en especialmente adecuado para su uso por parte de los geógrafos.
La instalación de R sigue pasos diferentes dependiendo del sistema operativo utilizado, pero requieren el uso de CRAN, acrónimo de The Comprehensive R Archive Network, una red en la que se archivan todas las versiones básicas de R, así como los paquetes que han pasado una rigurosa revisión por el CRAN Team, encargado de asegurar su correcto funcionamiento. CRAN es una red que mantiene copias de su contenido en diferentes servidores alrededor del mundo, en continua actualización. Por ello, no importa de qué servidor de CRAN se descargue el paquete base u otro, ya que siempre se obtiene la versión más reciente. Sólo en ocasiones, algún paquete de R podrían ser descargados de servidores ajenos a CRAN. El sitio oficial de CRAN es el siguiente: https://cran.r-project.org/
Dado que la mayoría de los usuarios de R trabajan en un entorno
Windows, la versión más reciente de R se puede descargar desde el
siguiente enlace de CRAN: https://cran.r-project.org/bin/windows/base/
Esta versión consiste en un archivo ejecutable (extensión *.exe, por ejemplo R-3.5.1-win.exe) que debe instalarse en el disco duro duro. Una vez descargado, deberá ser abierto, seleccionando el idioma preferido y haciendo clic en “Siguiente” en todos los cuadros de diálogo.
En el siguiente paso se seleccionará la ruta del directorio dónde se debe instalar R.
A continuación, se pueden seleccionar la versión (32 o 64 bits).
También se pueden personalizar algunas opciones de configuración.
Una vez finalizada la instalación, se podría utilizar la plataforma R base en Windows.
R puede ser usado directamente, mediante un sencillo intefaz, pero lo más habitual es el uso de un entorno integrado de desarrollo (IDE, por sus siglas en inglés). Un IDE es una herramienta para escribir y revisar códigos, administrar los archivos en uso y gestionar el entorno de trabajo, amén de otras herramientas. Aunque existen varias opciones de IDE para R (por ejemplo, RCommander), usaremos RStudio. Este entorno, que incorpora las funciones esenciales de una IDE, ha contribuido a un manejo más fácil del programa.
Para instalar RStudio debemos repetir los pasos seguidos en el caso de la descarga de R base, desde la página web de RStudio https://posit.co/download/rstudio-desktop/. Como en el caso anterior, se descarga un archivo ejecutable que instalaremos en nuestro disco duro y luego ejecutaremos. Si ya se ha instalado previamente R en nuestro equipo, RStudio lo detectará automáticamente y se podrá utilizar desde este entorno. Si no hubiéramos instalado R, cada vez que iniciamos RStudio, verificará la instalación de R.