Internet y el World Wide Web

La red de comunicaciones Internet

Internet es una red de redes de ordenadores, que permite la interconexión de equipos remotos, independientemente de su tipo y situación. Sobre estos ordenadores, y aprovechando los servicios de comunicaciones de la red, se ejecutan diversos tipos de aplicaciones, que permiten realizar intercambios sofisticados de información.

El núcleo de lo que ahora se conoce como Internet se desarrolló en 1969, como parte de un proyecto para unir, a través de enlaces telefónicos, diversas instalaciones militares de Estados Unidos; el objetivo era permitir el intercambio rápido y fiable de información entre sistemas informáticos situados en lugares alejados.

Rápidamente evolucionó hacia una red académica, al facilitar el acceso universidades y centros de investigación americanos a la infraestructura disponible. Desde estos entornos se desarrollaron rápidamente los fundamentos de las actuales redes de comunicaciones, favorecidos en gran medida por el espíritu de cooperación entre el núcleo inicial de usuarios.

La red resultante se denominó ARPANET (Advanced Research Projects Agency Network), y sobre ella se pusieron en funcionamiento la mayoría de los protocolos de comunicaciones que se utilizan actualmente.

Durante la década de los 80, se produce la primera explosión del número de usuarios conectados, debido en gran parte a la incorporación masiva de universidades y organismos gubernamentales de todo el mundo. Posteriormente se produjo la incorporación de empresas, que veían en los servicios de comunicaciones una potente herramienta de proyección de imagen y prestación de nuevos servicios, imposibles de realizar hasta ese momento.

En paralelo con el crecimiento de las redes de área global WAN (Wide Area Networks), la introducción de las redes de comunicaciones de área local LAN (Local Area Networks), basadas en el estándar Ethernet, permitió la creación de pequeñas redes de ordenadores, en el entorno de empresas o centros de investigación, que permitían compartir recursos (discos, impresoras, CPUs) e información.

La integración de numerosas redes LAN, a través de redes WAN, con cobertura mundial, produjo un espectacular crecimiento del número de usuarios y ordenadores conectados a la red, que podían ampliar el uso de recursos de sistemas situados fuera del entorno habitual de trabajo.

Internet no tiene una estructura jerárquica, ni una estructura homogénea. Los propietarios de Internet son los miles de organizaciones públicas y privadas responsables de cada una de las redes de comunicaciones. Cada una de estas organizaciones se encarga de poner los medios para integrar sus sistemas informáticos en redes mayor cobertura. Desde sus orígenes, los esfuerzos más importantes desde los entornos internacionales de investigación fueron orientados a conseguir mejorar y ampliar la calidad y velocidad de los intercambios de información entre los equipos conectados a la red. Simultáneamente, se desarrollaron numerosos programas que soportaban los diferentes servicios de información de la red.

Sin embargo, en los últimos años, la evolución de la red Internet ha estado caracterizada por los esfuerzos para mejorar y simplificar el acceso de los usuarios a la información que se encuentra en la red. Este hecho se ha visto impulsado y complementado por la incorporación a la red de personas de disciplinas muy diversas, que ven en Internet una herramienta muy poderosa de intercambio de información.

El carácter multidisciplinar de la información que circula por la red ha favorecido el rápido incremento del número de usuarios. Para facilitar la incorporación de estos nuevos usuarios a la red, se ha realizado un gran esfuerzo, que permite que todo el proceso de comunicación entre usuarios de la red gire en torno a la información que intercambian, y no a la forma en que este intercambio se realiza. La culminación de este proceso ha sido el World Wide Web.

¿Cómo funciona Internet?

Internet es un conglomerado de ordenadores de diferente tipo, marca y sistema operativo, distribuidos por todo el mundo. La diversidad de ordenadores y sistemas de comunicaciones plantea numerosos problemas, que se resuelven con el empleo de sofisticados protocolos de comunicaciones.

El primer paso es lograr su interconexión física, para lo que se emplean sistemas muy diversos:

Todos los sistemas de comunicaciones mencionados producen una maraña, de enlaces, que permite, del mismo modo que las comunicaciones telefónicas, disponer de un canal virtual de comunicación entre dos ordenadores situados en diferentes lugares de la red.

La estructura real de la red en un determinado momento es difícil de conocer, por su complejidad y por no estar bajo el control de un sólo organismo. Cada empresa u organización es responsable de su propia red de comunicaciones, y de los enlaces que la unen a las redes vecinas.

Sobre estos enlaces físicos de comunicaciones, se requiere que cada ordenador disponga de un software de comunicaciones, que permita conectarse e intercambiar información con otros sistemas de la red.

Clientes y servidores

Las aplicaciones de comunicaciones en Internet funcionan según un modelo denominado cliente-servidor. Sus funciones son:

Los servicios de Internet

Se denomina servicio de información, a la unión de un determinado tipo de información, un protocolo de aplicación, y los clientes y servidores encargados de su intercambio.

Las redes de comunicaciones, tal y como se conciben en la actualidad, proporcionan numerosos servicios de información, considerados como básicos:

Este conjunto de servicios cubre dos funciones principales: la compartición de recursos valiosos (como CPU y ficheros), y la comunicación entre usuarios.

La evolución de los servicios de información en Internet se ha visto muy influenciada por la propia evolución de la informática. En la década de los 70, la informática estaba basada en sistemas centrales, de gran capacidad y elevado precio, que era preciso rentabilizar, a base de mantenerlos activos durante las 24 horas del día. Con la asistencia de las redes de comunicaciones y los servicios de terminal virtual, era posible utilizar estos sistemas, de forma compartida, por varios usuarios.

Con el abaratamiento de los sistemas, y su aumento de potencia, se produjo una descentralización del trabajo informático. La difusión de la informática personal y la evolución de los sistemas operativos ha permitido dar nuevos usos a las redes informáticas, haciendo que sirvan de soporte a las comunidades globales, acercando personas de diferentes países y culturas con un sistema universal de comunicación.

Durante este proceso, los usuarios de Internet han aprovechado los sucesivos avances de la informática para implementar nuevas aplicaciones y servicios de información, como respuesta a los problemas que el propio uso de las redes planteaban: nuevos modos de comunicación entre personas, servicios de búsqueda de información y, por último, sistemas de navegación a través de la red.
 
 

Información que proporciona Nombre y descripción del servicio
Terminal Virtual TELNET
Nos conecta a un ordenador remoto. Permite ejecutar los programas que se encuentran en ese ordenador, utilizando la información que ese sistema contiene, pero viendo su ejecución en nuestra pantalla.
Mensajería Electrónica Email
Envío de mensajes entre usuarios de Internet. Es el equivalente al correo postal. También permite el envío de ficheros, imágenes, etc. 

Es muy utilizado para intercambio de mensajes personales, colaboración en grupos de trabajo, etc.

Transferencia de ficheros FTP
Transferencia de ficheros entre ordenadores remotos. Permite enviar o recoger cualquiera de ellos. 

Es muy utilizado para la distribución de programas escritos por los propios usuarios de Internet (servicio FTP anónimo).

Distribución automática de información Listas de distribución, News
Basados en el correo electrónico, el primero de ellos facilita la distribución de mensajes entre grupos numerosos de personas, mientras que el segundo define grupos de discusión a los que es posible acceder para enviar o leer los mensajes existentes.
Búsqueda de información Wais, Archie, Verónica
Búsqueda de información en bases de datos. Con ellos se puede acceder a bibliotecas, archivos, documentos técnicos, etc.
Conversaciones electrónicas Talk, IRC
Diálogo entre personas. El talk se establece en grupos reducidos. El IRC permite que grupos muy numerosos de personas se envíen mensajes de forma interactiva, como OEparty lines,. También hay versiones en las que se transmite voz.
Videoconferencia MBONE, CuSeeMe
Aplicaciones que permiten el envío simultáneo de imagen y sonido entre grupos de usuarios.
Búsqueda de personas X.500, Whois
Diferentes servicios globales de búsqueda de personas, ordenadas por países, centros de trabajo, ...
Gestión de información Gopher, Web
Herramientas que permiten el acceso a diferentes tipos de información de los anteriores, y que introducen muchas facilidades para la localización de información en Internet. 

Navegación por la red

El término navegación, representa las operaciones que realiza un usuario de Internet en su búsqueda de información. Para ello, utiliza aplicaciones clientes de cada uno de los servicios disponibles, y salta de una a otra, en función de sus necesidades y los resultados de una búsqueda. El procedimiento habitual sería el siguiente:

Si no se conoce la situación de la información deseada, es posible utilizar una herramienta de búsqueda (listas de servidores recopiladas en algunos servicios FTP, Archie para localizar ficheros en servidores FTP, X.500 para búsquedas de personas o Wais como una herramienta de búsqueda genérica) como apoyo. A través de estas herramientas de búsqueda, a las que se accede con un cliente específico, es posible conocer la dirección y tipo de un servidor con nuevas pistas sobre el dato buscado. De nuevo, se utiliza el cliente correspondiente para acceder a la nueva dirección. Este proceso se debe repetir hasta obtener los resultados deseados.

Con el rápido aumento del volumen de información disponible, el proceso antes descrito se descubrió como muy ineficiente, ya que:

Por los motivos anteriores, a medida que aumentó el número de usuarios de Internet, y con ello el volumen de información disponible, se invirtieron esfuerzos encaminados a disponer de herramientas más sofisticadas encargadas de gestionar el acceso a los diferentes servicios de red. La culminación de este proceso fueron Gopher y el Web.

El Gopherespacio

El sistema Gopher fue el primer servicio de acceso a información que ofrecía una interfaz común de acceso a numerosos servicios de red, de forma que el usuario empleaba siempre el mismo conjunto de operaciones para acceder a datos de tipo y situación muy variados.

Gopher solucionaba el problema de navegación a través de la red con la presentación de menús de opciones. Cada una de las entradas del menú podía representar operaciones muy diversas: nuevos menús, conexiones a otros servidores Gopher, ficheros de texto, ficheros de gráficos, búsquedas en bases de datos, etc.

El detalle principal es que las opciones del menú ocultan el tipo de acceso a realizar para recoger la información a la que se refieren. De hecho, no es necesario conocerlo, ya que el cliente Gopher se encargará de resolverlo.

Un cliente Gopher se encarga de todos los detalles del acceso a los servidores que proporcionan la información. Cuando recibe un fichero que no sabe manejar, por ejemplo un gráfico, arranca una aplicación adecuada para su tratamiento.

Los servidores Gopher son capaces de actuar como pasarela con aplicaciones que muestran el contenido de bases de datos o realizan búsquedas en las mismas.

El éxito del Gopher fue completo, y se convirtió en una de las herramientas más utilizadas como sistema universal de acceso a información, incluso para personas con pocos conocimientos de Internet.

Sin embargo, no tenía capacidad de integrar diferentes tipos de información. Además, el sistema basado en menús era demasiado rígido, a la hora de representar enlaces entre información que no tuviese forma de árbol.
 

El World Wide Web

Para solucionar los problemas de acceso a distintos servicios información antes mencionados, un grupo de investigadores del CERN (Laboratorio de Física de Partículas de Ginebra), idearon un sistema que integraba un atractivo formato de presentación de datos junto con un sistema para estructurar y enlazar tipos muy variados de información.

Tuvo su origen en el año 1990, liderado por Tim Berners-Lee. El objetivo buscado era disponer de un sistema de desarrollo y distribución de documentos, que solucionase la problemática de mantener y distribuir información desarrollada en diferentes aplicaciones de edición, en un entorno de usuarios que precisan acceder a documentación común.

El sistema Web está formado por:

Los documentos de hipertexto pueden contener texto, con diferentes tipos de letra y tamaños, imágenes, vídeo, sonido, etc., junto con la capacidad de integrar nuevos tipos de información.

Además, y como aspecto fundamental, los documentos de hipertexto pueden contener elementos activos,, que al ser pulsados producen la presentación de nueva información en la pantalla de una aplicación cliente.

Combinando el hipertexto con los elementos activos, se dispone de un sistema muy sencillo y flexible para navegar, por tipos muy variados de información, que se basa en sencillas operaciones de seleccionar los elementos deseados.

Estos documentos se presentan en la pantalla del cliente Web como páginas de un libro, por lo cual es muy común el empleo del término página Web,.

Los investigadores del CERN pusieron en marcha un conjunto de aplicaciones experimentales, clientes y servidores, que permitían probar el nuevo sistema. Coincidiendo con sus experiencias un grupo de investigadores del NCSA (Centro Nacional para Aplicaciones de la Supercomputación) desarrollaron una aplicación denominada Mosaic, el primer cliente WWW en modo gráfico, capaz de poner en práctica casi todas las metas del proyecto del CERN. Su éxito fue inmediato.

¿Qué es el World Wide Web?

Se denomina World Wide Web, o telaraña de alcance mundial, al colectivo formado por toda la información disponible en Internet que puede ser accedida o vista a través de un cliente Web. En este libro se utilizarán indistintamente los términos Web, WWW o World Wide Web.

Desde un cliente Web, toda la información disponible se ve como un universo plano, en el cual la mayor parte de ella está accesible tras una o varias pulsaciones del ratón, ocultando todos los detalles necesarios para acceder a los datos.

Sin embargo, es importante recordar que por debajo existe un entramado de ordenadores, en los que se ejecutan aplicaciones clientes y servidoras, que son los encargados de almacenar e intercambiar la información.

En este punto, cabe hacer una distinción clara entre Internet y el WWW. Este último es uno más de los servicios de información disponibles en Internet, una red de ordenadores que se comunican a través del protocolo TCP/IP. La evolución del Web como interfaz casi única de acceso a numerosos servicios de Internet, contribuye al equívoco que supone utilizar indistintamente ambos términos.

Características del Web

El proyecto Web ha basado su éxito en un diseño muy acertado de todos sus componentes, que, a partir de la relativa simplicidad de cada uno de ellos, permite la construcción de sofisticados sistemas de información. Esta basado en un modelo cliente-servidor estricto, en el que los intercambios de información entre clientes y servidores se realiza a través de sencillas peticiones.

Los servidores HTTP son el núcleo del sistema de distribución de información. En ellos reside la copia original de los documentos a distribuir, y los clientes tienen capacidad de recogerlos. Además, son capaces de manejar información multimedia. Para ello, se apoyan en el estándar MIME (ver más adelante).

Además, se dispone de un sistema de localización de información, las URLs (Universal Resource Locator), que asigna una dirección a casi cualquier recurso disponible en Internet.

Los clientes Web se encargan de solicitar la información a los servidores, y mostrarla de la forma más conveniente. Se debe disponer de un cliente para cada entorno de trabajo. Sin embargo, como se verá más adelante, las capacidades de los clientes Web van mucho más allá.

Es muy fácil publicar nueva información, así como incorporar información en formato electrónico de la que se disponía previamente, para hacerla accesible a todo el mundo.
Otras características reseñables del proyecto World Wide Web son:

¿Qué tipos de información maneja el Web?

Dentro de una página Web, se pueden encontrar elementos muy variados. Los clientes Web saben representar determinados tipos de datos (ficheros) directamente; en caso de que no sepan qué hacer con un determinado tipo de datos, son capaces de buscar la aplicación más adecuada para manejarlo. Los tipos de información más comunes son:

Los servidores HTTP

Se encargan de que los documentos de hipertexto estén disponibles para que un usuario, a través de su cliente Web, los recoja. Son la base del sistema de distribución de información. Son aplicaciones que se ejecutan tradicionalmente en sistemas Unix, si bien existen versiones de los mismos para sistemas personales, como Windows NT, Windows 95 o Macintosh.

Se ejecutan permanentemente, atendiendo en el puerto de comunicaciones asociado al protocolo HTTP (normalmente el 80); reciben las llamadas de los clientes y proporcionan a los mismos la información deseada. Los clientes seleccionan la información a través de su URL, la dirección de cada recurso en el espacio del WWW.

Para cada servidor, existe un directorio o conjunto de directorios en los cuales se deposita toda aquella información que se desea hacer pública. Además, los usuarios de estos sistemas tienen la posibilidad de publicar su propia información, a base de depositarla en unos directorios especiales.

Los servidores HTTP tienen la capacidad de, bajo cierto tipo de peticiones, ejecutar programas especiales, que interaccionan con el cliente y con información del propio servidor (bases de datos, información del entorno) para generar dinámicamente datos de interés.

Los clientes Web

Son aplicaciones que se encargan de recoger y mostrar la información que recogen de los servidores HTTP. Sus tres funciones principales son:

Por lo general, los clientes Web tienen otras muchas capacidades especiales: mostrar diferentes tipos de gráficos, enviar y recibir correo electrónico, recoger ficheros a través de FTP o acceder a servidores Gopher. Por eso, son la herramienta más versátil para acceder a numerosos servicios de información de Internet. Los primeros browsers eran aplicaciones en modo texto, adecuados para los entornos basados en hosts centrales en que se ejecutaban. El primero fue desarrollado por el CERN, para las pruebas iniciales del proyecto Web, y se denominó CERN LineMode Browser. Permite explorar documentos Web en prácticamente cualquier terminal de salida.

La gran evolución de los browsers en modo texto fue Lynx, desarrollado en la Universidad de Kansas. Sus principales aportaciones eran una mejor presentación de los documentos de hipertexto, mayor facilidad de uso a través del empleo de los cursores y teclas de acceso rápido a los comandos de navegación, soporte para formularios, acceso a servidores FTP o Gopher, etc. Si bien el programa ya no está soportado, es la opción idónea para usuarios de terminales OEtontas,.

La primera revolución en el mundo de los navegadores fue producida por Mosaic, un cliente en modo gráfico para sistemas Unix, desarrollado sobre XWindows. Tenía capacidad para producir una presentación muy atractiva de los documentos de hipertexto, incluidos los formularios, junto con ayudas para la navegación: barras de botones, lista de lugares visitados, etc. Su facilidad de uso y potencia fueron un importante aliciente para la rápida incorporación de usuarios al Web.

Los navegadores más utilizados en la actualidad son los desarrollados por Netscape , que disponen de numerosas versiones de sus programas, que se adaptan a casi todos los entornos informáticos disponibles (PCs, Macintosh y estaciones Unix). Netscape Navigator es un sucesor de Mosaic (de hecho, sus programadores formaron parte del proyecto Mosaic). Netscape aportó nuevas ideas, como la capacidad para mostrar documentos a medida que se recibían. Además, incorporó nuevos elementos para los documentos de hipertexto, no recogidos en los estándares de HTML; esto inició la carrera de mejoras y actualizaciones que aun ahora continua.

Microsoft ha entrado en la batalla de los navegadores con su Internet Explorer, que a sus sofisticadas capacidades, añade su carácter gratuito.

¿Qué es MIME?

Las Multipurpose Internet Mail Extensions son un sistema ideado para extender las capacidades de los clientes de correo electrónico, ya que en su diseño inicial, estos sólo estaban capacitados para enviar y recibir mensajes de texto plano.

Cuando dos sistemas basados en MIME desean transferir una determinada información, intercambian primero la clasificación MIME del tipo de datos de que se trata, así como la forma en que se codificará la información.

Para ello, MIME define:

Los clientes y servidores HTTP adjuntan siempre la asociación MIME de los datos que intercambian. Apoyándose en las definiciones MIME, se construye un sistema sencillo pero potente de intercambio de información multimedia.

Las aplicaciones que reciben información MIME manejan una tabla de definiciones, que asocia a cada tipo MIME su nombre, las extensiones de ficheros que habitualmente utilizan y la aplicación encargada de su tratamiento. Basados en estas asociaciones, los clientes Web identifican los tipos de información que son capaces de representar de forma directa (ficheros HTML, imágenes GIF o JPEG,...), los tipos para los cuales se dispone de un visor externo adecuado o los ficheros de tipo desconocido, que normalmente sólo es posible salvar en un fichero (ficheros ejecutables, por ejemplo).

Las URLs

Son las siglas de Universal Resource Locator, un localizador universal de recursos en el universo de información disponible en Internet. Cualquier información a la que un cliente Web accede (ficheros HTML, imágenes, ficheros a través de FTP, etc.), es conocida a través de su URL. Combinando las URLs con la capacidad de los browsers de acceder a diferentes servicios de información, se dispone de una interfaz única de acceso a numerosos servicios de Internet.

Las URLs definen, a través de un sencillo formato, la situación de la información deseada. Normalmente, esta situación incluye el protocolo de aplicación a emplear para recogerla, el nombre Internet del ordenador que lo proporciona, y por último, la situación dentro de ese ordenador (directorio y nombre de fichero).

La estructura de una URL aparece en la siguiente tabla (las tres primeras columnas son obligatorias, mientras que el resto es opcional) :
 

Protocolo :// Dirección del servidor :puerto / localizador opcional dentro de la maquina
http el más común, característico del WWW.

ftp para acceder a servidores ftp anónimos.

gopher para acceder a servidores gopher.

telnet para iniciar una conexión a través de telnet.

Las URLs de HTTP no incluyen en algunos casos el nombre de fichero requerido, o bien este se corresponde con el nombre de un directorio. Esto significa que se está solicitando el valor por defecto que éste tenga para este servidor de información concreto. Cada servidor HTTP tiene la capacidad de configurar un nombre de fichero por defecto, al que se accede en caso de que una URL no lo especifique. Nombres comunes para este fichero son: default.html, home.html, index.html. Ejemplos : http://www.unican.es/

http://ccpc5.unican.es/equipos/

http://ccpc5.unican.es/equipos/default.html

http://midget.towson.edu:8000/home.html

ftp://ftp.rediris.es/software/

ftp://ftp.unican.es/indice.txt

gopher://gopher.uji.es

telnet://www@info.cern.ch:23


El lenguaje de descripción de hipertexto HTML

HTML (HyperText Markup Language) es el lenguaje utilizado para crear documentos de hipertexto. Los ficheros HTML describen documentos similares a los que se pueden construir con un procesador de textos, salvo que en HTML, se debe especificar, a través de los comandos del lenguaje, la distribución y estilo de cada uno de los elementos de una página.

Los documentos con código fuente HTML son ficheros de texto plano (sin ningún carácter especial o de control, ni procesamiento por compiladores o filtros), que pueden ser editados con cualquier aplicación sencilla que exporte texto sin formato (edit en MSDOS, notepad en Windows o vi en Unix). Sin embargo, existen editores especializados que simplifican esta tarea, automatizando determinadas labores de la creación de documentos de hipertexto.

HTML está construido a partir de etiquetas(tags), que marcan el formato de cada uno de los elementos de la página de hipertexto. Todas las etiquetas son palabras o abreviaturas inglesas, rodeadas de los símbolos < >. Las etiquetas pueden contener parámetros u opciones que modifican su comportamiento por defecto.

<HTML>
<HEAD>
<TITLE>Página principal de Sistemas Informáticos</TITLE>
</HEAD>
<BODY>
<IMG SRC="imagen.gif" ALT="Imagen de Bienvenida">Bienvenido a la <I>p&aacute;gina</I>  principal de la Asignatura ....
</BODY>
</HTML>
Las etiquetas pueden ser de dos tipos: pareadas, cuando hay una etiqueta de principio y otra de final, y sin parear, cuando se emplea una única etiqueta. Existen etiquetas de HTML para definir el formato de una palabra, para insertar una imagen o para crear un elemento activo.

Para crear un título grande <H1>Esto es un título muy grande</H1>

Para insertar una imagen <IMG SRC="foto.gif">

Se puede decir que HTML es un lenguaje interpretado, ya que son los browsers los encargados de procesar y representar su contenido. Los browsers tienen mucha libertad para ajustar la presentación de un documento HTML en función de los recursos disponibles.

Uniendo los servidores HTTP y los documentos HTML, se dispone de un sistema distribuido de acceso a información, que combina un formato de presentación muy atractivo con un sencillo mecanismo de navegación por la información, basado en la selección de elementos activos.

En general, HTML no respeta nada del posible formato que contenga el documento generado, por lo que se ignoran los saltos de línea o los espacios múltiples entre palabras. Si se desea incluir un salto de línea, se debe indicar explícitamente a través de su correspondiente etiqueta. Por tanto, la inclusión de espacios adicionales entre líneas de código HTML ayuda a mejorar la legibilidad del documento, pero no afecta a la forma en que este se representa.

Un documento HTML está clasificado a partir de su descripción MIME como text/html (texto plano cuyo contenido se corresponde con código HTML).

HTML y los conjuntos de caracteres

Se denomina conjunto de códigos de caracteres(coded character set) a cada una de las posibles asociaciones entre números enteros (no necesariamente bytes) y caracteres que se emplean para representar información, entendiendo por carácter cualquier unidad de información (letra, dígito, signo gráfico o de puntuación, etc.). La definición de un conjunto de códigos de caracteres no implica, por tanto, ningún formato de representación electrónica de la información.

Para intercambiar información en una red como Internet, ésta debe tener algún formato de representación electrónica, denominado tabla de codificación de caracteres(character encoding scheme), que construya una equivalencia entre bytes (o series de bytes) y caracteres, para un determinado conjunto de códigos de caracteres. Para juegos de caracteres con menos de 256 elementos, la asociación es evidente, pero en otros casos se deben definir asociaciones que impliquen a más de un byte.

El conjunto de códigos de caracteres que se pueden incluir dentro de un documento HTML está definido en el conjunto denominado ISO-LATIN-1 (iso-8859-1), un juego de caracteres de 256 elementos, que se puede encontrar en el Apéndice *; incluye la mayoría de los caracteres empleados en los alfabetos de Europa Occidental, junto con algunos caracteres gráficos especiales.

Para complicar más la situación, cada sistema operativo, en función de su tipo y el país en que se ejecuta, dispone de unas tablas de códigos que asocian códigos numéricos con las representaciones gráficas de los caracteres. Los 128 primeros elementos de estas tablas son prácticamente equivalentes en todos los sistemas operativos e idiomas, y se corresponden con la conocida tabla ASCII. Sin embargo, los 128 elementos superiores son totalmente dependientes del sistema operativo y del lenguaje utilizados, y contiene elementos alfabéticos y gráficos particulares de cada sistema. Es decir, el carácter de código numérico 213 se verá de forma diferente entre un PC en España y uno en Francia, o entre un PC y un Macintosh.

Por tanto, un browser que recibe un documento con el carácter de índice decimal 225 sabe que debe mostrar en la pantalla su código ISO-LATIN-1 asociado, la á, en lugar del elemento asociado en su propio mapa de caracteres.

Este comportamiento obedece una limitación de HTML, que es la presentación de información en alfabetos muy diferentes del Europeo Occidental, como los japoneses, cirílicos, griegos.

De ahí que sea necesario definir un modelo único de intercambio de información, a través del empleo de UNICODES (alfabetos de caracteres que ocupan más de un byte), o de la especificación del juego de caracteres incluído en un documento al proporcionar su tipo MIME.

La evolución de HTML

Desde su creación, el lenguaje HTML ha evolucionado rápidamente, impulsado por la necesidad de ampliar sus capacidades, para adaptarse a los nuevos requerimientos de sus usuarios. Este cambio ha sido impulsado por organismos internacionales, como el World Wide Web Consortium, o por empresas como Netscape o Microsoft.

La versión inicial de HTML se denominó 1.0, y supuso un gran avance como sistema mundialmente aceptado de presentación de texto con formato. Sin embargo, pronto se descubrieron sus limitaciones. La introducción de los entornos gráficos de acceso al Web reclamaba mayores capacidades de formato: tablas, columnas, mayor control sobre la posición y formato de los elementos.

Por ello, algunas empresas, principalmente Netscape, añadieron nuevos elementos y atributos al lenguaje HTML, que contribuyeron en buena medida al posterior éxito del Web: tablas, formularios, imágenes flotantes, mapas, etc.

La siguiente estandarización, que incorporó parte de esas modificaciones, se denominó HTML 2.0; trataba de poner un poco de orden en el caos que introdujeron las aportaciones individuales de cada empresa, a menudo incompatibles entre sí.

El nuevo estándar, denominado HTML 3.2, se ha planteado como una defensa frente a las numerosas ampliaciones particulares de los fabricantes de browsers, en su carrera por adueñarse de la mayor cuota de mercado posible (las aportaciones de cada uno suelen ser incompatibles con las de los demás, por lo que obligan al usuario a optar por un tipo u otro de aplicación).

Existen numerosos comités de estandarización y grupos de trabajo, integrados por organizaciones internacionales y fabricantes de software, tendentes a conseguir un futuro modelo único de HTML, compatible con todos los browsers (al menos, con los más modernos).

A la hora de desarrollar páginas HTML se debe tener presente el tipo de browsers que utilizarán los potenciales usuarios de un servicio de información. En la actualidad, la mayor parte de los usuarios del Web emplean clientes gráficos, que cada vez son más compatibles en sus capacidades. Sin embargo, existe todavía un cierto número de usuarios que emplean clientes en modo texto (lynx), que no disponen de la capacidad de representar determinados elementos de formato de las nuevas versiones de HTML.

El World Wide Web Consortium (http://www.w3.org) es un consorcio internacional de organismos y empresas que se dedica a numerosas labores de coordinación y estandarización de todo lo relacionado con el universo del Web.

Una vez que se dispone del conjunto de documentos HTML que constituyen un servicio de información, se debe hacer que ésta sea pública, accesible para el resto de los usuarios de Internet (o de una intranet, si la información es privada para un grupo de trabajo).

Los elementos encargados de realizar esta labor son los servidores HTTP, aplicaciones especiales que se encargan de recibir las peticiones de los clientes Web y de proporcionar la información deseada.

Existen versiones de servidores HTTP para casi cualquier ordenador, pero por lo general éstos residen en ordenadores especiales, bajo Unix y NT, que son sistemas operativos multiusuario . A este tipo de ordenadores se los da el nombre genérico de servidores, ya que su labor principal es proporcionar información a otros.

Los servidores HTTP disponen de un directorio especial, fijado en la configuración del equipo, que contiene la información accesible a través del mismo. Normalmente, el directorio público del servidor es de acceso restringido (sólo se puede ver la información a través el servidor HTTP, pero nunca modificarla), y es preciso disponer de una cuenta de usuario con privilegios especiales para poder modificar esta información.

Para editar páginas HTML, se pueden elegir dos soluciones:

Esta última es una solución idónea, ya que permite utilizar herramientas y aplicaciones de ordenador personal, más completas y sencillas que las de los entornos Unix. Además, empiezan a estar disponibles herramientas de publicación automática de información, que se encargan de transferir la estructura de un servidor de información Web, utilizando por ejemplo FTP, y mantener sincronizadas la copia de trabajo en el ordenador personal y la versión pública del servidor HTTP.

Páginas Web personales

Muchos servidores HTTP (los que se ejecutan en sistemas Unix) permiten que los usuarios de la máquina pueden mantener un directorio propio de ficheros a los que se podrá acceder desde un cliente Web.

De esta forma, cada usuario, accediendo a su cuenta personal, tiene capacidad de publicar y actualizar información Web, sin alterar la configuración del sistema Unix, ni comprometer su seguridad.

El mecanismo es muy sencillo. Partiendo del directorio raíz de la cuenta del usuario, se crea un directorio, cuyo nombre se fija en la configuración de cada servidor HTTP.

Toda la información colocada en este directorio es accesible desde el exterior; para ello, es preciso especificar en la URL el nombre del usuario cuya información se desea. Esto se hace empleando el formato /unombre_usuario/, colocado después del nombre del servidor. El carácter ~se consigue en el teclado del PC con la secuencia ALT 126. Por ejemplo, para el usuario pedro del sistema macc.unican.es:

http://macc.unican.es/~pedro/ Los ficheros y directorios situados por debajo de este directorio público podrán ser accedidos poniendo su nombre tras el nombre de usuario.

Cuando una URL no especifica el nombre de fichero requerido, sino que termina en un nombre de directorio, el servidor HTTP supone que está solicitando el fichero de índice, o documento por defecto de un directorio. Cada servidor HTTP define en su configuración el nombre (o nombres) que puede tener este fichero de índice (index.html,home.html o default.html).

Sobre los nombres de ficheros

Un aspecto importante a tener en cuenta es el formato del nombre de los ficheros HTML que se depositan en el servidor. En caso de que el ordenador personal utilice nombres de fichero de 8+3 caracteres (lo habitual en sistemas MS-DOS y Windows 3.1), no es posible crear ficheros con extensión .html, utilizada como valor por defecto en los sistemas Unix. En este caso, los documentos HTML se deberán nombrar con la extensión .htm, para evitar conflictos.