14 Enero

Así se archiva internet

A día de hoy es bastante complicado cuantificar el número de ejemplares que la Biblioteca Nacional de España acoge entre sus muros. Se estima que cerca de 30 millones de ejemplares se guardan en este organismo. Historia escrita sobre libros, en películas, en prensa, en revistas y también en formato digital.


La biblioteca española nació en el Siglo XVIII de la mano del rey Felipe V, pero ya existían muchas otras como la famosa Biblioteca de Alejandría. Sin embargo en la era de Internet, ¿qué pasa con todo lo que la red esconde y guarda?

La Biblioteca Nacional alberga lo que pasa en internet y también guarda los famosos memes de «y lo sabes» de Julio Iglesias que cada cierto tiempo vuelven a llegar a los grupos de Whatsapp, entre otros. No es posible guardarlo todo pero el organismo contiene 300 TB de almacenamiento y sigue en aumento.

Existen catálogos digitales gigantescos a golpe de clic y nacidos de forma voluntaria. Uno de estos proyectos es Archivo de internet, que se presenta como «una biblioteca sin fines de lucro que cuenta con millones de libros, películas, software, música, sitios web y más gratuitos».

En su base digital da cobijo a 330 billones de páginas web, 20 millones de libros y textos, 4,5 millones de grabaciones de voz (incluyendo 180.000 conciertos en vivo), 4 millones de vídeos (entre ellos 1,6 millones de programas de noticias de televisión), 3 millones de imágenes y 200.000 programas de 'software'.

Unas cifras impresionantes que no dejan de aumentar desde 1996 cuando Brewster Kahle desarrolló un software para guardar todo lo que se creaba en internet, así nació esta gigantesca biblioteca.

Recuperar archivos con códigos QR

Bibliotecas nacionales, organizaciones sin ánimo de lucro y una bóveda en el Ártico son los lugares de dan cobijo a páginas web, vídeos y hasta memes

Años más tarde, concretamente en 2002, en Noruega nació otro gran almacén. Su llegada al mundo viene de la mano del mundo del cine. Este proyecto realizado por Piql es un gran archivo ártico que surgió para traducir lo analógico a digital.

Una idea que se asemeja a la iniciativa del Banco Mundial de Semillas de Svalbard (Noruega), también Bóveda Global de Semillas. Este edificio es una enorme despensa subterránea de semillas de miles de plantas de cultivo de todo el mundo situado en la isla de Spitsbergen. Es el almacén de semillas más grande del mundo, creado para salvaguardar la biodiversidad de las especies de cultivos que sirven como alimento en caso de una catástrofe mundial.

Situado también en Noruega, el gran archivo ártico de Piql alberga cientos de archivos digitales de más de 18 países y que, además, también guarda archivos de usuarios y clientes privados y su soporte es una película tradicional de cine.

A través de la digitalización, Piql consigue archivar hasta cuadros como el Grito de Munch. El contenido se transforma en un código parecido a los QR y se imprime en la película. Así, si el cliente quiere recuperar el archivo tan solo es necesario escanear ese código y recibirá la copia original.

En el caso del proyecto de Kahle buscaba otorgar al público «acceso universal a todo el conocimiento» y lo hace a través de un software. Durante seis años, archivó en forma privada más de diez mil millones páginas web, desde centros de 'GeoCities' hasta reseñas de la película Titanic.   

Ahora contiene copias de una gran cantidad de páginas o sitios de Internet. Además, si algún sitio web ha sido borrado, mediante Wayback Machine es posible consultar una réplica de su página de inicio, así como consultar la historia o las modificaciones de las webs a través del tiempo.

El equipo que forma el Archivo de Internet trabaja con más de 450 bibliotecas y otros colaboradores para identificar las páginas web más importantes. La iniciativa funciona gracias a donaciones particulares de sus usuarios, las cuales superaron el pasado año los 6 millones de dólares.

Todo el contenido que Kahle ha reunido a lo largo de estos 22 años se encuentra archivado en una antigua iglesia de San Francisco (Estados Unidos). En una trastienda, donde los sacerdotes solían reunirse, las de servidores de ordenadores contienen lo que se puede denominar como una copia de Internet.

Cada semana, se agregan 500 millones de páginas nuevas al archivo, incluidas 20 millones de URL de Wikipedia, 20 millones de tuits (y todas las URL a las que se hace referencia en esos tuits), 20 millones de enlaces de WordPress y más de 100 millones de artículos de noticias, según declaró el director de The WayBack Machine, Mark Graham, a The Humble.

Fuente: hoy.es

Esta página web utiliza cookies para analizar de forma anónima y estadística el uso que haces de la web, mejorar los contenidos y tu experiencia de navegación. Para más información accede a la Política de cookies
Las cookies necesarias ayudan a hacer una página web utilizable activando funciones básicas como la navegación en la página y el acceso a áreas seguras de la página web. La página web no puede funcionar adecuadamente sin estas cookies.
Nombre Caducidad Finalidad Proveedor
SL_C*
_ga
_gid
ci_session
Sesión Cookies para el correcto funcionamiento de las operaciones de la página web. Ninguna de estas cookies contiene datos de caracter personal. Propias
cookie_consent 1 año Guarda las preferencias del usuario sobre el consentimiento de cookies. Propias
Las cookies de personalización permiten a la página web recordar información que cambia la forma en que la página se comporta o el aspecto que tiene, como su idioma preferido o la región en la que usted se encuentra.
Nombre Caducidad Finalidad Proveedor
Las cookies de análisis ayudan a los propietarios de páginas web a comprender cómo interactúan los visitantes con las páginas web reuniendo y proporcionando información de forma anónima.
Nombre Caducidad Finalidad Proveedor
_utma 2 años. Genera un id de usuario único, que es el que se utiliza para hacer recuento de cuantas veces visita el sitio un determinado usuario. También registra cuando fue la primera y la última vez que visitó el sitio web. Google
_utmb 30 minutos. Calcula cuando se ha terminado una sesión, registrando la hora de llegada a la página. Google
_utmc Sesión. Comprueba si se debe mantener la sesión abierta o se debe crear una sesión nueva. Google
_utmt 10 minutos. Se utiliza para limitar la velocidad de solicitud del servicio y limitar la recogida de datos en los sitios de alto tráfico. Google
_utmz 6 meses. Registra el origen del usuario, así como las palabras clave. Google
Las cookies publicitarias se utilizan para rastrear a los visitantes en las páginas web. La intención es mostrar anuncios relevantes y atractivos para el usuario individual, y por lo tanto, más valiosos para los editores y terceros anunciantes.
Nombre Caducidad Finalidad Proveedor
Las cookies de afiliados permiten realizar un seguimiento de las visitas procedentes de otras webs, con las que el sitio web establece un contrato de afiliación.
Nombre Caducidad Finalidad Proveedor