Recolección web y depósito legal

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

Match the following attributes with their corresponding values in the web robot's identification:

UserAgentTemplate = Mozzilla/5.0 (compatible; bne.e_bot; +@OPERATOR_CONTACT_URL@) operatorFrom = [email protected] operatorContactUrl = http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html organization = Biblioteca Nacional de España

Match the following authors with their corresponding publications related to document preservation:

Mª Adelaida Alló Manero = Conservación de la colección Luisa Orera = Manual de biblioteconomía José Manuel Barrueco = Preservación y conservación de documentos digitales Maria Elvira i Silleras = Preservación de los documentos digitales: Guía para comenzar

Match the following institutions with their corresponding publications related to document preservation:

AENOR = UNE-ISO 15836:2011 BNE = Manual de biblioteconomía Trae = El Patrimonio bibliográfico y documental: claves para su conservación preventiva ISO/TC 46/SC 11 = Preservación de los documentos digitales: Guía para comenzar

Match the following URLs with their corresponding purposes:

<a href="http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html">http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html</a> = Aviso a webmasters <a href="http://www.aenor.es/aenor/normas/normas/fichanorma.asp?tipo=N&codigo=N0047623">http://www.aenor.es/aenor/normas/normas/fichanorma.asp?tipo=N&codigo=N0047623</a> = UNE-ISO 15836:2011 norm <a href="http://www.edaddeplata.org/docactos/pdf/educativa/manual/CAPITULO7.pdf">http://www.edaddeplata.org/docactos/pdf/educativa/manual/CAPITULO7.pdf</a> = Preservación y conservación de documentos digitales <a href="http://www.bne.es">http://www.bne.es</a> = Biblioteca Nacional de España Signup and view all the answers

Match the following terms with their corresponding meanings related to document preservation:

Depósito legal = Legal deposit Conservación = Document preservation Robots.txt = File ignored by web robots Preservación = Document conservation Signup and view all the answers

Match the following terms with their corresponding purposes related to web robots:

UserAgent = Web robot's identification Robots.txt = File defining web robot's access operatorFrom = Web robot's operator contact operatorContactUrl = Web robot's contact URL Signup and view all the answers

Asocie los siguientes términos con sus definiciones:

Semillas = URL iniciales para comenzar la recolección Robots de rastreo = Almacenamiento de documentos, vídeos, imágenes, etc. Crawlers = Recopilar información de la web mediante hiperenlaces Web crawls = Recolección de la web a partir de una serie de URL iniciales Signup and view all the answers

Asocie los siguientes conceptos con sus características:

Recolección de la web = Se lleva a cabo con robots de rastreo Crawlers = Recopilar información de la web a partir de una serie de URL iniciales Indexado = Realizar búsquedas a texto completo en la colección Hiperenlaces = Recopilar información de la web mediante un robot de rastreo Signup and view all the answers

Asocie los siguientes términos con sus funciones:

Robots de rastreo = Recopilar información de la web a partir de una serie de URL iniciales Crawlers = Almacenar documentos, vídeos, imágenes, etc. de forma ordenada Semillas = Recorrer todos los hiperenlaces que se encuentran Web crawls = Realizar búsquedas a texto completo en la colección Signup and view all the answers

Asocie los siguientes conceptos con sus resultados:

Recolección de la web = Colección de documentos, vídeos, imágenes, etc. Crawlers = Lista de URL que visitarán recursivamente Indexado = Poder realizar búsquedas a texto completo Hiperenlaces = Páginas o sitios identificados Signup and view all the answers

Asocie los siguientes términos con sus características:

Crawlers = Recopilar información de la web mediante hiperenlaces Robots de rastreo = Recopilar información de la web a partir de una serie de URL iniciales Web crawls = Almacenar documentos, vídeos, imágenes, etc. de forma ordenada Semillas = Páginas o sitios identificados Signup and view all the answers

Asocie los siguientes conceptos con sus procesos:

Recolección de la web = Recorrer todos los hiperenlaces que se encuentran Crawlers = Recopilar información de la web a partir de una serie de URL iniciales Indexado = Recopilar información de la web mediante hiperenlaces Hiperenlaces = Almacenar documentos, vídeos, imágenes, etc. de forma ordenada Signup and view all the answers

¿Qué herramienta de código abierto diseñada por la Biblioteca de Dinamarca se utiliza en la Biblioteca Nacional de España para archivar la web?

NAS (NetarchiveSuite) = Una aplicación para visualizar sitios web archivados OpenWayback = Internet Archive Heritrix = Un robot para rastrear sitios web Signup and view all the answers

¿Cuál es el fin principal de las recolecciones de sitios web?

Conservar la versión original del sitio web = Reproducir el aspecto del sitio y sus funcionalidades Realizar búsquedas sobre los contenidos indexados = Crear una copia estática del sitio web Archivar la web para consultar versiones anteriores = Preservar el contenido dinámico del sitio web Minimizar el impacto perturbador en la actividad normal de los sitios web = Reemplazar el sitio web original Signup and view all the answers

¿Qué organización inició la tarea de rastrear y archivar la web en 1996?

Biblioteca Nacional de España = Internet Archive Biblioteca de Dinamarca = OpenWayback NAS (NetarchiveSuite) = Heritrix La Biblioteca de Francia = La Biblioteca de Austria Signup and view all the answers

¿Qué aplicación se utiliza para visualizar sitios web archivados?

OpenWayback = Heritrix NAS (NetarchiveSuite) = Internet Archive Biblioteca Nacional de España = Biblioteca de Dinamarca Heritrix = Una aplicación para consultar versiones de sitios web Signup and view all the answers

¿Cuál es el nombre del robot utilizado para rastrear sitios web?

Heritrix = NAS OpenWayback = Internet Archive Robot de rastreo de la Biblioteca Nacional de España = Heritrix Robot de la Biblioteca de Dinamarca = NAS Signup and view all the answers

¿Qué versión de Heritrix se utiliza actualmente?

Versión 1 = Versión 3 Versión 2 = Versión 4 Versión 3 = La última versión disponible Versión 5 = Una versión beta Signup and view all the answers

Flashcards are hidden until you start studying

Study Notes

Robot de rastreo y sus atributos

Identificación del robot: utiliza un User Agent Template específico que incluye "Mozilla/5.0 (compatible; bne.es_bot; +@OPERATOR_CONTACT_URL@)".
Atributos del robot:
- operatorFrom: [email protected]
- operatorContactUrl: http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html
- organization: Biblioteca Nacional de España (BNE).
El robot ignora los archivos robots.txt debido al mandato legal de la BNE en materia de depósito legal.

Proceso de recolección web

Los crawlers comienzan a partir de URLs iniciales llamadas seeds o semillas.
Guardan automáticamente cada página, recorriendo hiperenlaces y añadiendo a la lista de URLs para visitas recursivas.
Los documentos, vídeos, imágenes, etc., son almacenados de forma ordenada.
El contenido es indexado para permitir búsquedas a texto completo en la colección.

Visualización y herramientas utilizadas

Las recolecciones buscan replicar el aspecto y funcionalidad de los sitios en el momento de la captura.
Las webs archivadas se visualizan en OpenWayback, permitiendo al usuario seleccionar versiones específicas.
Para archivar la web, la BNE emplea NAS (NetarchiveSuite), herramienta de código abierto aprobada por otras bibliotecas nacionales.
El robot utilizado para rastrear es Heritrix, desarrollado por Internet Archive en 1996, usado ampliamente por grandes instituciones.
Heritrix está diseñado para minimizar el impacto sobre la actividad normal de los sitios, con un ritmo de rastreo ajustable.

Importancia de la recolección web

Facilita la conservación del patrimonio digital y transformaciones de contenido de Internet.
Permite a los usuarios acceder a versiones antiguas de sitios web, contribuyendo así a la preservación de la memoria digital.