Web Crawlers and Indexing

101 Questions

Match the attribute with its corresponding value for the web crawler:

UserAgent = Mozilla/5.0 (compatible; bn.e bübot; +@OPERATOR_CONTACT_URL@) operatorFrom = [email protected] operatorContactUrl = http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html organization = Biblioteca Nacional de España

What is the main reason the web crawler ignores the robots.txt files?

Because it is a web archiving project = Mandato legal de la BNE en materia de depósito legal Because it respects the robots.txt files = No aplica Because it is a commercial project = No es relevante Because it is a research project = No está relacionado

Match the author with their corresponding publication:

Allo Manerao, Mª.Adelaida = Conservación de la colección Luisa Orera = Manual de biblioteconomía José Manuel Barrueco = Preservación y conservación de documentos digitales C. Bello Urgellès, A. Borrel Crehuét = El Patrimonio bibliográfico y documental: claves para su conservación preventiva

What is the main topic of the publication by AENOR?

ISO 15836:2011 = Análisis de documentos digitales UNE-ISO 15836:2011 = Metadatos para la descripción de recursos digitales ISO/TC 46/SC 11 = Preservación de los documentos digitales N0047623 = Conservación de la colección

What is the name of the publication by Elvira i Silleràs?

Preservación de documentos digitales: Guía para comenzar = ISO/TC 46/SC 11 Conservación de la colección = Allo Manerao, Mª.Adelaida El Patrimonio bibliográfico y documental: claves para su conservación preventiva = C. Bello Urgellès, A. Borrel Crehuét Manual de biblioteconomía = Luisa Orera

Match the URL with its corresponding description:

http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html = Operator contact URL http://www.edaddeplata.org/docactos/pdf/educativa/manual/CAPITULO7.pdf = Manual de preservación y conservación de documentos digitales http://www.aenor.es/aenor/normas/normas/fichanorma.asp?tipo=N&codigo=N0047623#.Vg1nwBPtlBd = Página de la norma UNE-ISO 15836:2011

Asocie las herramientas con sus funciones en el proceso de recolección web:

Heritrix = Robot para rastrear sitios web NAS = Herramienta de código abierto para archivar la web OpenWayback = Aplicación para visualizar webs archivadas Internet Archive = Organización que empezó a rastrear y archivar la web en 1996

Asocie las instituciones con sus roles en el proceso de recolección web:

Biblioteca Nacional de España = Utiliza NAS para archivar la web Biblioteca de Dinamarca = Diseñó la herramienta NAS Internet Archive = Creó el robot Heritrix Biblioteca de Francia = Utiliza NAS para archivar la web

Asocie las características con la herramienta Heritrix:

Diseñado para minimizar el impacto perturbador en los sitios web = Heritrix Permite ajustar el ritmo de rastreo según parámetros = Heritrix Visualiza webs archivadas = OpenWayback Es una aplicación para seleccionar versiones de una web = OpenWayback

Asocie las versiones con las características de la herramienta Heritrix:

Versión 3 = Es la versión actual de Heritrix Versión 2 = Fue utilizada anteriormente en la Biblioteca Nacional de España Versión 1 = Fue la primera versión de Heritrix Versión 4 = Es la versión más reciente de Heritrix

Asocie las características con el proceso de recolección web:

Reproduce con detalle el aspecto del sitio = Recolección Permite realizar búsquedas sobre los contenidos = Índice Se utiliza para archivar la web = NAS Requiere una aplicación para visualizar las webs archivadas = OpenWayback

Asocie las instituciones con su relación con la herramienta NAS:

Biblioteca de Francia = Utiliza NAS para archivar la web Biblioteca de Austria = Utiliza NAS para archivar la web Biblioteca Nacional de España = Utiliza NAS para archivar la web Biblioteca de Dinamarca = Diseñó la herramienta NAS

Match the following terms with their definitions in the context of web crawling:

Recolección web = El proceso de recopilar información en la web Web crawlers = Los sitios iniciales desde los cuales comienzan la recolección de la web Semillas = Los robots que recorren la web para recopilar información Hiperenlaces = Los enlaces entre páginas que permiten navegar en la web

Match the following terms with their functions in web crawling:

Crawlers = Recopilar información en la web Semillas = Almacenar información recopilada Hiperenlaces = Conectar páginas web entre sí Recolección web = Indexar información recopilada

Match the following terms with their descriptions in the context of web crawling:

URL = Dirección de una página web Web crawlers = Robots que recorren la web Semillas = Páginas iniciales de la recolección web Recolección web = Proceso de recopilar información en la web

Match the following terms with their products in the context of web crawling:

Web crawlers = Listas de URL que visitarán recursivamente Recolección web = Colección de documentos, vídeos, imágenes, etc. Semillas = Páginas web indexadas Hiperenlaces = Páginas web recopiladas

Match the following terms with their purposes in the context of web crawling:

Recolección web = Realizar búsquedas a texto completo Web crawlers = Recopilar información en la web Semillas = Iniciar la recolección web Hiperenlaces = Conectar páginas web entre sí

Match the following terms with their roles in the context of web crawling:

Web crawlers = Recopilar información en la web Semillas = Iniciar la recolección web Recolección web = Indexar información recopilada Hiperenlaces = Conectar páginas web entre sí

Asocie las características de las bibliotecas digitales con su descripción:

Interoperabilidad = Permite la comunicación entre bibliotecas digitales Perdurabilidad = Garantiza la accesibilidad del conocimiento en todo el mundo Colecciones = Recopilación de información y conocimientos Normas abiertas = Mejora la difusión del conocimiento y su acceso en todo el mundo

Asocie las instituciones con su papel en la preservación del patrimonio digital:

Biblioteca Nacional de Australia = Desarrolló las Directrices para la Preservación del Patrimonio Digital UNESCO = Apoya la preservación del patrimonio digital Autoridad competente = Preserva la información digital Biblioteca digital = Recopila y difunde información y conocimientos

Asocie las características de la preservación digital con su importancia:

Planificación = Es fundamental para la preservación digital Accesibilidad = Garantiza el acceso permanente al conocimiento Normas = Mejora la difusión del conocimiento Comunicación = Permite la interoperabilidad entre bibliotecas digitales

Asocie las características de la información digital con su importancia:

Creación = Es parte del ciclo completo de la información digital Difusión = Permite el acceso al conocimiento en todo el mundo Utilización = Es fundamental para la preservación digital Preservación = Garantiza la accesibilidad del conocimiento en el futuro

Asocie las normas y protocolos con su importancia en la preservación digital:

Normas abiertas = Mejora la difusión del conocimiento y su acceso en todo el mundo Protocolos aceptados = Permite la interoperabilidad entre bibliotecas digitales Directrices para la Preservación del Patrimonio Digital = Garantiza la accesibilidad del conocimiento en el futuro Plan de preservación = Es fundamental para la preservación digital

Asocie las instituciones culturales con sus objetivos:

Bibliotecas = Garantizar la mayor utilización posible del material cultural digitalizado Museos = Desarrollar la política de datos abiertos Archivos = Crear la biblioteca, archivo y museo digital de Europa Europeana = Garantizar el acceso y la reutilización del material cultural

Asocie las politicas con sus documentos:

Política de datos abiertos = Comunicación de la Comisión (Bruselas, 12.12.2011 COM (2011) 882 final) Política de digitalización = Directiva (2013/37/UE) Política de innovación = Comunicación de la Comisión (Bruselas, 2011) Política de transparencia = Comunicación de la Comisión (Bruselas, 2011)

Asocie las instituciones con sus roles:

Bibliotecas = Digitalizar el patrimonio cultural Museos = Desarrollar la política de datos abiertos Archivos = Garantizar la mayor utilización posible del material cultural digitalizado Europeana = Crear la biblioteca, archivo y museo digital de Europa

Asocie las herramientas con sus objetivos:

Europeana = Garantizar el acceso y la reutilización del material cultural Digitalización = Digitalizar el patrimonio cultural Política de datos abiertos = Crear la biblioteca, archivo y museo digital de Europa Robot.txt = Ignorar la reutilización del material cultural

Asocie las políticas con sus objetivos:

Política de datos abiertos = Garantizar el acceso y la reutilización del material cultural Política de digitalización = Crear la biblioteca, archivo y museo digital de Europa Política de innovación = Desarrollar la política de datos abiertos Política de transparencia = Digitalizar el patrimonio cultural

Asocie las instituciones con sus objetivos:

Asocie los artículos de la Carta para la Preservación del Patrimonio Digital con sus objetivos:

Artículo 6 = Elaborar estrategias y políticas Artículo 7 = Proteger el patrimonio digital Artículo 8 = Seleccionar los elementos que deben conservarse Artículo 9 = Preservar el patrimonio cultural

Asocie las características del patrimonio digital con su definición:

Documentos generados directamente en formato digital = Existen en formato digital Material analógico ya existente = Se convierten a formato digital Patrimonio cultural = Incluye documentos y material analógico Documentos físicos = No se consideran patrimonio digital

Asocie los roles del Estado con su responsabilidad en la preservación del patrimonio digital:

Nombrar una agencia = Recoger, gestionar y dar acceso a la información digital Proteger el patrimonio digital = Elaborar estrategias y políticas Preservar el patrimonio cultural = Conservar el patrimonio digital Dar acceso a la información digital = Nombrar una agencia

Asocie los elementos del patrimonio digital con su función:

Documentos generados directamente en formato digital = Conservar la información digital Material analógico ya existente = Convertir a formato digital Patrimonio cultural = Preservar la identidad cultural Documentos físicos = No se consideran patrimonio digital

Asocie las recomendaciones de la Carta con su objetivo:

Nombrar una agencia = Responsabilizarse de la preservación del patrimonio digital Elaborar estrategias y políticas = Proteger el patrimonio digital Proteger el patrimonio digital = Preservar el patrimonio cultural Preservar el patrimonio cultural = Conservar la información digital

Asocie las características del patrimonio digital con su riesgo:

Existen en formato digital = No corren peligro de pérdida Se convierten a formato digital = Pueden perderse si no se conservan Incluye documentos y material analógico = No corren peligro de pérdida No se consideran patrimonio digital = No corren peligro de pérdida

Asocia las divisiones de la IFLA con sus características:

Primera = Principal objetivo de promover la cooperación biblioteconómica internacional Segunda = Desarrolla actividades fundamentales de la IFLA Tercera = Se enfoca en la promoción de la cooperación biblioteconómica internacional Quinta = No tiene una función específica asignada

Asocia las activides de la IFLA con sus objetivos:

PAC = Preservación y conservación de materiales de biblioteca Core Activity = Desarrollar las seis actividades fundamentales de la IFLA Cooperación internacional = Fomentar la cooperación biblioteconómica internacional Divulgación = Difundir información sobre bibliotecas y centros de información

Asocia los años con los eventos relacionados con la IFLA:

1927 = Fundación de la IFLA 1984 = Inicio oficial de la actividad PAC 1980 = Creación de la segunda división de la IFLA 2000 = Cambios en la estructura de la IFLA

Asocia las instituciones con sus relaciones con la IFLA:

IFLA = Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas AENOR = No tiene relación con la IFLA Institución Nacional = Miembro de la IFLA Biblioteca Nacional = Parte de la IFLA

Asocia las características con la IFLA:

Cooperación internacional = Objetivo principal de la IFLA Desarrollo = Actividad fundamental de la IFLA Preservación = Actividad de la IFLA Investigación = No es un objetivo de la IFLA

Asocia las actividades con sus resultados en la IFLA:

PAC = Conservación de materiales de biblioteca Cooperación internacional = Fomento de la cooperación biblioteconómica internacional Divulgación = Difusión de información sobre bibliotecas y centros de información Desarrollo = Mejora de la educación en biblioteconomía

Asocie los siguientes conceptos con sus definiciones en el contexto de la preservación digital:

Metadatos de preservación = Información que un repositorio utiliza para llevar a cabo el proceso de preservación digital Diccionario de Datos = Material práctico y exhaustivo para la puesta en práctica de metadatos de preservación OAIS = Modelo de referencia genérico para la preservación digital PREMIS = Estándar para la definición de metadatos de preservación

Asocie los siguientes recursos con su función en el contexto de la preservación digital:

Diccionario de Datos = Describe los metadatos esenciales para la preservación digital Final Report of the PREMIS Working Group = Define los metadatos de preservación Esquema XML = Permite la codificación de metadatos de preservación Data Dictionary for Preservation Metadata = Presenta un modelo de referencia genérico para la preservación digital

Asocie los siguientes términos con sus características en el contexto de la preservación digital:

Viabilidad = Permite mantener el acceso a los objetos digitales Disponibilidad = Garantiza la accesibilidad de los objetos digitales Claridad = Asegura la comprensibilidad de los objetos digitales Autenticidad = Verifica la identidad de los objetos digitales

Asocie los siguientes recursos con su autor en el contexto de la preservación digital:

Final Report of the PREMIS Working Group = Grupo de trabajo PREMIS Data Dictionary for Preservation Metadata = Rubén Izquierdo Martín Diccionario de Datos = Equipo de profesionales Esquema XML = AENOR

Asocie los siguientes conceptos con su relación en el contexto de la preservación digital:

Metadatos de preservación = Información necesaria para la preservación digital Diccionario de Datos = Recurso para la implementación de metadatos de preservación PREMIS = Estándar para la codificación de metadatos de preservación OAIS = Modelo de referencia para la preservación digital

Asocie los siguientes recursos con su función en el contexto de la preservación digital:

Data Dictionary for Preservation Metadata = Describe los metadatos esenciales para la preservación digital Final Report of the PREMIS Working Group = Presenta un modelo de referencia genérico para la preservación digital Esquema XML = Permite la codificación de metadatos de preservación Diccionario de Datos = Define los metadatos de preservación

Los ______ toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.

crawlers

Las recolecciones de la web se llevan a cabo con ______ de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.

robots

Los ______ van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.

crawlers

Estos contenidos son indexados posteriormente con el fin de poder realizar ______ a texto completo en la colección.

búsquedas

Los ______ recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.

crawlers

Los ______ se llevan a cabo con robots de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.

crawls

Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos: ▪ ______ Template: Mozilla/5.0

userAgent

Por el mandato legal que tiene la ______ en materia de depósito legal, el robot ignora los ficheros robots.txt.

BNE

OperatorFrom: [email protected]

archivoweb

OperatorContactUrl:http://www.______.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html

bne

El robot rastreador se identifica con los siguientes atributos: ▪ userAgent Template: Mozilla/5.0 (compatible; ______bot; +@OPERATOR_CONTACT_URL@)

bne.e

Organization: ______ Nacional de España

Biblioteca

Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión[VACÍO].

viva

Una vez completado el rastreo, las webs archivadas son visualizadas en la [VACÍO], una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.

OpenWayback

En la Biblioteca Nacional de España para archivar la web se utiliza [VACÍO] (NetarchiveSuite), una herramienta de código abierto diseñada por la Biblioteca de Dinamarca.

NAS

Para rastrear, se incorpora el robot [VACÍO], creado por Internet Archive, primera organización que empezó a rastrear y archivar la web en 1996.

Heritrix

La versión de [VACÍO] que se utiliza actualmente es la 3.

Heritrix

Es el robot que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios [VACÍO].

web

¿Qué es el propósito principal de Heritrix en el proceso de recolección web?

minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web

¿Qué versión de Heritrix se utiliza actualmente en el proceso de recolección web?

¿Quién diseñó el robot Heritrix?

Internet Archive

¿Cuál es la característica principal del robot Heritrix en el proceso de recolección web?

minimizar el impacto perturbador

¿Qué permite ajustar el ritmo de rastreo del programa Heritrix?

parámetros

¿Cuál es el nombre del robot que se utiliza en el proceso de recolección web para rastrear y archivar páginas y sitios web?

Heritrix

¿Cuál es el objetivo principal del proceso de recolección web?

Recopilar y preservar el patrimonio digital

¿Qué es Heritrix?

Una herramienta de código abierto para la recolección web

¿Cuál es el propósito de la herramienta Heritrix en el proceso de recolección web?

Recopilar y preservar el patrimonio digital

¿Qué características tiene la herramienta Heritrix?

Es una herramienta de código abierto y diseñada para recopilar y preservar el patrimonio digital

¿Cómo se lleva a cabo la recolección web con Heritrix?

Recorriendo la web a partir de una serie de URL iniciales llamadas seeds o semillas

¿Cuál es el resultado final del proceso de recolección web con Heritrix?

Una réplica del sitio web que se puede consultar en el futuro

¿Cuál es el objetivo principal de la iniciativa Europeana en relación con el patrimonio digital?

Crear un patrimonio digital cultural europeo común

¿Qué es el 'agujero negro' en el contexto de la preservación digital?

El agujero negro se refiere a la carencia de materiales en línea de los siglos XX y XXI

¿Cuál es el papel de las bibliotecas en la iniciativa Europeana?

Las bibliotecas tienen un papel importante en la digitalización del patrimonio cultural

¿Qué es Europeana en el contexto de la preservación digital?

Europeana es el portal común del patrimonio en Internet

¿Cuál es el objetivo principal de la colaboración público-privado en la iniciativa Europeana?

Impulsar la digitalización del patrimonio cultural europeo

¿Cuál es el papel de las normas en la iniciativa Europeana?

Establecer un marco armonizado para la reutilización de obras y materiales públicos

Los documentos digitales están almacenados en soportes tecnológicos que no son susceptibles de daño y degradación potencial.

False

La obsolescencia del formato del fichero es un problema que surge después de que expire el período de retención de los documentos.

False

La naturaleza única de los documentos digitales no comporta peculiaridades que se deben considerar para su conservación.

False

La obsolescencia del formato del fichero se debe a la incapacidad de los programas de software para leer e interpretar datos en diferentes formatos de fichero.

True

Las actividades de preservación deben iniciarse cuando expire el período de retención de los documentos.

False

La degradación del formato físico no es un problema que se debe considerar en la preservación de documentos digitales.

False

La Ley 18/2015, de 9 de julio, establece la obligación de las Administraciones y organismos del sector público de autorizar la reutilización de los documentos.

True

Las bibliotecas universitarias están excluidas del ámbito de aplicación de la Ley 18/2015.

False

El patrimonio cultural en dominio público y de titularidad pública, una vez digitalizado, estará para uso y disfrute solo de algunos ciudadanos de la Unión.

False

La Ley 18/2015, de 9 de julio, exceptúa a los documentos cuyo acceso esté restringido o excluido en virtud del ordenamiento jurídico nacional.

True

La Ley 18/2015, de 9 de julio, solo se aplica a los museos y archivos.

False

El depósito legal es una obligación solo para las Administraciones y organismos del sector público.

False

El Archivo de la Web Española fue creado en 2005.

False

El proyecto del Archivo de la Web Española se ocupa del archivo del patrimonio digital catalán.

False

La Biblioteca Nacional de España captura páginas y sitios web españoles albergados en cualquier dominio.

False

La UNESCO tiene directrices para la preservación del patrimonio digital.

True

La Comisión Europea recomendó la digitalización y la accesibilidad en línea del material cultural y la conservación digital en 2003.

False

El Archivo de la Web Española se ocupa de conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet.

True

Study Notes

Archivo de la Web Española

La Biblioteca Nacional de España (BNE) trabaja en el Archivo de la Web Española desde 2009 con el objetivo de conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet.
La BNE utiliza la herramienta de código abierto NetarchiveSuite (NAS) y el robot Heritrix, creado por Internet Archive, para archivar la web.
El robot Heritrix fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web.

Preservación del Patrimonio Digital

La UNESCO publicó en 2003 las Directrices para la Preservación del Patrimonio Digital.
Estas directrices establecen que el patrimonio digital se compone de documentos generados directamente en formato digital o convertidos desde material analógico.
La Carta para la Preservación del Patrimonio Digital recomienda que cada Estado nombre una agencia para responsabilizarse de la preservación del patrimonio digital.

IFLA: Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas

La IFLA es la principal institución del mundo al servicio de los intereses de los profesionales y usuarios de las bibliotecas y centros de información.
La IFLA se divide en cinco divisiones y tiene como objetivo principal la promoción de la cooperación biblioteconómica internacional.
La actividad fundamental de IFLA en relación con la preservación y la conservación es PAC (Core Activity on Preservation and Conservation).

Digitalización y Accesibilidad en Línea del Material Cultural

La Comisión Europea recomienda la digitalización del patrimonio cultural y el desarrollo de Europeana, la biblioteca, archivo y museo digital de Europa.
El objetivo principal es “llevar a cabo una armonización mínima de las normas y prácticas nacionales en materia de reutilización del material cultural público de bibliotecas, museos y archivos”.

Metadatos de Preservación

El Diccionario de Datos PREMIS define los metadatos de preservación como la información que un repositorio utiliza para llevar a cabo el proceso de preservación digital.
Los metadatos de preservación son fundamentales para la preservación del patrimonio digital y el acceso permanente al mismo.

Recolecciones de la Web

Las recolecciones de la web se llevan a cabo con robots de rastreo que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Los crawlers toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.### Archivado de la Web
Los contenidos de la web se indexan para permitir búsquedas sobre ellos.

Recolecciones de Sitios Web

Las recolecciones buscan reproducir con detalle el aspecto del sitio y sus funcionalidades disponibles durante la captura.
El objetivo es que la réplica del sitio web sea tan navegable como su versión “viva”.

Visualización de Webs Archivadas

Las webs archivadas se visualizan en la OpenWayback, una aplicación que permite al usuario seleccionar qué versión concreta de una web determinada desea consultar.

Herramientas de Archivado

La Biblioteca Nacional de España utiliza NAS (NetarchiveSuite) para archivar la web.
NAS es una herramienta de código abierto diseñada por la Biblioteca de Dinamarca.
Otras bibliotecas nacionales como la de Francia y la de Austria también utilizan NAS.

Robot Heritrix

Heritrix es un robot creado por Internet Archive que se utiliza para rastrear y archivar páginas y sitios web.
Fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web.
El ritmo de rastreo del programa se puede ajustar según determinados parámetros.
La versión actual de Heritrix es la 3.

Learn about web crawlers, how they start from a URL and recursively collect data, indexing contents for full-text searches. Understand the process of web scraping and its applications.

Make Your Own Quizzes and Flashcards

Convert your notes into interactive study material.