Web Crawlers and Indexing

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

Match the attribute with its corresponding value for the web crawler:

UserAgent = Mozilla/5.0 (compatible; bn.e bübot; +@OPERATOR_CONTACT_URL@) operatorFrom = [email protected] operatorContactUrl = http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html organization = Biblioteca Nacional de España

What is the main reason the web crawler ignores the robots.txt files?

Because it is a web archiving project = Mandato legal de la BNE en materia de depósito legal Because it respects the robots.txt files = No aplica Because it is a commercial project = No es relevante Because it is a research project = No está relacionado

Match the author with their corresponding publication:

Allo Manerao, Mª.Adelaida = Conservación de la colección Luisa Orera = Manual de biblioteconomía José Manuel Barrueco = Preservación y conservación de documentos digitales C. Bello Urgellès, A. Borrel Crehuét = El Patrimonio bibliográfico y documental: claves para su conservación preventiva

What is the main topic of the publication by AENOR?

ISO 15836:2011 = Análisis de documentos digitales UNE-ISO 15836:2011 = Metadatos para la descripción de recursos digitales ISO/TC 46/SC 11 = Preservación de los documentos digitales N0047623 = Conservación de la colección Signup and view all the answers

What is the name of the publication by Elvira i Silleràs?

Preservación de documentos digitales: Guía para comenzar = ISO/TC 46/SC 11 Conservación de la colección = Allo Manerao, Mª.Adelaida El Patrimonio bibliográfico y documental: claves para su conservación preventiva = C. Bello Urgellès, A. Borrel Crehuét Manual de biblioteconomía = Luisa Orera Signup and view all the answers

Match the URL with its corresponding description:

<a href="http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html">http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html</a> = Operator contact URL <a href="http://www.edaddeplata.org/docactos/pdf/educativa/manual/CAPITULO7.pdf">http://www.edaddeplata.org/docactos/pdf/educativa/manual/CAPITULO7.pdf</a> = Manual de preservación y conservación de documentos digitales <a href="http://www.aenor.es/aenor/normas/normas/fichanorma.asp?tipo=N&codigo=N0047623#.Vg1nwBPtlBd">http://www.aenor.es/aenor/normas/normas/fichanorma.asp?tipo=N&codigo=N0047623#.Vg1nwBPtlBd</a> = Página de la norma UNE-ISO 15836:2011 Signup and view all the answers

Asocie las herramientas con sus funciones en el proceso de recolección web:

Heritrix = Robot para rastrear sitios web NAS = Herramienta de código abierto para archivar la web OpenWayback = Aplicación para visualizar webs archivadas Internet Archive = Organización que empezó a rastrear y archivar la web en 1996 Signup and view all the answers

Asocie las instituciones con sus roles en el proceso de recolección web:

Biblioteca Nacional de España = Utiliza NAS para archivar la web Biblioteca de Dinamarca = Diseñó la herramienta NAS Internet Archive = Creó el robot Heritrix Biblioteca de Francia = Utiliza NAS para archivar la web Signup and view all the answers

Asocie las características con la herramienta Heritrix:

Diseñado para minimizar el impacto perturbador en los sitios web = Heritrix Permite ajustar el ritmo de rastreo según parámetros = Heritrix Visualiza webs archivadas = OpenWayback Es una aplicación para seleccionar versiones de una web = OpenWayback Signup and view all the answers

Asocie las versiones con las características de la herramienta Heritrix:

Versión 3 = Es la versión actual de Heritrix Versión 2 = Fue utilizada anteriormente en la Biblioteca Nacional de España Versión 1 = Fue la primera versión de Heritrix Versión 4 = Es la versión más reciente de Heritrix Signup and view all the answers

Asocie las características con el proceso de recolección web:

Reproduce con detalle el aspecto del sitio = Recolección Permite realizar búsquedas sobre los contenidos = Índice Se utiliza para archivar la web = NAS Requiere una aplicación para visualizar las webs archivadas = OpenWayback Signup and view all the answers

Asocie las instituciones con su relación con la herramienta NAS:

Biblioteca de Francia = Utiliza NAS para archivar la web Biblioteca de Austria = Utiliza NAS para archivar la web Biblioteca Nacional de España = Utiliza NAS para archivar la web Biblioteca de Dinamarca = Diseñó la herramienta NAS Signup and view all the answers

Match the following terms with their definitions in the context of web crawling:

Recolección web = El proceso de recopilar información en la web Web crawlers = Los sitios iniciales desde los cuales comienzan la recolección de la web Semillas = Los robots que recorren la web para recopilar información Hiperenlaces = Los enlaces entre páginas que permiten navegar en la web Signup and view all the answers

Match the following terms with their functions in web crawling:

Crawlers = Recopilar información en la web Semillas = Almacenar información recopilada Hiperenlaces = Conectar páginas web entre sí Recolección web = Indexar información recopilada Signup and view all the answers

Match the following terms with their descriptions in the context of web crawling:

URL = Dirección de una página web Web crawlers = Robots que recorren la web Semillas = Páginas iniciales de la recolección web Recolección web = Proceso de recopilar información en la web Signup and view all the answers

Match the following terms with their products in the context of web crawling:

Web crawlers = Listas de URL que visitarán recursivamente Recolección web = Colección de documentos, vídeos, imágenes, etc. Semillas = Páginas web indexadas Hiperenlaces = Páginas web recopiladas Signup and view all the answers

Match the following terms with their purposes in the context of web crawling:

Recolección web = Realizar búsquedas a texto completo Web crawlers = Recopilar información en la web Semillas = Iniciar la recolección web Hiperenlaces = Conectar páginas web entre sí Signup and view all the answers

Match the following terms with their roles in the context of web crawling:

Web crawlers = Recopilar información en la web Semillas = Iniciar la recolección web Recolección web = Indexar información recopilada Hiperenlaces = Conectar páginas web entre sí Signup and view all the answers

Asocie las características de las bibliotecas digitales con su descripción:

Interoperabilidad = Permite la comunicación entre bibliotecas digitales Perdurabilidad = Garantiza la accesibilidad del conocimiento en todo el mundo Colecciones = Recopilación de información y conocimientos Normas abiertas = Mejora la difusión del conocimiento y su acceso en todo el mundo Signup and view all the answers

Asocie las instituciones con su papel en la preservación del patrimonio digital:

Biblioteca Nacional de Australia = Desarrolló las Directrices para la Preservación del Patrimonio Digital UNESCO = Apoya la preservación del patrimonio digital Autoridad competente = Preserva la información digital Biblioteca digital = Recopila y difunde información y conocimientos Signup and view all the answers

Asocie las características de la preservación digital con su importancia:

Planificación = Es fundamental para la preservación digital Accesibilidad = Garantiza el acceso permanente al conocimiento Normas = Mejora la difusión del conocimiento Comunicación = Permite la interoperabilidad entre bibliotecas digitales Signup and view all the answers

Asocie las características de la información digital con su importancia:

Creación = Es parte del ciclo completo de la información digital Difusión = Permite el acceso al conocimiento en todo el mundo Utilización = Es fundamental para la preservación digital Preservación = Garantiza la accesibilidad del conocimiento en el futuro Signup and view all the answers

Asocie las normas y protocolos con su importancia en la preservación digital:

Normas abiertas = Mejora la difusión del conocimiento y su acceso en todo el mundo Protocolos aceptados = Permite la interoperabilidad entre bibliotecas digitales Directrices para la Preservación del Patrimonio Digital = Garantiza la accesibilidad del conocimiento en el futuro Plan de preservación = Es fundamental para la preservación digital Signup and view all the answers

Asocie las instituciones culturales con sus objetivos:

Bibliotecas = Garantizar la mayor utilización posible del material cultural digitalizado Museos = Desarrollar la política de datos abiertos Archivos = Crear la biblioteca, archivo y museo digital de Europa Europeana = Garantizar el acceso y la reutilización del material cultural Signup and view all the answers

Asocie las politicas con sus documentos:

Política de datos abiertos = Comunicación de la Comisión (Bruselas, 12.12.2011 COM (2011) 882 final) Política de digitalización = Directiva (2013/37/UE) Política de innovación = Comunicación de la Comisión (Bruselas, 2011) Política de transparencia = Comunicación de la Comisión (Bruselas, 2011) Signup and view all the answers

Asocie las instituciones con sus roles:

Bibliotecas = Digitalizar el patrimonio cultural Museos = Desarrollar la política de datos abiertos Archivos = Garantizar la mayor utilización posible del material cultural digitalizado Europeana = Crear la biblioteca, archivo y museo digital de Europa Signup and view all the answers

Asocie las herramientas con sus objetivos:

Europeana = Garantizar el acceso y la reutilización del material cultural Digitalización = Digitalizar el patrimonio cultural Política de datos abiertos = Crear la biblioteca, archivo y museo digital de Europa Robot.txt = Ignorar la reutilización del material cultural Signup and view all the answers

Asocie las políticas con sus objetivos:

Política de datos abiertos = Garantizar el acceso y la reutilización del material cultural Política de digitalización = Crear la biblioteca, archivo y museo digital de Europa Política de innovación = Desarrollar la política de datos abiertos Política de transparencia = Digitalizar el patrimonio cultural Signup and view all the answers

Asocie las instituciones con sus objetivos:

Bibliotecas = Garantizar la mayor utilización posible del material cultural digitalizado Museos = Desarrollar la política de datos abiertos Archivos = Crear la biblioteca, archivo y museo digital de Europa Europeana = Digitalizar el patrimonio cultural Signup and view all the answers

Asocie los artículos de la Carta para la Preservación del Patrimonio Digital con sus objetivos:

Artículo 6 = Elaborar estrategias y políticas Artículo 7 = Proteger el patrimonio digital Artículo 8 = Seleccionar los elementos que deben conservarse Artículo 9 = Preservar el patrimonio cultural Signup and view all the answers

Asocie las características del patrimonio digital con su definición:

Documentos generados directamente en formato digital = Existen en formato digital Material analógico ya existente = Se convierten a formato digital Patrimonio cultural = Incluye documentos y material analógico Documentos físicos = No se consideran patrimonio digital Signup and view all the answers

Asocie los roles del Estado con su responsabilidad en la preservación del patrimonio digital:

Nombrar una agencia = Recoger, gestionar y dar acceso a la información digital Proteger el patrimonio digital = Elaborar estrategias y políticas Preservar el patrimonio cultural = Conservar el patrimonio digital Dar acceso a la información digital = Nombrar una agencia Signup and view all the answers

Asocie los elementos del patrimonio digital con su función:

Documentos generados directamente en formato digital = Conservar la información digital Material analógico ya existente = Convertir a formato digital Patrimonio cultural = Preservar la identidad cultural Documentos físicos = No se consideran patrimonio digital Signup and view all the answers

Asocie las recomendaciones de la Carta con su objetivo:

Nombrar una agencia = Responsabilizarse de la preservación del patrimonio digital Elaborar estrategias y políticas = Proteger el patrimonio digital Proteger el patrimonio digital = Preservar el patrimonio cultural Preservar el patrimonio cultural = Conservar la información digital Signup and view all the answers

Asocie las características del patrimonio digital con su riesgo:

Existen en formato digital = No corren peligro de pérdida Se convierten a formato digital = Pueden perderse si no se conservan Incluye documentos y material analógico = No corren peligro de pérdida No se consideran patrimonio digital = No corren peligro de pérdida Signup and view all the answers

Asocia las divisiones de la IFLA con sus características:

Primera = Principal objetivo de promover la cooperación biblioteconómica internacional Segunda = Desarrolla actividades fundamentales de la IFLA Tercera = Se enfoca en la promoción de la cooperación biblioteconómica internacional Quinta = No tiene una función específica asignada Signup and view all the answers

Asocia las activides de la IFLA con sus objetivos:

PAC = Preservación y conservación de materiales de biblioteca Core Activity = Desarrollar las seis actividades fundamentales de la IFLA Cooperación internacional = Fomentar la cooperación biblioteconómica internacional Divulgación = Difundir información sobre bibliotecas y centros de información Signup and view all the answers

Asocia los años con los eventos relacionados con la IFLA:

1927 = Fundación de la IFLA 1984 = Inicio oficial de la actividad PAC 1980 = Creación de la segunda división de la IFLA 2000 = Cambios en la estructura de la IFLA Signup and view all the answers

Asocia las instituciones con sus relaciones con la IFLA:

IFLA = Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas AENOR = No tiene relación con la IFLA Institución Nacional = Miembro de la IFLA Biblioteca Nacional = Parte de la IFLA Signup and view all the answers

Asocia las características con la IFLA:

Cooperación internacional = Objetivo principal de la IFLA Desarrollo = Actividad fundamental de la IFLA Preservación = Actividad de la IFLA Investigación = No es un objetivo de la IFLA Signup and view all the answers

Asocia las actividades con sus resultados en la IFLA:

PAC = Conservación de materiales de biblioteca Cooperación internacional = Fomento de la cooperación biblioteconómica internacional Divulgación = Difusión de información sobre bibliotecas y centros de información Desarrollo = Mejora de la educación en biblioteconomía Signup and view all the answers

Asocie los siguientes conceptos con sus definiciones en el contexto de la preservación digital:

Metadatos de preservación = Información que un repositorio utiliza para llevar a cabo el proceso de preservación digital Diccionario de Datos = Material práctico y exhaustivo para la puesta en práctica de metadatos de preservación OAIS = Modelo de referencia genérico para la preservación digital PREMIS = Estándar para la definición de metadatos de preservación Signup and view all the answers

Asocie los siguientes recursos con su función en el contexto de la preservación digital:

Diccionario de Datos = Describe los metadatos esenciales para la preservación digital Final Report of the PREMIS Working Group = Define los metadatos de preservación Esquema XML = Permite la codificación de metadatos de preservación Data Dictionary for Preservation Metadata = Presenta un modelo de referencia genérico para la preservación digital Signup and view all the answers

Asocie los siguientes términos con sus características en el contexto de la preservación digital:

Viabilidad = Permite mantener el acceso a los objetos digitales Disponibilidad = Garantiza la accesibilidad de los objetos digitales Claridad = Asegura la comprensibilidad de los objetos digitales Autenticidad = Verifica la identidad de los objetos digitales Signup and view all the answers

Asocie los siguientes recursos con su autor en el contexto de la preservación digital:

Final Report of the PREMIS Working Group = Grupo de trabajo PREMIS Data Dictionary for Preservation Metadata = Rubén Izquierdo Martín Diccionario de Datos = Equipo de profesionales Esquema XML = AENOR Signup and view all the answers

Asocie los siguientes conceptos con su relación en el contexto de la preservación digital:

Metadatos de preservación = Información necesaria para la preservación digital Diccionario de Datos = Recurso para la implementación de metadatos de preservación PREMIS = Estándar para la codificación de metadatos de preservación OAIS = Modelo de referencia para la preservación digital Signup and view all the answers

Asocie los siguientes recursos con su función en el contexto de la preservación digital:

Data Dictionary for Preservation Metadata = Describe los metadatos esenciales para la preservación digital Final Report of the PREMIS Working Group = Presenta un modelo de referencia genérico para la preservación digital Esquema XML = Permite la codificación de metadatos de preservación Diccionario de Datos = Define los metadatos de preservación Signup and view all the answers

Los ______ toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.

crawlers Signup and view all the answers

Las recolecciones de la web se llevan a cabo con ______ de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.

robots Signup and view all the answers

Los ______ van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.

crawlers Signup and view all the answers

Estos contenidos son indexados posteriormente con el fin de poder realizar ______ a texto completo en la colección.

búsquedas Signup and view all the answers

Los ______ recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.

crawlers Signup and view all the answers

Los ______ se llevan a cabo con robots de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.

crawls Signup and view all the answers

Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos: ▪ ______ Template: Mozilla/5.0

userAgent Signup and view all the answers

Por el mandato legal que tiene la ______ en materia de depósito legal, el robot ignora los ficheros robots.txt.

BNE Signup and view all the answers

OperatorFrom: [email protected]

archivoweb Signup and view all the answers

OperatorContactUrl:http://www.______.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html

bne Signup and view all the answers

El robot rastreador se identifica con los siguientes atributos: ▪ userAgent Template: Mozilla/5.0 (compatible; ______bot; +@OPERATOR_CONTACT_URL@)

bne.e Signup and view all the answers

Organization: ______ Nacional de España

Biblioteca Signup and view all the answers

Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión[VACÍO].

viva Signup and view all the answers

Una vez completado el rastreo, las webs archivadas son visualizadas en la [VACÍO], una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.

OpenWayback Signup and view all the answers

En la Biblioteca Nacional de España para archivar la web se utiliza [VACÍO] (NetarchiveSuite), una herramienta de código abierto diseñada por la Biblioteca de Dinamarca.

NAS Signup and view all the answers

Para rastrear, se incorpora el robot [VACÍO], creado por Internet Archive, primera organización que empezó a rastrear y archivar la web en 1996.

Heritrix Signup and view all the answers

La versión de [VACÍO] que se utiliza actualmente es la 3.

Heritrix Signup and view all the answers

Es el robot que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios [VACÍO].

web Signup and view all the answers

¿Qué es el propósito principal de Heritrix en el proceso de recolección web?

minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web Signup and view all the answers

¿Qué versión de Heritrix se utiliza actualmente en el proceso de recolección web?

3 Signup and view all the answers

¿Quién diseñó el robot Heritrix?

Internet Archive Signup and view all the answers

¿Cuál es la característica principal del robot Heritrix en el proceso de recolección web?

minimizar el impacto perturbador Signup and view all the answers

¿Qué permite ajustar el ritmo de rastreo del programa Heritrix?

parámetros Signup and view all the answers

¿Cuál es el nombre del robot que se utiliza en el proceso de recolección web para rastrear y archivar páginas y sitios web?

Heritrix Signup and view all the answers

¿Cuál es el objetivo principal del proceso de recolección web?

Recopilar y preservar el patrimonio digital Signup and view all the answers

¿Qué es Heritrix?

Una herramienta de código abierto para la recolección web Signup and view all the answers

¿Cuál es el propósito de la herramienta Heritrix en el proceso de recolección web?

Recopilar y preservar el patrimonio digital Signup and view all the answers

¿Qué características tiene la herramienta Heritrix?

Es una herramienta de código abierto y diseñada para recopilar y preservar el patrimonio digital Signup and view all the answers

¿Cómo se lleva a cabo la recolección web con Heritrix?

Recorriendo la web a partir de una serie de URL iniciales llamadas seeds o semillas Signup and view all the answers

¿Cuál es el resultado final del proceso de recolección web con Heritrix?

Una réplica del sitio web que se puede consultar en el futuro Signup and view all the answers

¿Cuál es el objetivo principal de la iniciativa Europeana en relación con el patrimonio digital?

Crear un patrimonio digital cultural europeo común Signup and view all the answers

¿Qué es el 'agujero negro' en el contexto de la preservación digital?

El agujero negro se refiere a la carencia de materiales en línea de los siglos XX y XXI Signup and view all the answers

¿Cuál es el papel de las bibliotecas en la iniciativa Europeana?

Las bibliotecas tienen un papel importante en la digitalización del patrimonio cultural Signup and view all the answers

¿Qué es Europeana en el contexto de la preservación digital?

Europeana es el portal común del patrimonio en Internet Signup and view all the answers

¿Cuál es el objetivo principal de la colaboración público-privado en la iniciativa Europeana?

Impulsar la digitalización del patrimonio cultural europeo Signup and view all the answers

¿Cuál es el papel de las normas en la iniciativa Europeana?

Establecer un marco armonizado para la reutilización de obras y materiales públicos Signup and view all the answers