Podcast
Questions and Answers
Match the attribute with its corresponding value for the web crawler:
Match the attribute with its corresponding value for the web crawler:
UserAgent = Mozilla/5.0 (compatible; bn.e bübot; +@OPERATOR_CONTACT_URL@) operatorFrom = [email protected] operatorContactUrl = http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html organization = Biblioteca Nacional de España
What is the main reason the web crawler ignores the robots.txt files?
What is the main reason the web crawler ignores the robots.txt files?
Because it is a web archiving project = Mandato legal de la BNE en materia de depósito legal Because it respects the robots.txt files = No aplica Because it is a commercial project = No es relevante Because it is a research project = No está relacionado
Match the author with their corresponding publication:
Match the author with their corresponding publication:
Allo Manerao, Mª.Adelaida = Conservación de la colección Luisa Orera = Manual de biblioteconomía José Manuel Barrueco = Preservación y conservación de documentos digitales C. Bello Urgellès, A. Borrel Crehuét = El Patrimonio bibliográfico y documental: claves para su conservación preventiva
What is the main topic of the publication by AENOR?
What is the main topic of the publication by AENOR?
What is the name of the publication by Elvira i Silleràs?
What is the name of the publication by Elvira i Silleràs?
Match the URL with its corresponding description:
Match the URL with its corresponding description:
Asocie las herramientas con sus funciones en el proceso de recolección web:
Asocie las herramientas con sus funciones en el proceso de recolección web:
Asocie las instituciones con sus roles en el proceso de recolección web:
Asocie las instituciones con sus roles en el proceso de recolección web:
Asocie las características con la herramienta Heritrix:
Asocie las características con la herramienta Heritrix:
Asocie las versiones con las características de la herramienta Heritrix:
Asocie las versiones con las características de la herramienta Heritrix:
Asocie las características con el proceso de recolección web:
Asocie las características con el proceso de recolección web:
Asocie las instituciones con su relación con la herramienta NAS:
Asocie las instituciones con su relación con la herramienta NAS:
Match the following terms with their definitions in the context of web crawling:
Match the following terms with their definitions in the context of web crawling:
Match the following terms with their functions in web crawling:
Match the following terms with their functions in web crawling:
Match the following terms with their descriptions in the context of web crawling:
Match the following terms with their descriptions in the context of web crawling:
Match the following terms with their products in the context of web crawling:
Match the following terms with their products in the context of web crawling:
Match the following terms with their purposes in the context of web crawling:
Match the following terms with their purposes in the context of web crawling:
Match the following terms with their roles in the context of web crawling:
Match the following terms with their roles in the context of web crawling:
Asocie las características de las bibliotecas digitales con su descripción:
Asocie las características de las bibliotecas digitales con su descripción:
Asocie las instituciones con su papel en la preservación del patrimonio digital:
Asocie las instituciones con su papel en la preservación del patrimonio digital:
Asocie las características de la preservación digital con su importancia:
Asocie las características de la preservación digital con su importancia:
Asocie las características de la información digital con su importancia:
Asocie las características de la información digital con su importancia:
Asocie las normas y protocolos con su importancia en la preservación digital:
Asocie las normas y protocolos con su importancia en la preservación digital:
Asocie las instituciones culturales con sus objetivos:
Asocie las instituciones culturales con sus objetivos:
Asocie las politicas con sus documentos:
Asocie las politicas con sus documentos:
Asocie las instituciones con sus roles:
Asocie las instituciones con sus roles:
Asocie las herramientas con sus objetivos:
Asocie las herramientas con sus objetivos:
Asocie las políticas con sus objetivos:
Asocie las políticas con sus objetivos:
Asocie las instituciones con sus objetivos:
Asocie las instituciones con sus objetivos:
Asocie los artículos de la Carta para la Preservación del Patrimonio Digital con sus objetivos:
Asocie los artículos de la Carta para la Preservación del Patrimonio Digital con sus objetivos:
Asocie las características del patrimonio digital con su definición:
Asocie las características del patrimonio digital con su definición:
Asocie los roles del Estado con su responsabilidad en la preservación del patrimonio digital:
Asocie los roles del Estado con su responsabilidad en la preservación del patrimonio digital:
Asocie los elementos del patrimonio digital con su función:
Asocie los elementos del patrimonio digital con su función:
Asocie las recomendaciones de la Carta con su objetivo:
Asocie las recomendaciones de la Carta con su objetivo:
Asocie las características del patrimonio digital con su riesgo:
Asocie las características del patrimonio digital con su riesgo:
Asocia las divisiones de la IFLA con sus características:
Asocia las divisiones de la IFLA con sus características:
Asocia las activides de la IFLA con sus objetivos:
Asocia las activides de la IFLA con sus objetivos:
Asocia los años con los eventos relacionados con la IFLA:
Asocia los años con los eventos relacionados con la IFLA:
Asocia las instituciones con sus relaciones con la IFLA:
Asocia las instituciones con sus relaciones con la IFLA:
Asocia las características con la IFLA:
Asocia las características con la IFLA:
Asocia las actividades con sus resultados en la IFLA:
Asocia las actividades con sus resultados en la IFLA:
Asocie los siguientes conceptos con sus definiciones en el contexto de la preservación digital:
Asocie los siguientes conceptos con sus definiciones en el contexto de la preservación digital:
Asocie los siguientes recursos con su función en el contexto de la preservación digital:
Asocie los siguientes recursos con su función en el contexto de la preservación digital:
Asocie los siguientes términos con sus características en el contexto de la preservación digital:
Asocie los siguientes términos con sus características en el contexto de la preservación digital:
Asocie los siguientes recursos con su autor en el contexto de la preservación digital:
Asocie los siguientes recursos con su autor en el contexto de la preservación digital:
Asocie los siguientes conceptos con su relación en el contexto de la preservación digital:
Asocie los siguientes conceptos con su relación en el contexto de la preservación digital:
Asocie los siguientes recursos con su función en el contexto de la preservación digital:
Asocie los siguientes recursos con su función en el contexto de la preservación digital:
Los ______ toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.
Los ______ toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.
Las recolecciones de la web se llevan a cabo con ______ de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Las recolecciones de la web se llevan a cabo con ______ de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Los ______ van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.
Los ______ van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.
Estos contenidos son indexados posteriormente con el fin de poder realizar ______ a texto completo en la colección.
Estos contenidos son indexados posteriormente con el fin de poder realizar ______ a texto completo en la colección.
Los ______ recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Los ______ recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Los ______ se llevan a cabo con robots de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Los ______ se llevan a cabo con robots de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos: ▪ ______ Template: Mozilla/5.0
Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos: ▪ ______ Template: Mozilla/5.0
Por el mandato legal que tiene la ______ en materia de depósito legal, el robot ignora los ficheros robots.txt.
Por el mandato legal que tiene la ______ en materia de depósito legal, el robot ignora los ficheros robots.txt.
OperatorFrom: [email protected]
OperatorFrom: [email protected]
El robot rastreador se identifica con los siguientes atributos: ▪ userAgent Template: Mozilla/5.0 (compatible; ______bot; +@OPERATOR_CONTACT_URL@)
El robot rastreador se identifica con los siguientes atributos: ▪ userAgent Template: Mozilla/5.0 (compatible; ______bot; +@OPERATOR_CONTACT_URL@)
Organization: ______ Nacional de España
Organization: ______ Nacional de España
Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión[VACÍO].
Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión[VACÍO].
Una vez completado el rastreo, las webs archivadas son visualizadas en la [VACÍO], una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.
Una vez completado el rastreo, las webs archivadas son visualizadas en la [VACÍO], una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.
En la Biblioteca Nacional de España para archivar la web se utiliza [VACÍO] (NetarchiveSuite), una herramienta de código abierto diseñada por la Biblioteca de Dinamarca.
En la Biblioteca Nacional de España para archivar la web se utiliza [VACÍO] (NetarchiveSuite), una herramienta de código abierto diseñada por la Biblioteca de Dinamarca.
Para rastrear, se incorpora el robot [VACÍO], creado por Internet Archive, primera organización que empezó a rastrear y archivar la web en 1996.
Para rastrear, se incorpora el robot [VACÍO], creado por Internet Archive, primera organización que empezó a rastrear y archivar la web en 1996.
La versión de [VACÍO] que se utiliza actualmente es la 3.
La versión de [VACÍO] que se utiliza actualmente es la 3.
Es el robot que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios [VACÍO].
Es el robot que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios [VACÍO].
¿Qué es el propósito principal de Heritrix en el proceso de recolección web?
¿Qué es el propósito principal de Heritrix en el proceso de recolección web?
¿Qué versión de Heritrix se utiliza actualmente en el proceso de recolección web?
¿Qué versión de Heritrix se utiliza actualmente en el proceso de recolección web?
¿Quién diseñó el robot Heritrix?
¿Quién diseñó el robot Heritrix?
¿Cuál es la característica principal del robot Heritrix en el proceso de recolección web?
¿Cuál es la característica principal del robot Heritrix en el proceso de recolección web?
¿Qué permite ajustar el ritmo de rastreo del programa Heritrix?
¿Qué permite ajustar el ritmo de rastreo del programa Heritrix?
¿Cuál es el nombre del robot que se utiliza en el proceso de recolección web para rastrear y archivar páginas y sitios web?
¿Cuál es el nombre del robot que se utiliza en el proceso de recolección web para rastrear y archivar páginas y sitios web?
¿Cuál es el objetivo principal del proceso de recolección web?
¿Cuál es el objetivo principal del proceso de recolección web?
¿Qué es Heritrix?
¿Qué es Heritrix?
¿Cuál es el propósito de la herramienta Heritrix en el proceso de recolección web?
¿Cuál es el propósito de la herramienta Heritrix en el proceso de recolección web?
¿Qué características tiene la herramienta Heritrix?
¿Qué características tiene la herramienta Heritrix?
¿Cómo se lleva a cabo la recolección web con Heritrix?
¿Cómo se lleva a cabo la recolección web con Heritrix?
¿Cuál es el resultado final del proceso de recolección web con Heritrix?
¿Cuál es el resultado final del proceso de recolección web con Heritrix?
¿Cuál es el objetivo principal de la iniciativa Europeana en relación con el patrimonio digital?
¿Cuál es el objetivo principal de la iniciativa Europeana en relación con el patrimonio digital?
¿Qué es el 'agujero negro' en el contexto de la preservación digital?
¿Qué es el 'agujero negro' en el contexto de la preservación digital?
¿Cuál es el papel de las bibliotecas en la iniciativa Europeana?
¿Cuál es el papel de las bibliotecas en la iniciativa Europeana?
¿Qué es Europeana en el contexto de la preservación digital?
¿Qué es Europeana en el contexto de la preservación digital?
¿Cuál es el objetivo principal de la colaboración público-privado en la iniciativa Europeana?
¿Cuál es el objetivo principal de la colaboración público-privado en la iniciativa Europeana?
¿Cuál es el papel de las normas en la iniciativa Europeana?
¿Cuál es el papel de las normas en la iniciativa Europeana?
Los documentos digitales están almacenados en soportes tecnológicos que no son susceptibles de daño y degradación potencial.
Los documentos digitales están almacenados en soportes tecnológicos que no son susceptibles de daño y degradación potencial.
La obsolescencia del formato del fichero es un problema que surge después de que expire el período de retención de los documentos.
La obsolescencia del formato del fichero es un problema que surge después de que expire el período de retención de los documentos.
La naturaleza única de los documentos digitales no comporta peculiaridades que se deben considerar para su conservación.
La naturaleza única de los documentos digitales no comporta peculiaridades que se deben considerar para su conservación.
La obsolescencia del formato del fichero se debe a la incapacidad de los programas de software para leer e interpretar datos en diferentes formatos de fichero.
La obsolescencia del formato del fichero se debe a la incapacidad de los programas de software para leer e interpretar datos en diferentes formatos de fichero.
Las actividades de preservación deben iniciarse cuando expire el período de retención de los documentos.
Las actividades de preservación deben iniciarse cuando expire el período de retención de los documentos.
La degradación del formato físico no es un problema que se debe considerar en la preservación de documentos digitales.
La degradación del formato físico no es un problema que se debe considerar en la preservación de documentos digitales.
La Ley 18/2015, de 9 de julio, establece la obligación de las Administraciones y organismos del sector público de autorizar la reutilización de los documentos.
La Ley 18/2015, de 9 de julio, establece la obligación de las Administraciones y organismos del sector público de autorizar la reutilización de los documentos.
Las bibliotecas universitarias están excluidas del ámbito de aplicación de la Ley 18/2015.
Las bibliotecas universitarias están excluidas del ámbito de aplicación de la Ley 18/2015.
El patrimonio cultural en dominio público y de titularidad pública, una vez digitalizado, estará para uso y disfrute solo de algunos ciudadanos de la Unión.
El patrimonio cultural en dominio público y de titularidad pública, una vez digitalizado, estará para uso y disfrute solo de algunos ciudadanos de la Unión.
La Ley 18/2015, de 9 de julio, exceptúa a los documentos cuyo acceso esté restringido o excluido en virtud del ordenamiento jurídico nacional.
La Ley 18/2015, de 9 de julio, exceptúa a los documentos cuyo acceso esté restringido o excluido en virtud del ordenamiento jurídico nacional.
La Ley 18/2015, de 9 de julio, solo se aplica a los museos y archivos.
La Ley 18/2015, de 9 de julio, solo se aplica a los museos y archivos.
El depósito legal es una obligación solo para las Administraciones y organismos del sector público.
El depósito legal es una obligación solo para las Administraciones y organismos del sector público.
El Archivo de la Web Española fue creado en 2005.
El Archivo de la Web Española fue creado en 2005.
El proyecto del Archivo de la Web Española se ocupa del archivo del patrimonio digital catalán.
El proyecto del Archivo de la Web Española se ocupa del archivo del patrimonio digital catalán.
La Biblioteca Nacional de España captura páginas y sitios web españoles albergados en cualquier dominio.
La Biblioteca Nacional de España captura páginas y sitios web españoles albergados en cualquier dominio.
La UNESCO tiene directrices para la preservación del patrimonio digital.
La UNESCO tiene directrices para la preservación del patrimonio digital.
La Comisión Europea recomendó la digitalización y la accesibilidad en línea del material cultural y la conservación digital en 2003.
La Comisión Europea recomendó la digitalización y la accesibilidad en línea del material cultural y la conservación digital en 2003.
El Archivo de la Web Española se ocupa de conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet.
El Archivo de la Web Española se ocupa de conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet.
Study Notes
Archivo de la Web Española
- La Biblioteca Nacional de España (BNE) trabaja en el Archivo de la Web Española desde 2009 con el objetivo de conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet.
- La BNE utiliza la herramienta de código abierto NetarchiveSuite (NAS) y el robot Heritrix, creado por Internet Archive, para archivar la web.
- El robot Heritrix fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web.
Preservación del Patrimonio Digital
- La UNESCO publicó en 2003 las Directrices para la Preservación del Patrimonio Digital.
- Estas directrices establecen que el patrimonio digital se compone de documentos generados directamente en formato digital o convertidos desde material analógico.
- La Carta para la Preservación del Patrimonio Digital recomienda que cada Estado nombre una agencia para responsabilizarse de la preservación del patrimonio digital.
IFLA: Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas
- La IFLA es la principal institución del mundo al servicio de los intereses de los profesionales y usuarios de las bibliotecas y centros de información.
- La IFLA se divide en cinco divisiones y tiene como objetivo principal la promoción de la cooperación biblioteconómica internacional.
- La actividad fundamental de IFLA en relación con la preservación y la conservación es PAC (Core Activity on Preservation and Conservation).
Digitalización y Accesibilidad en Línea del Material Cultural
- La Comisión Europea recomienda la digitalización del patrimonio cultural y el desarrollo de Europeana, la biblioteca, archivo y museo digital de Europa.
- El objetivo principal es “llevar a cabo una armonización mínima de las normas y prácticas nacionales en materia de reutilización del material cultural público de bibliotecas, museos y archivos”.
Metadatos de Preservación
- El Diccionario de Datos PREMIS define los metadatos de preservación como la información que un repositorio utiliza para llevar a cabo el proceso de preservación digital.
- Los metadatos de preservación son fundamentales para la preservación del patrimonio digital y el acceso permanente al mismo.
Recolecciones de la Web
- Las recolecciones de la web se llevan a cabo con robots de rastreo que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
- Los crawlers toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.### Archivado de la Web
- Los contenidos de la web se indexan para permitir búsquedas sobre ellos.
Recolecciones de Sitios Web
- Las recolecciones buscan reproducir con detalle el aspecto del sitio y sus funcionalidades disponibles durante la captura.
- El objetivo es que la réplica del sitio web sea tan navegable como su versión “viva”.
Visualización de Webs Archivadas
- Las webs archivadas se visualizan en la OpenWayback, una aplicación que permite al usuario seleccionar qué versión concreta de una web determinada desea consultar.
Herramientas de Archivado
- La Biblioteca Nacional de España utiliza NAS (NetarchiveSuite) para archivar la web.
- NAS es una herramienta de código abierto diseñada por la Biblioteca de Dinamarca.
- Otras bibliotecas nacionales como la de Francia y la de Austria también utilizan NAS.
Robot Heritrix
- Heritrix es un robot creado por Internet Archive que se utiliza para rastrear y archivar páginas y sitios web.
- Fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web.
- El ritmo de rastreo del programa se puede ajustar según determinados parámetros.
- La versión actual de Heritrix es la 3.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Learn about web crawlers, how they start from a URL and recursively collect data, indexing contents for full-text searches. Understand the process of web scraping and its applications.