Podcast
Questions and Answers
Match the attribute with its corresponding value for the web crawler:
Match the attribute with its corresponding value for the web crawler:
UserAgent = Mozilla/5.0 (compatible; bn.e bübot; +@OPERATOR_CONTACT_URL@) operatorFrom = [email protected] operatorContactUrl = http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html organization = Biblioteca Nacional de España
What is the main reason the web crawler ignores the robots.txt files?
What is the main reason the web crawler ignores the robots.txt files?
Because it is a web archiving project = Mandato legal de la BNE en materia de depósito legal Because it respects the robots.txt files = No aplica Because it is a commercial project = No es relevante Because it is a research project = No está relacionado
Match the author with their corresponding publication:
Match the author with their corresponding publication:
Allo Manerao, Mª.Adelaida = Conservación de la colección Luisa Orera = Manual de biblioteconomía José Manuel Barrueco = Preservación y conservación de documentos digitales C. Bello Urgellès, A. Borrel Crehuét = El Patrimonio bibliográfico y documental: claves para su conservación preventiva
What is the main topic of the publication by AENOR?
What is the main topic of the publication by AENOR?
Signup and view all the answers
What is the name of the publication by Elvira i Silleràs?
What is the name of the publication by Elvira i Silleràs?
Signup and view all the answers
Match the URL with its corresponding description:
Match the URL with its corresponding description:
Signup and view all the answers
Asocie las herramientas con sus funciones en el proceso de recolección web:
Asocie las herramientas con sus funciones en el proceso de recolección web:
Signup and view all the answers
Asocie las instituciones con sus roles en el proceso de recolección web:
Asocie las instituciones con sus roles en el proceso de recolección web:
Signup and view all the answers
Asocie las características con la herramienta Heritrix:
Asocie las características con la herramienta Heritrix:
Signup and view all the answers
Asocie las versiones con las características de la herramienta Heritrix:
Asocie las versiones con las características de la herramienta Heritrix:
Signup and view all the answers
Asocie las características con el proceso de recolección web:
Asocie las características con el proceso de recolección web:
Signup and view all the answers
Asocie las instituciones con su relación con la herramienta NAS:
Asocie las instituciones con su relación con la herramienta NAS:
Signup and view all the answers
Match the following terms with their definitions in the context of web crawling:
Match the following terms with their definitions in the context of web crawling:
Signup and view all the answers
Match the following terms with their functions in web crawling:
Match the following terms with their functions in web crawling:
Signup and view all the answers
Match the following terms with their descriptions in the context of web crawling:
Match the following terms with their descriptions in the context of web crawling:
Signup and view all the answers
Match the following terms with their products in the context of web crawling:
Match the following terms with their products in the context of web crawling:
Signup and view all the answers
Match the following terms with their purposes in the context of web crawling:
Match the following terms with their purposes in the context of web crawling:
Signup and view all the answers
Match the following terms with their roles in the context of web crawling:
Match the following terms with their roles in the context of web crawling:
Signup and view all the answers
Asocie las características de las bibliotecas digitales con su descripción:
Asocie las características de las bibliotecas digitales con su descripción:
Signup and view all the answers
Asocie las instituciones con su papel en la preservación del patrimonio digital:
Asocie las instituciones con su papel en la preservación del patrimonio digital:
Signup and view all the answers
Asocie las características de la preservación digital con su importancia:
Asocie las características de la preservación digital con su importancia:
Signup and view all the answers
Asocie las características de la información digital con su importancia:
Asocie las características de la información digital con su importancia:
Signup and view all the answers
Asocie las normas y protocolos con su importancia en la preservación digital:
Asocie las normas y protocolos con su importancia en la preservación digital:
Signup and view all the answers
Asocie las instituciones culturales con sus objetivos:
Asocie las instituciones culturales con sus objetivos:
Signup and view all the answers
Asocie las politicas con sus documentos:
Asocie las politicas con sus documentos:
Signup and view all the answers
Asocie las instituciones con sus roles:
Asocie las instituciones con sus roles:
Signup and view all the answers
Asocie las herramientas con sus objetivos:
Asocie las herramientas con sus objetivos:
Signup and view all the answers
Asocie las políticas con sus objetivos:
Asocie las políticas con sus objetivos:
Signup and view all the answers
Asocie las instituciones con sus objetivos:
Asocie las instituciones con sus objetivos:
Signup and view all the answers
Asocie los artículos de la Carta para la Preservación del Patrimonio Digital con sus objetivos:
Asocie los artículos de la Carta para la Preservación del Patrimonio Digital con sus objetivos:
Signup and view all the answers
Asocie las características del patrimonio digital con su definición:
Asocie las características del patrimonio digital con su definición:
Signup and view all the answers
Asocie los roles del Estado con su responsabilidad en la preservación del patrimonio digital:
Asocie los roles del Estado con su responsabilidad en la preservación del patrimonio digital:
Signup and view all the answers
Asocie los elementos del patrimonio digital con su función:
Asocie los elementos del patrimonio digital con su función:
Signup and view all the answers
Asocie las recomendaciones de la Carta con su objetivo:
Asocie las recomendaciones de la Carta con su objetivo:
Signup and view all the answers
Asocie las características del patrimonio digital con su riesgo:
Asocie las características del patrimonio digital con su riesgo:
Signup and view all the answers
Asocia las divisiones de la IFLA con sus características:
Asocia las divisiones de la IFLA con sus características:
Signup and view all the answers
Asocia las activides de la IFLA con sus objetivos:
Asocia las activides de la IFLA con sus objetivos:
Signup and view all the answers
Asocia los años con los eventos relacionados con la IFLA:
Asocia los años con los eventos relacionados con la IFLA:
Signup and view all the answers
Asocia las instituciones con sus relaciones con la IFLA:
Asocia las instituciones con sus relaciones con la IFLA:
Signup and view all the answers
Asocia las características con la IFLA:
Asocia las características con la IFLA:
Signup and view all the answers
Asocia las actividades con sus resultados en la IFLA:
Asocia las actividades con sus resultados en la IFLA:
Signup and view all the answers
Asocie los siguientes conceptos con sus definiciones en el contexto de la preservación digital:
Asocie los siguientes conceptos con sus definiciones en el contexto de la preservación digital:
Signup and view all the answers
Asocie los siguientes recursos con su función en el contexto de la preservación digital:
Asocie los siguientes recursos con su función en el contexto de la preservación digital:
Signup and view all the answers
Asocie los siguientes términos con sus características en el contexto de la preservación digital:
Asocie los siguientes términos con sus características en el contexto de la preservación digital:
Signup and view all the answers
Asocie los siguientes recursos con su autor en el contexto de la preservación digital:
Asocie los siguientes recursos con su autor en el contexto de la preservación digital:
Signup and view all the answers
Asocie los siguientes conceptos con su relación en el contexto de la preservación digital:
Asocie los siguientes conceptos con su relación en el contexto de la preservación digital:
Signup and view all the answers
Asocie los siguientes recursos con su función en el contexto de la preservación digital:
Asocie los siguientes recursos con su función en el contexto de la preservación digital:
Signup and view all the answers
Los ______ toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.
Los ______ toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.
Signup and view all the answers
Las recolecciones de la web se llevan a cabo con ______ de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Las recolecciones de la web se llevan a cabo con ______ de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Signup and view all the answers
Los ______ van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.
Los ______ van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.
Signup and view all the answers
Estos contenidos son indexados posteriormente con el fin de poder realizar ______ a texto completo en la colección.
Estos contenidos son indexados posteriormente con el fin de poder realizar ______ a texto completo en la colección.
Signup and view all the answers
Los ______ recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Los ______ recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Signup and view all the answers
Los ______ se llevan a cabo con robots de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Los ______ se llevan a cabo con robots de rastreo, que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
Signup and view all the answers
Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos: ▪ ______ Template: Mozilla/5.0
Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos: ▪ ______ Template: Mozilla/5.0
Signup and view all the answers
Por el mandato legal que tiene la ______ en materia de depósito legal, el robot ignora los ficheros robots.txt.
Por el mandato legal que tiene la ______ en materia de depósito legal, el robot ignora los ficheros robots.txt.
Signup and view all the answers
OperatorFrom: [email protected]
OperatorFrom: [email protected]
Signup and view all the answers
Signup and view all the answers
El robot rastreador se identifica con los siguientes atributos: ▪ userAgent Template: Mozilla/5.0 (compatible; ______bot; +@OPERATOR_CONTACT_URL@)
El robot rastreador se identifica con los siguientes atributos: ▪ userAgent Template: Mozilla/5.0 (compatible; ______bot; +@OPERATOR_CONTACT_URL@)
Signup and view all the answers
Organization: ______ Nacional de España
Organization: ______ Nacional de España
Signup and view all the answers
Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión[VACÍO].
Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión[VACÍO].
Signup and view all the answers
Una vez completado el rastreo, las webs archivadas son visualizadas en la [VACÍO], una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.
Una vez completado el rastreo, las webs archivadas son visualizadas en la [VACÍO], una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.
Signup and view all the answers
En la Biblioteca Nacional de España para archivar la web se utiliza [VACÍO] (NetarchiveSuite), una herramienta de código abierto diseñada por la Biblioteca de Dinamarca.
En la Biblioteca Nacional de España para archivar la web se utiliza [VACÍO] (NetarchiveSuite), una herramienta de código abierto diseñada por la Biblioteca de Dinamarca.
Signup and view all the answers
Para rastrear, se incorpora el robot [VACÍO], creado por Internet Archive, primera organización que empezó a rastrear y archivar la web en 1996.
Para rastrear, se incorpora el robot [VACÍO], creado por Internet Archive, primera organización que empezó a rastrear y archivar la web en 1996.
Signup and view all the answers
La versión de [VACÍO] que se utiliza actualmente es la 3.
La versión de [VACÍO] que se utiliza actualmente es la 3.
Signup and view all the answers
Es el robot que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios [VACÍO].
Es el robot que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios [VACÍO].
Signup and view all the answers
¿Qué es el propósito principal de Heritrix en el proceso de recolección web?
¿Qué es el propósito principal de Heritrix en el proceso de recolección web?
Signup and view all the answers
¿Qué versión de Heritrix se utiliza actualmente en el proceso de recolección web?
¿Qué versión de Heritrix se utiliza actualmente en el proceso de recolección web?
Signup and view all the answers
¿Quién diseñó el robot Heritrix?
¿Quién diseñó el robot Heritrix?
Signup and view all the answers
¿Cuál es la característica principal del robot Heritrix en el proceso de recolección web?
¿Cuál es la característica principal del robot Heritrix en el proceso de recolección web?
Signup and view all the answers
¿Qué permite ajustar el ritmo de rastreo del programa Heritrix?
¿Qué permite ajustar el ritmo de rastreo del programa Heritrix?
Signup and view all the answers
¿Cuál es el nombre del robot que se utiliza en el proceso de recolección web para rastrear y archivar páginas y sitios web?
¿Cuál es el nombre del robot que se utiliza en el proceso de recolección web para rastrear y archivar páginas y sitios web?
Signup and view all the answers
¿Cuál es el objetivo principal del proceso de recolección web?
¿Cuál es el objetivo principal del proceso de recolección web?
Signup and view all the answers
¿Qué es Heritrix?
¿Qué es Heritrix?
Signup and view all the answers
¿Cuál es el propósito de la herramienta Heritrix en el proceso de recolección web?
¿Cuál es el propósito de la herramienta Heritrix en el proceso de recolección web?
Signup and view all the answers
¿Qué características tiene la herramienta Heritrix?
¿Qué características tiene la herramienta Heritrix?
Signup and view all the answers
¿Cómo se lleva a cabo la recolección web con Heritrix?
¿Cómo se lleva a cabo la recolección web con Heritrix?
Signup and view all the answers
¿Cuál es el resultado final del proceso de recolección web con Heritrix?
¿Cuál es el resultado final del proceso de recolección web con Heritrix?
Signup and view all the answers
¿Cuál es el objetivo principal de la iniciativa Europeana en relación con el patrimonio digital?
¿Cuál es el objetivo principal de la iniciativa Europeana en relación con el patrimonio digital?
Signup and view all the answers
¿Qué es el 'agujero negro' en el contexto de la preservación digital?
¿Qué es el 'agujero negro' en el contexto de la preservación digital?
Signup and view all the answers
¿Cuál es el papel de las bibliotecas en la iniciativa Europeana?
¿Cuál es el papel de las bibliotecas en la iniciativa Europeana?
Signup and view all the answers
¿Qué es Europeana en el contexto de la preservación digital?
¿Qué es Europeana en el contexto de la preservación digital?
Signup and view all the answers
¿Cuál es el objetivo principal de la colaboración público-privado en la iniciativa Europeana?
¿Cuál es el objetivo principal de la colaboración público-privado en la iniciativa Europeana?
Signup and view all the answers
¿Cuál es el papel de las normas en la iniciativa Europeana?
¿Cuál es el papel de las normas en la iniciativa Europeana?
Signup and view all the answers
Los documentos digitales están almacenados en soportes tecnológicos que no son susceptibles de daño y degradación potencial.
Los documentos digitales están almacenados en soportes tecnológicos que no son susceptibles de daño y degradación potencial.
Signup and view all the answers
La obsolescencia del formato del fichero es un problema que surge después de que expire el período de retención de los documentos.
La obsolescencia del formato del fichero es un problema que surge después de que expire el período de retención de los documentos.
Signup and view all the answers
La naturaleza única de los documentos digitales no comporta peculiaridades que se deben considerar para su conservación.
La naturaleza única de los documentos digitales no comporta peculiaridades que se deben considerar para su conservación.
Signup and view all the answers
La obsolescencia del formato del fichero se debe a la incapacidad de los programas de software para leer e interpretar datos en diferentes formatos de fichero.
La obsolescencia del formato del fichero se debe a la incapacidad de los programas de software para leer e interpretar datos en diferentes formatos de fichero.
Signup and view all the answers
Las actividades de preservación deben iniciarse cuando expire el período de retención de los documentos.
Las actividades de preservación deben iniciarse cuando expire el período de retención de los documentos.
Signup and view all the answers
La degradación del formato físico no es un problema que se debe considerar en la preservación de documentos digitales.
La degradación del formato físico no es un problema que se debe considerar en la preservación de documentos digitales.
Signup and view all the answers
La Ley 18/2015, de 9 de julio, establece la obligación de las Administraciones y organismos del sector público de autorizar la reutilización de los documentos.
La Ley 18/2015, de 9 de julio, establece la obligación de las Administraciones y organismos del sector público de autorizar la reutilización de los documentos.
Signup and view all the answers
Las bibliotecas universitarias están excluidas del ámbito de aplicación de la Ley 18/2015.
Las bibliotecas universitarias están excluidas del ámbito de aplicación de la Ley 18/2015.
Signup and view all the answers
El patrimonio cultural en dominio público y de titularidad pública, una vez digitalizado, estará para uso y disfrute solo de algunos ciudadanos de la Unión.
El patrimonio cultural en dominio público y de titularidad pública, una vez digitalizado, estará para uso y disfrute solo de algunos ciudadanos de la Unión.
Signup and view all the answers
La Ley 18/2015, de 9 de julio, exceptúa a los documentos cuyo acceso esté restringido o excluido en virtud del ordenamiento jurídico nacional.
La Ley 18/2015, de 9 de julio, exceptúa a los documentos cuyo acceso esté restringido o excluido en virtud del ordenamiento jurídico nacional.
Signup and view all the answers
La Ley 18/2015, de 9 de julio, solo se aplica a los museos y archivos.
La Ley 18/2015, de 9 de julio, solo se aplica a los museos y archivos.
Signup and view all the answers
El depósito legal es una obligación solo para las Administraciones y organismos del sector público.
El depósito legal es una obligación solo para las Administraciones y organismos del sector público.
Signup and view all the answers
El Archivo de la Web Española fue creado en 2005.
El Archivo de la Web Española fue creado en 2005.
Signup and view all the answers
El proyecto del Archivo de la Web Española se ocupa del archivo del patrimonio digital catalán.
El proyecto del Archivo de la Web Española se ocupa del archivo del patrimonio digital catalán.
Signup and view all the answers
La Biblioteca Nacional de España captura páginas y sitios web españoles albergados en cualquier dominio.
La Biblioteca Nacional de España captura páginas y sitios web españoles albergados en cualquier dominio.
Signup and view all the answers
La UNESCO tiene directrices para la preservación del patrimonio digital.
La UNESCO tiene directrices para la preservación del patrimonio digital.
Signup and view all the answers
La Comisión Europea recomendó la digitalización y la accesibilidad en línea del material cultural y la conservación digital en 2003.
La Comisión Europea recomendó la digitalización y la accesibilidad en línea del material cultural y la conservación digital en 2003.
Signup and view all the answers
El Archivo de la Web Española se ocupa de conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet.
El Archivo de la Web Española se ocupa de conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet.
Signup and view all the answers
Study Notes
Archivo de la Web Española
- La Biblioteca Nacional de España (BNE) trabaja en el Archivo de la Web Española desde 2009 con el objetivo de conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet.
- La BNE utiliza la herramienta de código abierto NetarchiveSuite (NAS) y el robot Heritrix, creado por Internet Archive, para archivar la web.
- El robot Heritrix fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web.
Preservación del Patrimonio Digital
- La UNESCO publicó en 2003 las Directrices para la Preservación del Patrimonio Digital.
- Estas directrices establecen que el patrimonio digital se compone de documentos generados directamente en formato digital o convertidos desde material analógico.
- La Carta para la Preservación del Patrimonio Digital recomienda que cada Estado nombre una agencia para responsabilizarse de la preservación del patrimonio digital.
IFLA: Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas
- La IFLA es la principal institución del mundo al servicio de los intereses de los profesionales y usuarios de las bibliotecas y centros de información.
- La IFLA se divide en cinco divisiones y tiene como objetivo principal la promoción de la cooperación biblioteconómica internacional.
- La actividad fundamental de IFLA en relación con la preservación y la conservación es PAC (Core Activity on Preservation and Conservation).
Digitalización y Accesibilidad en Línea del Material Cultural
- La Comisión Europea recomienda la digitalización del patrimonio cultural y el desarrollo de Europeana, la biblioteca, archivo y museo digital de Europa.
- El objetivo principal es “llevar a cabo una armonización mínima de las normas y prácticas nacionales en materia de reutilización del material cultural público de bibliotecas, museos y archivos”.
Metadatos de Preservación
- El Diccionario de Datos PREMIS define los metadatos de preservación como la información que un repositorio utiliza para llevar a cabo el proceso de preservación digital.
- Los metadatos de preservación son fundamentales para la preservación del patrimonio digital y el acceso permanente al mismo.
Recolecciones de la Web
- Las recolecciones de la web se llevan a cabo con robots de rastreo que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas.
- Los crawlers toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente.### Archivado de la Web
- Los contenidos de la web se indexan para permitir búsquedas sobre ellos.
Recolecciones de Sitios Web
- Las recolecciones buscan reproducir con detalle el aspecto del sitio y sus funcionalidades disponibles durante la captura.
- El objetivo es que la réplica del sitio web sea tan navegable como su versión “viva”.
Visualización de Webs Archivadas
- Las webs archivadas se visualizan en la OpenWayback, una aplicación que permite al usuario seleccionar qué versión concreta de una web determinada desea consultar.
Herramientas de Archivado
- La Biblioteca Nacional de España utiliza NAS (NetarchiveSuite) para archivar la web.
- NAS es una herramienta de código abierto diseñada por la Biblioteca de Dinamarca.
- Otras bibliotecas nacionales como la de Francia y la de Austria también utilizan NAS.
Robot Heritrix
- Heritrix es un robot creado por Internet Archive que se utiliza para rastrear y archivar páginas y sitios web.
- Fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web.
- El ritmo de rastreo del programa se puede ajustar según determinados parámetros.
- La versión actual de Heritrix es la 3.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Learn about web crawlers, how they start from a URL and recursively collect data, indexing contents for full-text searches. Understand the process of web scraping and its applications.