TEMA 47 (5) (1).pdf
Document Details
Uploaded by gracia
Islamic University in Uganda
Tags
Full Transcript
Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable TEMA 47. PRESERVACIÓN DIGITAL DE CONTENIDOS EN BIBLIOTECAS. TÉCNICAS Y METODOLOGÍAS I. DIGITALIZACIÓN Y ACCESO A LOS DOCUMENTOS 1. Introducción 2. La carta sobre la preservación del patrimonio digital, UNESCO, 2003 3. El patrimon...
Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable TEMA 47. PRESERVACIÓN DIGITAL DE CONTENIDOS EN BIBLIOTECAS. TÉCNICAS Y METODOLOGÍAS I. DIGITALIZACIÓN Y ACCESO A LOS DOCUMENTOS 1. Introducción 2. La carta sobre la preservación del patrimonio digital, UNESCO, 2003 3. El patrimonio cultural como “Big Data” 3.1. Introducción 3.2. Directiva 2003/98/CE y Directiva 2013/37/UE II. ORGANISMOS, PROGRAMAS Y ESTÁNDARES INTERNACIONALES 1. Organismos y programas 1.1. UNESCO 1.2. IFLA: Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas 2. Metodología: los estándares internacionales 2.1. ISO/TR 13028:2010 Directrices para la implementación de la digitalización de documentos. 2.2. ISO/TR 14873:2013 Statistics and quality issues for web archiving 2.3. ISO 14721:2012 Space data and information transfer systems -- Open archival information system (OAIS) -- Reference model 2.4. Norma ANSI/NISO Z39.85 The Dublin Core Metadata Element Set 2.5. ISO 18492:2005. Long-term preservation of electronic document-based information III. PRESERVACIÓN DE DOCUMENTOS DIGITALES 1. Introducción 2. Problemática en relación con la conservación de los documentos digitales 3. Fundamentos e importancia de la preservación 4. Técnicas de preservación 4.1. Preservación de la tecnología: La conversión a nuevos formatos/plataformas (hardware y software) 4.2. La migración a nuevos soportes 1 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable 4.3. Utilización de estándares 4.4. La emulación 4.5. Almacenamiento 4.6. Copias de seguridad 4.7. Actualización 4.8. Metadatos 5. Elaboración de un Plan de Preservación IV. EL ARCHIVO DE LA WEB 1. Internet Archive 2. El Archivo de la Web Española 2.1.Introducción 2.2.El desarrollo del proyecto 2.3.Información técnica 2 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 I. InQnable DIGITALIZACIÓN Y ACCESO A LOS DOCUMENTOS 1. Introducción Aunque solo haya una pequeña parte del patrimonio documental digitalizado, en los últimos años ha habido un fuerte incremento de su presencia en Internet. Además de la preservación es importante que esta documentación sea accesible a todo el mundo, en el marco de una política de datos abiertos que permita la reutilización del patrimonio digitalizado en otros ámbitos. En cualquier caso, la conservación y difusión del patrimonio digital es una tarea muy costosa que necesita la colaboración del sector privado, recogida en la Directiva (2013/37/UE) del Parlamento Europeo relativa a la reutilización de la información del sector público, y que incorpora también las colecciones procedentes de archivos, bibliotecas y museos. Por patrimonio cultural digitalizado entendemos el patrimonio del que son titulares las bibliotecas, archivos y museos y todas las tecas, con mención especial, por ser objeto de este tema, las bibliotecas. Este conjunto documental es un patrimonio creciente cuya presencia en Internet es bien visible, aunque sólo se haya digitalizado y puesto en línea una pequeña parte del total de documentos que conservan estas instituciones. Es importante identificar los principales problemas que el reto digital plantea a las instituciones culturales. Interesa analizar tanto la transformación del soporte tradicional al digital, como las nuevas funciones que pueden desempeñar estas instituciones en un entorno en que la presencia virtual en Internet es al menos tan importante como el desempeño de sus actividades tradicionales (Fernando Ramos, 2013). 2. La Carta sobre la preservación del patrimonio digital, UNESCO, 2003 La Carta sobre la preservación del patrimonio digital, aprobada por la UNESCO en 2003 en su artículo primero, considera patrimonio digital a los “recursos de carácter cultural, educativo, científico o administrativo e información técnica, jurídica, médica y de otras clases, que se generan directamente en formato digital o se convierten a éste a partir de material analógico ya existente”. El objetivo señalado por la Carta en la conservación de este patrimonio es el de hacerlo accesible al público, así como elaborar estrategias encaminadas a su preservación, si bien distingue: entre los elementos en dominio público –cuyo acceso no debería estar sujeto a requisitos poco razonables. Y el patrimonio privado para el que propugna un equilibrio entre los derechos de sus titulares y el interés del público por tener acceso a dichos elementos. 3 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable En el aspecto institucional, la Carta otorga un papel determinante en esa función a las bibliotecas, archivos y museos para llevar a cabo esas tareas en colaboración con el sector privado (creadores, editores, productores, distribuidores, fabricantes de equipos y software...). El paso del tiempo y la omnipresencia de Internet han puesto de manifiesto que no sólo es necesario difundir y preservar el patrimonio digital, sino que también es preciso impulsar la digitalización del patrimonio cultural, porque es preciso volcar toda la cultura en Internet para que sea accesible en todo el mundo. Lo que no está en Internet no existe, venía señalar el informe El Nuevo Renacimiento, uno de los documentos más importantes que se han elaborado bajo los auspicios de la Unión Europea, por el llamado Comité de Sabios, en el que se hace un detallado estudio prospectivo sobre las tareas pendientes para la digitalización del patrimonio cultural europeo. 3. El patrimonio cultural como “Big Data” 3.1. Introducción Las iniciativas de datos abiertos (conocidas como “open data” y también “big data”) en el sector público son consecuencias de las demandas por la mejora de la transparencia y rendición de las cuentas públicas. Estos datos han adquirido un gran valor económico cuando reúnen las características de abiertos, disponibles en abundancia y en formatos que faciliten su intercambio. La expresión “big data” alude más en concreto a conjuntos de datos muy voluminosos. En algunos informes, “open-abierto” se refiere a la disponibilidad de los datos, mientras que “big-grandes” describe el tamaño y la complejidad del conjunto de los datos. 3.2. Directiva 2003/98/CE y Directiva 2013/37/UE La política que marcaba la Directiva de 2003, tenía como principio general para todos los sectores de información (geográfico, económico, sanitario, social...), impulsar la reutilización de datos y documentos bajo el principio de datos abiertos; es decir, mediante su puesta a disposición gratuitamente o al coste del soporte. Este principio es conocido como Open Government Data (OGD) que propugna la accesibilidad de los datos en formatos abiertos bajo licencia que permita la reutilización para fines comerciales y no comerciales. Con la Directiva de 2013, las bibliotecas, archivos y museos (que estaban excluidos del ámbito de la reutilización en la Directiva 2003/98/CE), se han incorporado ahora a la posibilidad de ofrecer datos públicos abiertos. Con independencia de las razones culturales o económicas que se aboguen, la diferencia fundamental con otros tipos de recursos informativos que manejan las instituciones es que frente a la fluidez y el dinamismo que presenta, por ejemplo, la información meteorológica, la información de las instituciones culturales y educativas se caracteriza por ser estática y estar orientada al servicio ciudadano. En la Directiva de 2013, además, se indica: (…) Por consiguiente, la Directiva 2003/98/CE debe modificarse para establecer la obligación inequívoca para los Estados miembros de autorizar la reutilización de todos los documentos, salvo si el acceso está restringido o excluido en virtud de normas nacionales 4 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable sobre acceso a los documentos y sometido a las demás excepciones establecidas en la presente Directiva. Las modificaciones llevadas a cabo por la presente Directiva no tienen por objeto la definición o modificación de los regímenes de acceso en los Estados miembros, que siguen siendo responsabilidad de los mismos. El interés de la Comisión Europea por estos datos del sector cultural, aunque ya se había mostrado en algunos documentos anteriores, se hace explícito en Comunicación de la Comisión (Bruselas, 12.12.2011 COM (2011) 882 final), denominada “Datos abiertos. Un motor para la innovación, el crecimiento y la transparencia”. En dicha comunicación se incluyen como una de las medidas adoptadas en el ámbito de la política de datos abiertos: “las políticas para la digitalización del patrimonio cultural y el desarrollo de Europeana (la biblioteca, archivo y museo digital de Europa), destinados a garantizar la mayor utilización posible del material cultural digitalizado y los metadatos correspondientes”. El objetivo principal de la incorporación de estas instituciones culturales al ámbito de aplicación de la Directiva (2013/37/UE) es “llevar a cabo una armonización mínima de las normas y prácticas nacionales en materia de reutilización del material cultural público de bibliotecas, museos y archivos” La nueva Directiva parte del convencimiento de que la digitalización es la actividad más importante para garantizar el acceso y la reutilización del material cultural. La iniciativa Europeana aúna los objetivos económicos, culturales y de creación de un patrimonio digital cultural europeo común. En síntesis, los principios que avalan la decisión de incorporar a las bibliotecas (incluidas las universitarias), a las actividades de reutilización de información del sector público son: Un marco armonizado de normas para la reutilización de obras y materiales públicos depositados en las bibliotecas, archivos y museos para evitar regulaciones dispersas que impidan la creación de un patrimonio cultural digital europeo en línea. Promover la digitalización del patrimonio cultural señalando a Europeana como el portal común del patrimonio en Internet. Identificar y resolver el "agujero negro" formado en los siglos XX y XXI, abordando la puesta en línea de diversos materiales en desuso, tanto escrito como audiovisual, conservados esencialmente en estas instituciones. Organizar un esquema de colaboración público-privado para impulsar la digitalización del patrimonio cultural europeo. Por último, parece muy firme la disposición de que el patrimonio cultural en dominio público y de titularidad pública, una vez digitalizado, esté para uso y difrute por parte de todos los ciudadanos de la Unión. 5 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable A nivel nacional, la Ley 18/2015, de 9 de julio, por la que se modifica la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público, recoge las disposiciones de la Directiva acerca de la obligación inequívoca para las Administraciones y organismos del sector público de autorizar la reutilización de los documentos, con la excepción de aquellos cuyo acceso esté restringido o excluido en virtud del ordenamiento jurídico nacional, o de los que se sometan a las excepciones contempladas en la Directiva. Se ha ampliado el ámbito de aplicación a las bibliotecas, incluidas las universitarias, los museos y los archivos, dado el importante volumen de recursos de información que poseen y los proyectos de digitalización que vienen llevando a cabo. En segundo lugar, la Directiva ha mejorado la regulación de los formatos a utilizar para la puesta a disposición de la información del sector público promoviendo, siempre que sea posible y adecuado, ofrecerlos en formatos abiertos y legibles por máquina junto con sus metadatos, por lo que la Ley recoge las definiciones de formato legible por máquina, formato abierto, así como la norma formal abierta que garantiza la interoperabilidad, entre otras. En tercer lugar, la Ley ha incorporado en el cálculo del régimen de tarifas por la reutilización de documentos el principio de costes marginales establecido en la Directiva en el cálculo de las mismas. Si bien, contempla excepciones para superar ese umbral. Por un lado, los archivos, museos y bibliotecas, incluidas las universitarias y por otro lado, aquellos centros cuyos créditos presupuestarios dependan en parte de su capacidad de generar ingresos, situación en la que se encuentran algunos organismos oficiales cuyo principal activo es la información. La Directiva impulsa además un régimen de transparencia en las tarifas así como el uso de los medios electrónicos en la publicación de las mismas, y extiende la vía de recurso a la tarifación. En cuarto lugar, la Ley incorpora la obligación prevista en la Directiva de fomentar el uso de licencias abiertas, de tal forma que las licencias para la reutilización de la información del sector público planteen las mínimas restricciones posibles. Por otro lado, en materia de acuerdos exclusivos para la reutilización de documentos, cuya suscripción se pretende evitar con el fin de fomentar la competencia, la Ley incluye el régimen especial de acuerdos exclusivos por tiempo no superior a diez años, por regla general, que regula la Directiva para el caso de los recursos culturales, con el objetivo de atender a las peculiaridades de la digitalización de los recursos culturales en bibliotecas, museos y archivos para acelerar el acceso de los ciudadanos al patrimonio cultural. En último lugar, la Directiva recoge la obligación de realizar un informe trienal que remitirán los Estados miembros a la Comisión Europea sobre la amplitud de la reutilización de la información del sector público, de las condiciones que rigen su disponibilidad y de las prácticas en materia de recurso. II. ORGANISMOS, PROGRAMAS Y ESTÁNDARES INTERNACIONALES 1.Organismos y Programas La cooperación bibliotecaria es fuente de numerosos programas y proyectos de preservación y conservación. Entre ellos mencionamos los más importantes: 6 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable 1.1.UNESCO Respecto a la preservación digital, el Manifiesto de las IFLA/UNESCO Sobre las Bibliotecas Digitales (2011), indica: “Se deben preservar los productos de la digitalización, al igual que los materiales creados de forma digital. Todas las iniciativas de las bibliotecas digitales deben comprender planes para la preservación digital por parte de una autoridad competente. Las bibliotecas digitales reúnen colecciones, servicios y personas para llevar a cabo el ciclo completo de creación, difusión, utilización y preservación de datos, información y conocimientos. La interoperabilidad y la perdurabilidad son fundamentales para que las bibliotecas digitales puedan comunicarse entre sí. Las bibliotecas digitales que se adaptan a normas abiertas y protocolos aceptados comúnmente mejoran la difusión del conocimiento y su acceso en todo el mundo.” Tampoco debemos olvidar las Directrices para la Preservación del Patrimonio Digital (2003). Dicho documento fue elaborado para la UNESCO por la Biblioteca Nacional de Australia, y contiene directrices generales y técnicas para la preservación del creciente patrimonio digital mundial y el acceso permanente al mismo. Su finalidad principal era la de servir de manual de referencia sobre el Proyecto de Carta para la Preservación del Patrimonio Digital, en el cual se establecen varias medidas necesarias con para lograr la preservación de dicho Patrimonio: - Artículo 6 - Elaborar estrategias y políticas - Artículo 7 - Seleccionar los elementos que deben conservarse - Artículo 8 - Proteger el patrimonio digital - Artículo 9 - Preservar el patrimonio cultural La Carta define que el “patrimonio digital” está compuesto por aquellos documentos que se generan directamente en formato digital (sólo existen en este formato) o se convierten a éste a partir de material analógico ya existente. Además, reconoce el peligro de pérdida a que están sometidos estos materiales en su art. 3 y recomienda que cada Estado nombre una agencia para responsabilizarse de la preservación del patrimonio digital, incluyendo la provisión de personal, conocimientos, recursos y herramientas para recoger, gestionar y dar acceso a la información digital. Resalta, además, la necesidad de coordinación entre los sectores público y privado y con la sociedad civil, así como la cooperación internacional. 7 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable 1.2.IFLA: Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas La IFLA (International Federation of Library Associations and Institutions), es la principal institución del mundo al servicio de los intereses de los profesionales y usuarios de las bibliotecas y centros de información. Su objetivo principal ha sido desde su creación (1927) la promoción de la cooperación biblioteconómica internacional. Es la organización internacional más importante en el ámbito bibliotecario. La IFLA se divide en cinco divisiones. La segunda, tercera y cuarta son las encargadas de desarrollar las seis actividades fundamentales de la IFLA. En lo referente a las actividades relacionadas con este tema podemos citar dos: PAC (Core Activity on Preservation and Conservation) La actividad fundamental de IFLA en relación con la preservación y la conservación, fue iniciada oficialmente durante la conferencia anual de IFLA en Nairobi en 1984 para centrar sus esfuerzos en aplicaciones sobre preservación y para iniciar la cooperación mundial para la preservación de los materiales de la biblioteca. El Strategic Programme on Preservation and Conservation (PAC) fue lanzado en Viena, durante la conferencia de 1986 sobre la preservación de los materiales de la biblioteca, coorganizados por la conferencia de los directores de las bibliotecas nacionales, (CDNL) IFLA y la UNESCO. El objetivo principal del programa PAC es asegurar la preservación y el acceso de los materiales de archivos y bibliotecas de acuerdo con los siguientes principios: La preservación es fundamental para la supervivencia y desarrollo de la cultura La cooperación internacional, como aspecto clave Cada país debe aceptar la responsabilidad de preservar su patrimonio Alianza de la IFLA/CDNL Alliance for Digital Strategies. Alianza para las Digitales (ICADS) Estrategias De entre los programas más emblemáticos desarrollados por la IFLA en lo referente a preservación digital, debemos hacer referencia a ICADS, el cual sustituyó, en 2008, a la Coalición IFLA/CDNL para las Normas Bibliográficas (ICABS), creada para coordinar e impulsar estándares bibliográficos e investigar sobre la descripción y archivo de los recursos-e. ICABS, igualmente, reemplazó y continuó en su día la labor de dos programas anteriores, los célebres UBCIM (Control bibliográfico Universal y Marc Internacional) y UAP (Universal Availability of Publications Core Activity). Los tres objetivos claves del programa ICADS fueron crear, gestionar y facilitar el acceso a dichas colecciones, a través de proyectos innovadores relacionados con: 8 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable La digitalización, El almacenamiento de páginas web, La preservación digital, El descubrimiento de recursos-e, etc. En 2011 se decidió suprimir ICADS. Durante la conferencia de 2011 del WLIC surgió la idea de revitalizar el CBU y la Sección de Bibliografía asumió esta tarea. Sección de Preservación y Conservación Es la Sección de la IFLA encargada de promover la preservación del patrimonio documental. Se configura como un foro internacional para el intercambio, desarrollo y difusión de experiencias. La Sección mantiene una colaboración muy estrecha con el Programa Estratégico sobre Preservación y Conservación (PAC). 2. Metodología: los estándares internacionales La International Organization for Standardization (ISO), nació después de la Segunda Guerra Mundial (fue creada en 1947), y se configura como el organismo encargado de promover el desarrollo de normas internacionales en el ámbito de la biblioteconomía y la documentación. Su función principal es la de buscar la estandarización de normas para las empresas u organizaciones a nivel internacional relacionadas con bibliotecas. Respecto a la digitalización y la preservación de documentos, podemos hacer referencia a varias normas. 2.1. ISO/TR 13028:2010. Directrices para la implementación de la digitalización de documentos Con el cambio de la gestión de documentos a los sistemas digitales, muchas organizaciones están digitalizando documentos en papel y otros soportes no digitales. Para gestionarse de forma eficaz, las organizaciones necesitan crear documentos completos y precisos de sus actividades y mantener estos documentos durante mucho tiempo para su posterior consulta, con independencia del soporte de almacenamiento de los mismos. La digitalización es el proceso de convertir documentos impresos o de otro soporte no digital a un formato digital. Puede suponer tomar fotografías digitales de los documentos originales o escanearlos (crear imágenes digitales). Una vez que los documentos se han convertido en objetos digitales, pueden: a) capturarse como imágenes estáticas (imágenes de barrido) representadas por píxeles; 9 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable b) procesarse con tecnología de reconocimiento óptico de caracteres que convierte los píxeles en representaciones digitales que se pueden buscar, editar y manipular; o c) capturarse en ambos formatos. En líneas generales existen dos tipos de digitalización: − digitalización durante el proceso de trabajo: digitalización rutinaria continua como parte de los procesos de negocio diarios; y − proyectos de digitalización: digitalización de grandes volúmenes de documentos previamente existentes. Este informe técnico: − establece directrices para la creación y el mantenimiento de documentos digitalizados que se obtienen de documentos originales en papel u otros soportes no digitales; − establece directrices sobre buenas prácticas en el proceso de digitalización con para asegurar la veracidad y fiabilidad de los documentos digitalizados, y permitir la consideración de la eliminación de los documentos originales; − establece directrices sobre buenas prácticas para la veracidad de los documentos digitalizados en lo que afecta a la validez jurídica y su peso como prueba; − establece directrices sobre buenas prácticas para el acceso a los documentos digitalizados durante el tiempo que se necesiten; − especifica estrategias para la creación de documentos digitalizados aptos para su conservación a largo plazo; − establece directrices sobre buenas prácticas para la gestión de los documentos originales tras su digitalización. Este informe técnico se aplica en el diseño y realización de un proceso de digitalización responsable por parte de todas las organizaciones que la lleven a cabo, tanto en la digitalización durante los procesos de trabajo, como en proyectos de digitalización de documentos ya existentes, con la finalidad de gestionar documentos, tal como se estipula en la Norma ISO 15489-1:2001, y en el Informe Técnico ISO/TR 15801:2009. 2.2. ISO/TR 14873:2013. Statistics and quality issues for web archiving Este Informe Técnico aborda una tarea relativamente reciente en el ámbito bibliotecario: los archivos web. La tarea de preservar el patrimonio documental en línea ha ido cobrando cada vez más importancia. La información que se publica en la web crece exponencialmente y, dado lo efímero de su naturaleza, su preservación se ha convertido en uno de los proyectos prioritarios para muchas bibliotecas a nivel mundial, que llevan recolectando y guardando documentación en línea desde hace años. 10 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable El informe fija y define un corpus de términos específicos de este campo, describe los tipos de archivos web, analiza los principales problemas a los que se enfrentan las organizaciones que se dedican a esta tarea, las formas de acceso a las colecciones resultantes, los retos de preservación y, sobre todo, incluye estadísticas e indicadores de calidad que permitan evaluar dichos archivos. Desde que en 1996 Internet Archive empezó a archivar la web mundial, muchas instituciones le han seguido en esta tarea. Como consecuencia de ello, en 2009 ISO puso en marcha un grupo de trabajo para elaborar el informe técnico que ahora ve la luz y que recoge recomendaciones para bibliotecas y archivos, principalmente, que les permitan avanzar en una misma línea y compartir criterios de calidad para evaluar los archivos web, que son ya considerados una parte importante del patrimonio documental a preservar para las generaciones venideras. Así mismo, la publicación de este informe refleja la importancia cada vez mayor que están adquiriendo los archivos web como base del depósito legal de publicaciones en línea en aquellos países que cuentan con legislación al respecto. 2.3. ISO 14721:2012 Space data and information transfer systems -- Open archival information system (OAIS) -- Reference model La norma ISO 14721:2012, (y su equivalente, la norma UNE 14721:2015) propone un marco de referencia para la preservación de colecciones digitales en un sistema abierto y presenta un nuevo enfoque sobre la función de los metadatos en la preservación. Un OAIS es un archivo, que una organización opera, que puede formar parte de una organización más amplia, de personas y sistemas, que ha aceptado la responsabilidad de conservar información y mantenerla disponible para una comunidad específica. Cumple una serie de responsabilidades como las que se definen en esta norma internacional, y esto conlleva que un archivo OAIS se diferencie de otros usos del término “archivo”. El término “abierto” en OAIS se utiliza para indicar que, tanto esta norma internacional, como las futuras normas internacionales relacionadas, sean desarrolladas en foros abiertos, aunque ello no significa que el acceso al Archivo sea sin restricciones. En este apartado se puede consultar un extracto de la norma UNE 14721:2015. 2.4. ANSI/NISO Z39.85-2012 The Dublin Core Metadata Element Set Uno de los logros más importantes, desde el punto de vista de la normalización, tuvo lugar en septiembre de 2001, cuando la ANSI norteamericana aprobó definitivamente el documento que reconocía el conjunto de etiquetas DCMES como norma internacional con la denominación ANSI/ NISO Z39.85-2001. El esfuerzo del grupo de trabajo CEN (Center for European Normalization), unido al estatus de norma recién logrado, debería facilitar el camino para la consecución de una norma ISO que aglutinara, tanto al conjunto de metadatos DC como a los calificadores. Y es que hay que recordar que Z39.85 sólo formaliza las 15 etiquetas originales, y no los calificadores. Esto se debe a que la petición de normalización es anterior al desarrollo definitivo de los calificadores. La norma, que 11 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable tan sólo explica brevemente la historia del DC, comenta sus objetivos principales y enumera todas y cada una de las etiquetas, designa como agencia de mantenimiento al Dublin Core Metadata Initiative, ya que en esas fechas, se había constituido como organización con capacidad para ello. Por otro lado, el 26 de febrero de 2003 fue aprobada la norma ISO 15836, reguladora del conjunto de metadatos DC. La última revisión es del año 2017 (en España contamos con la versión UNEISO 15836:2011). En base a lo comentado en los párrafos anteriores, las normas que a continuación se indican son indispensables para la aplicación de esta norma: ANSI/NISO Z39.85:2012, Conjunto de elementos de metadatos Dublin Core. DCAM, DCMI Modelo abstracto. 2.5. ISO 18492:2005 Long-term preservation of electronic document-based information Esta norma establece un marco para el desarrollo de estrategias y buenas prácticas aplicables a una amplia gama de información electrónica basada en documentos del sector público y privado. Define características de la información que deben asegurarse: legibilidad (estado del soporte, obsolescencia y vulnerabilidad), inteligibilidad (capacidad para interpretar el formato), recuperabilidad (capacidad para recuperar secciones del archivo), y comprensibilidad (capacidad de acceder al contexto del documento). III. LA PRESERVACIÓN DE DOCUMENTOS DIGITALES 1. Introducción Respecto a la preservación digital, el Manifiesto de las IFLA/UNESCO Sobre las Bibliotecas Digitales (2011), indica: “Se deben preservar los productos de la digitalización, al igual que los materiales creados de forma digital. Todas las iniciativas de las bibliotecas digitales deben comprender planes para la preservación digital por parte de una autoridad competente.Las bibliotecas digitales reúnen colecciones, servicios y personas para llevar a cabo el ciclo completo de creación, difusión, utilización y preservación de datos, información y conocimientos. La interoperabilidad y la perdurabilidad son fundamentales para que las bibliotecas digitales puedan comunicarse entre sí. Las bibliotecas digitales que se adaptan a normas abiertas y protocolos aceptados comúnmente mejoran la difusión del conocimiento y su acceso en todo el mundo.” Los documentos en formato digital tienen algunas características únicas que exigen que se realicen acciones concretas para asegurar que conserven su valor durante el tiempo que sea necesario. Para llevar a cabo tales acciones, es necesario seguir unas directrices para el 12 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable desarrollo de un plan de preservación. Las dos directrices a seguir en un plan de preservación son la norma ISO 15489:2016 e ISO/TC 46/SC 11 las cuales deben aplicarse conjuntamente. Hay que tener en cuenta que los soportes físicos de almacenamiento digital tienen menos esperanza de vida y requieren de la existencia de unas tecnologías para acceder a los mismos que cambian a una velocidad incluso mayor que los propios formatos. Además se deterioran más fácilmente haciendo que se pierdan los contenidos. A causa de la rapidez de los cambios tecnológicos, el lapso de tiempo en que se deben considerar los problemas de preservación y conservación de los documentos digitales se acorta considerablemente. El tiempo transcurrido entre la producción de los documentos y la necesidad de definir estrategias de preservación de los mismos es mucho más corto en el entorno electrónico que en el impreso. La UNESCO ha reconocido la importancia del problema de la conservación de los documentos electrónicos y, por ello, en su Carta para la preservación del patrimonio digital (artículo 3) se reconoce el peligro de pérdida a que están sometidos estos materiales y se afirma: «El patrimonio digital del mundo corre el peligro de perderse para la posteridad. Contribuyen a ello, entre otros factores, la rápida obsolescencia de los equipos y programas informáticos que le dan vida, las incertidumbres existentes en torno a los recursos, la responsabilidad y los métodos para su mantenimiento y conservación y la falta de legislación que ampare estos procesos». Si bien el problema de la preservación digital es arduo y complicado, y en cuanto que los principales implicados en el tema de la conservación son bibliotecas y archivos, es importante notar que los productores de documentos pueden facilitar la tarea desde el momento mismo del diseño de los documentos. El proceso de preservación y archivo se hace de forma más eficiente cuando se pone atención en las cuestiones de consistencia, formatos, normalización y descripción bibliográfica en los primeros pasos del ciclo de vida de la información. Por ello, se enfatiza la importancia de considerar buenas prácticas de conservación en todos los estados del ciclo de vida de gestión de la información: creación, adquisición, catalogación, almacenamiento, preservación y acceso. 2. Problemática en relación con la conservación de los documentos digitales La mayoría de los documentos actuales o bien han «nacido» en formato digital o bien se han convertido al formato digital mediante alguna transformación tecnológica. Los documentos digitales tienen diferencias fundamentales respecto a los tradicionales; así es que necesitan un tratamiento especial para preservar su integridad a lo largo del tiempo. Estas características únicas de los documentos digitales requieren acciones únicas de preservación. Las bibliotecas deberían saber que las acciones para la preservación digital comienzan idealmente con la creación del documento. En otras palabras, cuanto antes se inician en el proceso las actividades de preservación, mayor es la seguridad de que los documentos cumplen los requisitos de fiabilidad, integridad, autenticidad y usabilidad. La naturaleza única de los documentos digitales comporta una serie de peculiaridades que se deben considerar si se quiere que los documentos se conserven a lo largo del tiempo. Estas características se presentan mucho antes de que expire el período de retención de los documentos. Los principales problemas son: 13 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable Obsolescencia y degradación del formato físico (soporte). Los documentos digitales están almacenados en soportes tecnológicos que, con el tiempo, son susceptibles de daño y degradación potencial. El daño puede ser producido por unas condiciones de almacenamiento, un procedimiento de tratamiento o un mantenimiento del equipo de lectura inadecuado. Además, el cambio rápido de la tecnología de los soportes de almacenaje comporta, normalmente, su obsolescencia en un período de tiempo relativamente corto. Obsolescencia del formato del fichero. El problema del formato se agrava por el hecho de que los datos se representan mediante programas de software. Estos programas solamente pueden leer e interpretar datos que están en un formato específico de fichero. Los proveedores de software actualizan constantemente sus sistemas para añadirles nuevas funcionalidades y esto hace que los formatos más antiguos corran el riesgo de no poder ser leídos con los nuevos sistemas de software. Obsolescencia del software (sistema operativo, etc.). Relacionado con el apartado anterior está el hecho de que los mismos programas de software se vuelven obsoletos, con lo cual convierten en inútil el formato del fichero. La obsolescencia del software puede afectar a los programas de aplicación o a los sistemas operativos en los que funciona la aplicación. La obsolescencia de cualquiera de estas plataformas podría derivar en que los documentos no se pudieran consultar. Obsolescencia del hardware. Mientras que el soporte físico podría mantenerse aún en buenas condiciones, la tecnología para leer los soportes podría no existir en el futuro. Como en el resto del software, en el hardware se están produciendo nuevos avances que proporcionan tecnologías más rápidas y potentes. A medida que avanzan las tecnologías del hardware, también puede cambiar la forma en la que la información se almacena y recupera, y los soportes más antiguos podrían quedar inutilizados. 3. Fundamentos e importancia de la preservación En la esencia de la preservación está la exigencia de que el documento se conserve independientemente de su formato. La norma ISO 15489:2016 de Gestión de Documentos, pone de manifiesto el fundamento y la importancia de la función de preservación. Los documentos contienen información que constituye un recurso valioso y un activo importante de las bibliotecas. La adopción de un criterio sistemático para la gestión de documentos resulta esencial para las bibliotecas y la sociedad, a fin de proteger y conservar los documentos. De acuerdo con la norma ISO 15489-1 es esencial que todos los tipos de documentos digitales estén adecuadamente clasificados, archivados y preservados, de forma que se encuentren cuando se necesitan y que se pueda probar su autenticidad, integridad y fiabilidad. 4. Técnicas de preservación Se debería establecer una rutina fiable para asegurar que los documentos se incorporan regularmente al sistema de preservación. Esta rutina tiene que ser la guía para garantizar un tratamiento coherente de los documentos desde el momento en que se obtienen del sistema de 14 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable creación. La rutina se debería diseñar de manera que sólo se aplicara a los documentos que se han identificado para ser preservados. Los documentos se deberían almacenar en un entorno seguro independientemente del formato o soporte. En el caso de diferentes tipos de documentos, soportes o formatos, podrían ser válidas distintas opciones. En general, éstas pueden ser: Preservación de la tecnología: La conversión a nuevos formatos/plataformas (hardware y software). La migración a nuevos soportes. Utilización de estándares Emulación. Almacenamiento. 4.1. Preservación de la tecnología: La conversión a nuevos formatos/plataformas (hardware y software) Se basa en la preservación del entorno técnico que hace funcionar el sistema, incluyendo sistemas operativos, software de aplicaciones originales, controladores de medios, etc. En cierta forma se trata más de un tipo de estrategia de recuperación después de una perdida de información digitalizada, que no ha estado sometida a una conservación adecuada. Puede facilitar el acceso a soportes y formatos de ficheros obsoletos, pero en última instancia es un callejón sin salida, pues ninguna tecnología puede mantenerse funcional de forma indefinida. 4.2. La migración a nuevos soportes Se utiliza para copiar o convertir datos desde una tecnología a otra, tanto si se trata de hardware como de software, conservando las características esenciales de los datos. Esta definición captura la esencia y la ambigüedad de la migración. En algunas ocasiones se utiliza como sinónimo de actualización, pero migración representa un concepto mucho más rico y amplio que actualización. Se trata de un conjunto de tareas organizadas destinadas a conseguir la transferencia periódica de materiales digitales desde una generación tecnológica a la siguiente. El propósito de la migración es preservar la integridad de los objetos digitales y mantener la posibilidad por parte de los usuarios de recuperar, visualizar y utilizarlos en una perspectiva de constante cambio tecnológico. La migración incluye la actualización como un medio de conservación digital, pero difiere de ella en el sentido de que no siempre es posible hacer una copia digital exacta de un objeto digital cuando el hardware y el software cambian y además deben mantener la compatibilidad del objeto con la nueva generación de tecnología. 15 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable 4.3. Utilización de estándares Se puede afirmar que la utilización de estándares es al software lo que los soportes perdurables son al hardware. Se trata de buscar una forma de codificar y formatear los objetos digitales adhiriéndose a estándares reconocidos. Presupone que tales estándares perdurarán y que los problemas de compatibilidad que resulten de la evolución del entorno informático (aplicaciones, sistemas operativos) serán solventados debido a la continua necesidad de acomodar la norma dentro de los nuevos entornos. Dicha estandarización seria la garantía de que el software nuevo permitiese visualizar este formato. En base a lo planteado en el tema 1.22, recordemos que se puede diferenciar entre tres tipos de estándares: Estándares para la organización y preservación de la información Estándares para el intercambio de la información Otros estándares 4.4. La emulación La emulación encapsula el comportamiento del software o hardware junto con el objeto digital mismo. Está siendo considerada como una alternativa a la migración. Una alternativa a la emulación documento a documento, es la creación de un registro que identifique unívocamente entornos de hardware y software y proporcione información sobre cómo recrear dicho entorno para preservar el uso del objeto digital. En estos momentos no existe ningún sistema que proporcione documentación exhaustiva y la información de emulación requerida para que este modelo sea funcional, particularmente para permitir a un archivo tratar con la variedad de viejas tecnologías. 4.5. Almacenamiento El almacenamiento es a menudo tratado como un estado pasivo en el ciclo de vida, pero los soportes de formatos de almacenamiento van cambiando. La solución más común a este problema de cambiar los medios de almacenamiento es la migración a nuevos sistemas. Esto es caro y siempre está presente el problema de la pérdida de datos o problemas con la calidad cuando se realiza la transformación. 4.6. Copias de seguridad Se refiere al proceso de hacer duplicados exactos del objeto digital. Aunque es un componente esencial de todas las estrategias de preservación, las copias de seguridad en sí mismas no son 16 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable una técnica de mantenimiento a largo plazo, ya que se ocupa exclusivamente con la cuestión de pérdida de datos debido a un fallo de hardware, bien debido a causas normales, bien a desastres naturales bien a destrucción malintencionada. En ocasiones, se combina con almacenamiento remoto de tal forma que el original y las copias no estén sujetas a los mismos eventos desastrosos. Las copias de seguridad deberían ser consideradas la estrategia de mantenimiento mínima para incluso los materiales más efímeros y con menos valor que dispongamos. En ese sentido, uno de los principales movimientos en la actualidad es LOCKSS (Lots Of Copies Keeps the Stuff Safe): un programa internacional que proporciona a las bibliotecas y a los editores las herramientas de preservación digital (herramientas que son open source) y el soporte necesario para coleccionar y preservar fácilmente y a bajo coste sus propias copias de los contenidos digitales suscritos. 4.7. Actualización Se refiere a la copia de información digital de un soporte de almacenamiento a largo plazo a otro del mismo tipo, sin ningún cambio en los documentos (por ejemplo, la copia de un viejo CD-RW a otro nuevo). 4.8. Metadatos Los metadatos, entendidos como “datos sobre datos” son capaces de describir objetos digitales para que se puedan procesar, almacenar, conservar, recuperar e intercambiar correctamente a través de la web. Juegan un papel fundamental para una correcta recuperación de la información. Se diferencian varias categorías según las funciones que desempeñan y la información que se desea ofrecer: Descriptivos: facilitan la descripción e identificación de los recursos de información, caso de MARC o Dublin Core Estructurales: facilitan la navegación y presentación de los recursos electrónicos Administrativos: facilitan la gestión y procesamiento de las colecciones digitales Preservación: permiten la conservación de los archivos digitales a largo plazo. Estos suelen estar asociados a modelos del tipo OAIS. Un ejemplo sería PREMIS. Entre los esquemas más destacados, podemos nombrar: DUBLIN CORE à Modelo de metadatos elaborado por la DCMI (Dublin Core Metadata Initiative) abocado a definir el conjunto de elementos básicos para describir los recursos electrónicos y facilitar su recuperación. 17 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable METS (Metadata Encoding and Transmission Standard) à Esquema para describir objetos de bibliotecas digitales complejas que utiliza el lenguaje XML schema y asocia metadatos administrativos y descriptivos. MODS (Metadata Object Description Schema) à Esquema de metadatos descriptivos que se deriva del MARC 21 y que permite crear la descripción de recursos originales o seleccionar los registros existentes en MARC 21. MADS (Metadata Authority Description Schema) à Esquema XML que proporciona un conjunto de autoridades y complementa al MODS. EDM (Europeana Data Model). Este modelo permite estructurar y representar los datos con los que las diversas instituciones contribuyen a Europeana. El modelo en sí se construye sobre estándares establecidos como RDF, OAI-ORE (Object Reuse and Exchange = Objeto reutilizado e intercambio), SKOS y DC. Actúa como una ontología común que permite la interoperabilidad. Respecto a PREMIS, se configura como un esquema de metadatos de preservación. Se trata, por lo tanto, del estándar internacional de metadatos para respaldar la preservación de objetos digitales y garantizar su usabilidad a largo plazo. Desarrollado por un equipo internacional de expertos, PREMIS se implementa en proyectos de preservación digital en todo el mundo. El Comité Editorial de PREMIS de la Library of Congress, coordina las revisiones y la implementación del estándar, que consiste en el Diccionario de datos, un esquema XML y documentación de respaldo. Tanto el esquema como el Diccionario de Datos PREMIS se adaptan al modelo de referencia Open Archival Information System (OAIS), el cual proporciona una base conceptual que adopta la forma de un esquema de clasificación para objetos y paquetes de información además de una estructura para sus metadatos asociados. Si bien el esquema puede ser considerado una aplicación práctica del modelo de referencia OAIS a través del mapeo de los metadatos de preservación a esa estructura conceptual; el Diccionario de Datos PREMIS puede ser entendido como la traducción del esquema a un conjunto de unidades semánticas. Sin embargo, el Diccionario de Datos y el OAIS en ocasiones difieren en lo que respecta al uso de la terminología; estas diferencias aparecen recogidas en el glosario que acompaña a este informe. Las diferencias terminológicas a menudo reflejan el hecho de que las unidades semánticas de PREMIS exigen mayor especificidad que las definiciones que proporciona el OAIS, lo que cabe esperar cuando se pasa de un marco conceptual a su implementación. Para el desarrollo de este punto sobre PREMIS, tomaremos como referencia la publicación Entender PREMIS (Caplan, Priscila. The Library of Congress). En junio del 2003, OCLC y RLG, patrocinaron la formación del grupo de trabajo PREMIS, compuesto por expertos internacionales en la utilización de metadatos aplicados a actividades de preservación digital. En el informe de trabajo se ofrecen numerosos recursos sobre metadatos de preservación. El primero y principal es el propio Diccionario de Datos, un material práctico y exhaustivo para la puesta en práctica de metadatos de preservación en sistemas de gestión de objetos digitales. El Diccionario de Datos PREMIS define los metadatos de preservación como la información que un repositorio utiliza para llevar a cabo el proceso de preservación digital. En concreto, el grupo se 18 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable centró en los metadatos destinados al mantenimiento de la viabilidad, la disponibilidad, la claridad, la autenticidad y la identidad en el contexto de la preservación. Si OAIS plantea un modelo de referencia genérico, PREMIS ofrece información más detallada sobre los metadatos que deben gestionarse y los esquemas XML para su codificación. Algunos de los resultados más importantes de este equipo de profesionales fueron: Final Report of the PREMIS Working Group (2005), en el que se referenciaban etiquetas para recoger la información que consideraban relevante de cara a la preservación. Data Dictionary for Preservation Metadata, que describe los metadatos esenciales para la preservación digital de cualquier formato de archivos y el esquema XML para su codificación. El Diccionario de datos PREMIS define los metadatos de preservación como”la información que utiliza un repositorio para soportar el proceso de preservación digital”. Son ejemplos de actividades de preservación y de cómo pueden soportarlas los metadatos: Un recurso debe almacenarse de manera segura para que nadie pueda modificarlo inadvertidamente (o malintencionadamente). La información de la suma de verificación almacenada como metadatos puede utilizarse para expresar si el archivo almacenado ha variado entre dos momentos en el tiempo. Los ficheros deben almacenarse en soportes que puedan leer los ordenadores actuales. Si el soporte está dañado u obsoleto (como los discos blandos de 8" utilizados en los años setenta) puede resultar difícil o imposible recuperar los datos. Los metadatos pueden apoyar la gestión de los distintos soportes mediante el registro del tipo y la edad del soporte de almacenamiento y las fechas en las que se refrescaron los ficheros por última vez. Transcurrido un período largo de tiempo, incluso los formatos de fichero más comunes pueden convertirse en obsoletos, lo que significa que las aplicaciones actuales no pueden reproducirlos. Los gestores de la preservación deben emplear estrategias de preservación que garanticen que los recursos se puedan seguir utilizando. Esto puede significar la transformación de los antiguos formatos en otros nuevos equivalentes (migración), o la imitación del antiguo entorno de reproducción en el nuevo hardware y software (emulación). Tanto las estrategias de emulación como las de migración requieren metadatos sobre los formatos de los ficheros originales y los entornos de hardware y software que los soportan. Las acciones de preservación pueden implicar modificaciones de los recursos originales o cambios en su modo de reproducción. Esto puede poner en duda la autenticidad del recurso. Los metadatos pueden ayudar a soportar la autenticidad del recurso mediante 19 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable la documentación de la procedencia digital de dicho recurso – su cadena de custodia y el historial de cambios autorizados. El Diccionario de datos PREMIS define un conjunto de unidades semánticas fundamentales que deben entender los repositorios para llevar a cabo sus funciones de preservación. Las funciones de preservación pueden variar de un repositorio a otro, pero, por lo general, incluirán las acciones que garanticen que los objetos digitales permanezcan viables (es decir, que los soportes se puedan leer) y recuperables (es decir, que puedan visualizarse, ejecutarse o representarse de alguna manera por una aplicación de software) y que aseguren que los objetos digitales del repositorio no se han alterado inadvertidamente y que se han documentado los cambios legítimos de los objetos. 5. Elaboración de un Plan de preservación Un Plan de preservación es aquella herramienta donde se definen las líneas de actuación encaminadas a preservar una colección concreta o una parte de una colección de objetos digitales, teniendo en cuenta aspectos tales como: Las políticas de preservación. Las obligaciones legales. Las limitaciones de la organización. Las limitaciones técnicas. Las necesidades de los usuarios. Los objetivos de la preservación. El Plan describe el contexto de la preservación, las estrategias de preservación evaluadas (como la migración, la conversión y la emulación) y la decisión resultado de una estrategia, incluida su justificación. El Plan define un procedimiento bien documentado de las acciones necesarias para garantizar el acceso y uso a largo plazo de la colección. El Plan de preservación incluye: El contexto de la preservación. La estrategia de preservación seleccionada. Los resultados de la evaluación de diferentes alternativas de preservación y la decisión. Las funciones y responsabilidades para el plan de preservación y su seguimiento. Los motivos que iniciaran la ejecución del plan. El coste (tal vez estimado) de realización del plan de preservación: El coste de preparar el plan de preservación. El coste de ejecutar el plan de preservación. 20 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable El Plan de preservación debería asegurar que todos los documentos, cualquiera que sea su formato y soporte de almacenamiento, se conserven con el fin de acceder a ellos posterior mente. A fin de salvaguardar la autenticidad de los documentos digitales a lo largo de su vida útil, los planes de preservación requieren que se utilicen sistemas de preservación que combinen la tecnología y los procedimientos organizativos. Los planes de preservación deberían garantizar, como mínimo, que los documentos digitales: Se puedan buscar y estén disponibles para el acceso de manera puntual. Sean interpretables (usabilidad, presentación, representación, visualización, cifrado). Se puedan recuperar, incluidos los metadatos correspondientes. Estén protegidos contra la pérdida de derechos como la propiedad intelectual, la confidencialidad y los derechos de autor. Estén disponibles para que las personas autorizadas accedan a ellos mientras sean necesarios. Se haga el control de la calidad de las provisiones de acceso (disponibilidad, puntualidad, entrega, historial de uso). El Plan de preservación debería abarcar todas las actividades, desde la planificación inicial, las actividades de preservación, el seguimiento y las evaluaciones periódicas. IV. EL ARCHIVO DE LA WEB 1. Internet Archive ¿Qué es el Archivo de Internet o Internet Archive? Mayagoitia y González Aguilar (2017) explican como “A mediados de los años noventa, poco tiempo después del surgimiento de Internet, Brewster Kahle -un ingeniero informático-, teniendo en cuenta que ese nuevo medio era muy cambiante, decidió crear un archivo para conservar páginas Web. Kahle consideró que es precisamente esa mutabilidad la que podría llegar a crear problemas para investigadores o personas interesadas en consultar el pasado de Internet, no encontrando información que había estado disponible en meses o años previos. Percatándose, poco tiempo después, de que no había ninguna institución interesada en conservar en otros medios efímeros como filmes educativos o publicitarios, noticias de televisión, o programas de radio, decidió modificar y ampliar el objetivo original de su organización. Internet Archive se convirtió entonces en un archivo digital de medios efímeros, a la disponibilidad de investigadores, historiadores, académicos y cualquier persona interesada.” Los objetivos fundamentales de Internet Archive son: 21 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 1. InQnable Guardar una copia de la totalidad del contenido presente en Internet para su conservación en el tiempo Mantener la libertad en Internet facilitando la libre circulación de la información Facilitar un acceso universal al conocimiento Contenidos de Internet Archive Según la propia web de The Internet Archive, ésta es “una organización sin fines de lucro, (que) está construyendo una biblioteca digital de sitios de Internet y otros artefactos culturales en forma digital. Al igual que una biblioteca en papel, brindamos acceso gratuito a investigadores, historiadores, académicos, personas con dificultades para acceder al texto impreso y al público en general. Nuestra misión es proporcionar acceso universal a todos los conocimientos. Comenzamos en 1996 archivando Internet, un medio que apenas comenzaba a crecer en uso. Al igual que los periódicos, el contenido publicado en la web era efímero, pero a diferencia de los periódicos, nadie lo guardaba. Hoy tenemos acceso a más de 20 años de historial web a través de Wayback Machine y trabajamos con más de 450 bibliotecas y otros socios a través de nuestro programa Archive-It para identificar páginas web importantes. A medida que nuestro archivo web creció, también lo hizo nuestro compromiso de proporcionar versiones digitales de otras obras publicadas. Hoy nuestro archivo contiene: 279 mil millones de páginas web 11 millones de libros y textos 4 millones de grabaciones de audio (incluidos 160,000 conciertos en vivo) 3 millones de videos (incluyendo 1 millón de programas de Noticias de Televisión) 1 millón de imágenes 100,000 programas de software.” Según Mayagoitia y González Aguilar, “Actualmente Internet Archive funciona como un archivo dividido en las siguientes categorías: páginas Web, libros y textos, grabaciones de audio, imágenes en movimiento (destacando el cine y la televisión), fotografías, y programas de software. El número de registros, supera los 305 billones -la mayoría de ellos en acceso abierto-, y aumenta diariamente. El archivo se ha ido ampliando constantemente desde su creación, agregando categorías e incorporando nuevos registros a sus colecciones (Tabla 1), según lo permite la tecnología y lo demandan ciertos acontecimientos históricos. A pesar de que en su sitio Web se indica que actualmente se está prestando especial atención a la digitalización y conservación de libros, la mayoría de documentos albergados continúan siendo páginas Web, lo cual demuestra no únicamente que Internet es el medio más efímero y en constante mutación, sino que el objetivo original de Internet Archive, sigue vigente.” 22 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable 2. El Archivo de la Web Española 2.1. Introducción En España existe un proyecto parecido al Internet Archive que, de hecho, nació con el apoyo de éste: el Archivo de la Web Española. Se trata de una colección formada por los sitios web (incluidos blogs, foros, documentos, imágenes, vídeos, etc.) que se recolectan con el fin de preservar el patrimonio documental español en Internet y asegurar el acceso al mismo. Debido al enorme tamaño de Internet y a los medios tecnológicos de los que disponemos actualmente, a día de hoy es imposible aspirar a la exhaustividad en el archivado web. Por eso, para intentar guardar la mayor cantidad posible de información web, la Biblioteca Nacional de España ha optado por un modelo mixto que combina recolecciones masivas y selectivas, como hacen otras bibliotecas nacionales del mundo. 2.2. El desarrollo del proyecto En relación directa con el contenido del Real Decreto por el que se regula el depósito legal de publicaciones en línea, se encuentra el proyecto del Archivo de la Web Española. La Biblioteca Nacional de España viene trabajando desde 2009 en el Archivo de la Web Española y tal como se informa en su web, dicho proyecto tiene como objeto “conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet (webs, blogs, foros, listas de distribución, documentos, imágenes, vídeos, etc.). En España PADICAT (Patrimonio Digital de Cataluña) y ONDARENET (Archivo del Patrimonio Digital Vasco) se ocupan del archivo del patrimonio digital catalán y vasco desde 2005 y 2007 respectivamente. Inspirándose en las Directrices para la preservación del patrimonio digital de la UNESCO (2003) y en la Recomendación de la Comisión Europea de 24 de agosto de 2006 sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital, la BNE captura páginas y sitios web españoles albergados en el dominio.es, así como en otros dominios y subdominios genéricos (.com,.edu,.gob,.org,.net, etc.). En el marco de este proyecto, la BNE es miembro del Consorcio Internacional para la Preservación de Internet (International Internet Preservation Consortium –IIPC-) desde 2010, organización que aglutina las iniciativas más importantes a nivel mundial en el campo del archivado web y en la que se integran bibliotecas nacionales de todo el mundo así como instituciones patrimoniales como archivos y bibliotecas universitarias y de investigación; y forma parte de su Consejo Directivo desde 2014. Desde que el proyecto de la BNE arrancó en 2009 hasta finales de 2013 se han llevado a cabo ocho recolecciones masivas del dominio.es y dos recolecciones selectivas. La primera selectiva tuvo como objetivo cubrir de forma monográfica las Elecciones Generales del 20 de noviembre de 2011 y la segunda se ocupó de reunir recursos españoles del ámbito de las Humanidades. El 23 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable resultado de estas recolecciones, hechas por Internet Archive para la BNE, fue trasladado a los servidores de la Biblioteca a finales de 2014, gracias a un convenio de colaboración firmado con Red.es. Red.es colabora activamente con la Biblioteca en el desarrollo tecnológico y de infraestructuras para la gestión del depósito legal de las publicaciones en línea. En 2014 la Biblioteca instaló en un entorno de pruebas el paquete de herramientas de código abierto NetarchiveSuite para rastrear y archivar la web. Este software de código abierto es el que emplean para rastrear sus webs respectivas otras bibliotecas nacionales como la de Dinamarca, Francia y Austria. Con este sistema propio la Biblioteca ha realizado desde entonces varias recolecciones selectivas sobre acontecimientos relevantes para la historia y la cultura españolas, como la muerte de Adolfo Suárez, la abdicación de Juan Carlos I, la proclamación de Felipe VI, la consulta del 9N en Cataluña, las elecciones europeas de 2014, y las locales y autonómicas de 2015. Con la aprobación del Real Decreto que regula el Depósito Legal de las publicaciones en línea, la BNE y los centros de conservación de las CC.AA. tienen el respaldo legal que los habilita para recolectar los sitios web, como parte de la misión de preservación del patrimonio documental que les es propia.” A nivel técnico, como se indica en la web de la BNE, “Las recolecciones de la web (web crawls en inglés) se llevan a cabo con robots de rastreo (web crawlers), que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas. Los crawlers toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente, almacenando de forma ordenada los documentos, vídeos, imágenes, etc. que se ocultan tras cada vínculo. Estos contenidos son indexados posteriormente con el fin de poder realizar búsquedas a texto completo en la colección.” (Fuente: Biblioteca Nacional de España) 2.3.Información técnica Las recolecciones de la web (web crawls en inglés) se llevan a cabo con robots de rastreo (web crawlers), que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas. Los crawlers toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente, almacenando de forma ordenada los documentos, vídeos, imágenes, etc. que se ocultan tras cada vínculo. Estos contenidos son indexados posteriormente con el fin de poder realizar búsquedas sobre ellos. 24 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión “viva”. Una vez completado el rastreo, las webs archivadas son visualizadas en la OpenWayback, una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar. En la Biblioteca Nacional de España para archivar la web se utiliza NAS (NetarchiveSuite), una herramienta de código abierto diseñada por la Biblioteca de Dinamarca, y que actualmente también utilizan para este propósito otras bibliotecas nacionales como la de Francia y la de Austria. Para rastrear incorpora el robot Heritrix, creado por Internet Archive, primera organización que empezó a rastrear y archivar la web en 1996. Es el robot que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios web. Heritrix fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web. El ritmo de rastreo del programa se puede ajustar según determinados parámetros. La versión de Heritrix que se utiliza actualmente es la 3. Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos: ▪ u s e r A g e n t Te m p l a t e : M o z i l l a / 5. 0 ( c o m p a t i b l e ; b n e. e s _ b o t ; +@OPERATOR_CONTACT_URL@) ▪ operatorFrom: [email protected] ▪ operatorContactUrl:http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/ index.html ▪ organization: Biblioteca Nacional de España Por el mandato legal que tiene la BNE en materia de depósito legal, el robot ignora los ficheros robots.txt. 25 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable BIBLIOGRAFÍA ALLO MANERAO, Mª. Adelaida. Conservación de la colección. En ORERA ORERA, Luisa. Manual de biblioteconomía. Madrid: Síntesis, 1996. AENOR. UNE-ISO 15836:2011 [en línea] [consulta septiembre 2015] http://www.aenor.es/aenor/ normas/normas/fichanorma.asp?tipo=N&codigo=N0047623#.Vg1nwBPtlBd BARRUECO, José Manuel. Preservación y conservación de documentos digitales [en línea] [consulta septiembre 2015] http://www.edaddeplata.org/docactos/pdf/educativa/manual/ CAPITULO7.pdf BELLO URGELLÈS, C.; BORREL CREHUET, A. El Patrimonio bibliográfico y documental: claves para su conservación preventiva. Gijón: Trae, 2001. ELVIRA i SILLERAS, Maria. Preservación de los documentos digitales: Guía para comenzar. ISO/ TC 46/SC 11. Versión española, octubre 2010. En Revista española de Documentación Científica, Vol 34, No 3 (2011) [en línea] [consulta septiembre 2015] http://redc.revistas.csic.es/index.php/ redc/article/view/708/785 European Register of Microform and Digital Master. EROMM. Post EROMM. En UvaDoc Repositorio Documental de la Universidad de Valladolid [en línea] [consulta septiembre 2015] http://uvadoc.blogs.uva.es/tag/eromm/ European Register of Microform and Digital Master. EROMM. Post El repositorio Gredos está accesible desde EROMM. En El blog de Gredos [en línea] [consulta septiembre 2015] http:// diarium.usal.es/gredos/2011/10/24/el-repositorio-gredos-esta-accesible-desde-eromm/ Fundación General Universidad Complutense Madrid. En Escuela complutense de verano. Proyectos de digitalización de documentos: diseño y gestión. [en línea] [consulta septiembre 2015] http://pendientedemigracion.ucm.es/centros/cont/descargas/documento33246.pdf GONZÁLEZ CORRAL, Beatriz. Digitalización: Ventajas de la restauración digital [en línea] [consulta septiembre 2015] http://195.76.170.140:85/archivo/revista/as4/22.pdf IFLA. Principios para el cuidado y manejo de material de bibliotecas. Comp. y ed. por Esward P. Adcock, Marie-Thérèse Varla- moff y Virginie Kremp.-: IFLA, PAC, 1998. [En línea] [consulta septiembre 2015] http://www.ifla.org/files/assets/pac/ipi/ipi1-es.pdf 26 de 27 © Rubén Izquierdo Martín Temario Facultativos de Bibliotecas / Biblioteconomía Tema 47 InQnable MAYAGOITIA, Ana; González Aguilar, Juan Manuel. "Internet Archive": la conservación de lo efímero. Documentación de las ciencias de la información, ISSN 0210-4210, Nº 40, 2017, págs.157-167 MINISTERIO DE CULTURA. Secretaría General Técnica. Directrices para proyectos de digitalización. de colecciones y fondos de dominio público, en particular para aquellos custodiados en bibliotecas y archivos elaboradas por la IFLA e ICA a petición de la UNESCO. [En Línea] [consulta septiembre 2015] http://www.ifla.org/files/assets/preservation-and-conservation/publications/digitization-projectsguidelines-es.pdf Northeast Document Conservation Center. Preservation of Library & Archival Materials: A Manual. Edited by Sherelyn Og- den. Andover, MA: NEDCC, 1999. PRADO MARTÍNEZ, M. A. del. Recomendaciones técnicas para la digitalización de documentos. En CEPYME Aragón. 23.07.2010 La voz de la pequeña y mediana empresa. [enlínea] [consulta septiembre 2015] http://cepymearagon.blogspot.com.es/2010/07/recomendaciones-tecnicas-para-la.html Previsión y conservación de bibliotecas y archivos contra agentes bióticos, el fuego y factores climáticos / por Gustav Kraemer Koeller. - Madrid: Junta Técnica de Archivos, Bibliotecas y Museos, 1960. RAMOS SIMÓN Luis Fernando. Lo viejo y lo nuevo: el patrimonio cultural digitalizado. En Actas de la VI jornada profesional de la red de bibliotecas del instituto cervantes: La investigación española en Documentación: ¿en qué liga jugamos? Madrid, 2013 [en línea] [consulta septiembre 2015] http://www.cervantes.es/imagenes/File/ponencia_fernando_ramos_rbic.pdf SÁNCHEZ HERNÁMPEREZ, Arsenio. Políticas de conservación en bibliotecas. Madrid: Arco Libros, 1999. SEONAE, Catuxa. Las bibliotecas podrán tener los nuevos libros más tiempo en sus estanterías. Deakialli Documental [en línea] [Consulta: septiembre 2015] http://www.deakialli.com/2004/02/10/ las-bibliotecas-podran-tener-los-nuevos-libros-mas-tiempo-en-sus-estanterias/ VIÑAS TORNER, Vicente. Medidas y políticas de conservación de materiales bibliotecarios: problemas y soluciones. En MAGÁN WALS, J. A. Tratado básico de biblioteconomía. Madrid: Editorial Complutense, 2002. 27 de 27 © Rubén Izquierdo Martín