Proyecto de computación I - Tema 4. Datos Abiertos (Open Data) - PDF
Document Details
Uploaded by PreferableGingko
Universidad Europea
Tags
Related
- Privacidad de Datos 2023-2024 - MTI - Oscar Manuel Lira Arteaga PDF
- Fuentes de Datos Demográficos PDF
- Resumen Completo Sistemas De Informacion PDF
- Conciliación de Ingresos por Día y por Tienda Datos del Contador
- Modelo OSI (Open Systems Interconnection) PDF
- Proyecto de computación I - Tema 5. Herramientas comunes PDF
Summary
Este documento proporciona una visión general del tema 4, "Datos Abiertos (Open Data)", del Proyecto de Computación I. Aborda conceptos como la definición de datos abiertos, la Ley de Transparencia española, las diferentes clasificaciones y los formatos de este tipo de datos. El documento también incluye una breve descripción de los datos enlazados abiertos.
Full Transcript
Proyecto de computación I Tema 4. Datos Abiertos (Open Data) Proyecto de computación I Tema 4. Datos Abiertos (Open Data) Índice 1. Presentación........................................................................... 3 3. Qué son los datos abiertos.................................................
Proyecto de computación I Tema 4. Datos Abiertos (Open Data) Proyecto de computación I Tema 4. Datos Abiertos (Open Data) Índice 1. Presentación........................................................................... 3 3. Qué son los datos abiertos........................................................... 3 4. Ley de transparencia en España.................................................... 4 5. Clasificación de datos abiertos..................................................... 5 6. Formatos............................................................................... 5 7. Linked Open Data..................................................................... 6 8. Resumen................................................................................ 7 Referencias bibliográficas............................................................... 7 © Copyright Universidad Europea. Todos los derechos reservados. 2 Proyecto de computación I Tema 4. Datos Abiertos (Open Data) 1. Presentación Para la realización del Proyecto de Computación vamos a utilizar como “ingredientes” datos abiertos (open data en inglés), que serán la base del trabajo a realizar. Por este motivo, en este tema vamos a dedicar un momento a recordar qué son los datos abiertos, dónde podemos conseguirlos y en qué formatos nos los vamos a encontrar. Una de las primeras cosas que veremos es que no todo lo que se presenta como datos abiertos realmente lo son, ya que hay bastante confusión entre los términos “datos abiertos”, “datos públicos” y “datos publicados”. Veremos cuáles son las diferencias entre estos tres conceptos. Veremos también qué entendemos por datos enlazados abiertos (linked open data), que es un paso más allá de los datos abiertos, y la base de lo que se conoce como web semántica. 3. Qué son los datos abiertos El concepto datos abiertos (open data en inglés) hace referencia a los datos que pueden ser utilizados y redistribuidos libremente, y que no se encuentran restringidos por licencias privativas (tipo copyright). Un conjunto de datos abiertos debería tener las siguientes características deseables: Públicos. Datos transparentes por parte de las organizaciones y los estados que publican la información (siempre y cuando no estén sujetos a restricciones de privacidad o seguridad). En bruto. Los datos no deben estar agregados, sino que deberían publicarse tal y como están en su origen, sin procesar. Actualizados. Los datos deben actualizase con la frecuencia necesaria para que no pierdan su valor. © Copyright Universidad Europea. Todos los derechos reservados. 3 Proyecto de computación I Tema 4. Datos Abiertos (Open Data) Accesibles. Deben ser accesibles al mayor número de usuarios posible, sin restricciones derivadas del formato ni por el propósito de uso. Estructurados. Los datos deben presentarse en formato estructurado para su procesamiento de forma automática mediante ordenadores. Sin registro previo. Sin necesidad de tener que identificarse o tener una cuenta en alguna web o plataforma. Formato abierto. Los datos no deben estar agregados, sino que deberían publicarse tal y como están en su origen, sin procesar. Libres. Los datos deben ser de uso 100% libre, y estar libres de derechos, patentes, y copyright. 4. Ley de transparencia en España La ley de transparencia de España es una norma publicada en el Boletín Oficial del Estado el 10 de Diciembre de 2013, y que tiene como objetivo reforzar el derecho de los ciudadanos a acceder de forma pública y transparente a la información relacionada con actividades públicas o financiadas con dinero público. El nombre completo de esta norma es “Ley 19/2013, de 9 de diciembre, de transparencia, acceso a la información pública y buen gobierno”. Las entidades afectadas por la ley son todas aquellas administraciones públicas como la Administración General del Estado, las comunidades autónomas, los ayuntamientos, y otras entidades que se financian con dinero proveniente de los impuestos de los ciudadanos. También están afectadas aquellas sociedades que tengan una participación pública en capital superior al 50 %. Portal de transparencia Para facilitar el acceso por parte de la ciudadanía a la información pública, la ley de transparencia obliga a la creación de una herramienta software por parte del Gobierno, y dependiente del Ministerio de la Presidencia para publicar la información que la ley obliga a proveer por parte del Estado. Existe también una recomendación para que las administraciones autonómicas y locales cuenten también con este tipo de herramientas que faciliten el acceso a los datos. © Copyright Universidad Europea. Todos los derechos reservados. 4 Proyecto de computación I Tema 4. Datos Abiertos (Open Data) 5. Clasificación de datos abiertos Como hemos visto anteriormente, no todos los datos que se publican pueden considerarse abiertos, ya que pueden estar en formatos propietarios o no procesables de forma automática. Sir Tim Berners-Lee, creador de world wide web, y uno de los máximos referentes de la web semántica y los datos abiertos, ha propuesto una escala que mide el nivel calidad de los datos abiertos usando una escala con 5 estrellas. Figura 1. Esquema 5 estrellas de Open Data. Tabla 1. Esquema 5 estrellas de Open Data. « Datos publicados en cualquier formato, bajo una licencia abierta. «« Publicados en formatos estructurado (por ejemplo, una tabla excel). Publicados en formato estructurado y usando un tipo de archivo no ««« propietario (por ejemplo, CSV, XML, JSON). «««« Los datos están referenciados usando URIs. ««««« Los datos están enlazados con otros datos. 6. Formatos Hemos visto que es preferible publicar datos en formato no privativo. Los tipos de archivo más comunes que se utilizan son los siguientes: CSV (Valores Separados por Comas) Es un tipo de documento de texto plano que representa los datos tabulados en columnas separados por un carácter separador. A pesar de lo que pueda pensarse por el nombre del archivo, no solo se usan comas para este menester. Otro tipo © Copyright Universidad Europea. Todos los derechos reservados. 5 Proyecto de computación I Tema 4. Datos Abiertos (Open Data) de separadores como el punto y como el tabulador se suelen utilizar de forma habitual. XML Es el acrónimo de Extensible Markup Language, que es un lenguaje para codificar datos y documentos en un formato que sea fácilmente legible e interpretable por una máquina. JSON (JavaScript Object Notation) Sistema de notación de texto, abierto, pensado para el intercambio de datos en un formato legible por personas. JSON surgió con la necesidad de cubrir una carencia de JavaScript: no es un lenguaje orientado a objetos, lo que dificultaba intercambiar datos con otros lenguajes modernos. JSON permite codificar estructuras simples y arrays asociativos simulando una notación orientada a objetos. 7. Linked Open Data Los datos enlazados son la forma de vincular conjuntos de datos publicados en la web usando URIs, de forma similar a cómo se enlazan documentos web. Mediante los datos enlazados podemos añadir contexto a los datos, accediendo a información relacionada que se encuentra en otra fuente de datos. Figura 2. Linked Open Data. © Copyright Universidad Europea. Todos los derechos reservados. 6 Proyecto de computación I Tema 4. Datos Abiertos (Open Data) 8. Resumen En este tema hemos estado viendo las nociones básicas de qué son los datos abiertos y qué características debe cumplir este tipo de información para poder considerarse abierta. Hemos visto que no todos los datos que se publican en la web pueden considerarse abiertos, ya que para ello deben cumplir otra serie de condiciones deseables como estar en formatos estructurados que puedan ser directamente procesables por un ordenador, y que estén en un formato de archivo no propietario. También hemos visto la ley de transparencia de España y su influencia en la apertura de datos relacionados con la administración de las entidades públicas, así como un repaso de los formatos de archivos más comunes y el concepto de datos enlazados abiertos (Linked Open Data). Más concretamente hemos hablado de: Definición de datos abiertos. Características que deberían cumplir los datos abiertos. Qué es la Ley de Transparencia y a quién afecta. Clasificación de datos abiertos. Formatos de archivos abiertos. Datos Enlazados Abiertos (Linked Open Data). Referencias bibliográficas Baeza-Yates, R. y Ribeiro-Neto, B. (2011). Modern information retrieval: the concepts and technology behind search. (2nd ed.). ACM Press Books. Baeza-Yates, R. y Ribeiro-Neto, B. (1999). Modern information tetrieval. En Addison Wesley (Ed.). Figuerola, C. G., Alonso Berrocal, J. L. Zazo Rodríguez, A. F. y Rodríguez, E. (2004). Algunas Técnicas de Clasificación Automática de Documentos. Cuadernos de Documentación Multimedia (15). Manning, C. D., Raghavan, P. y Schütze, H. (2008). Introduction to information retrieval. Cambridge: Cambridge University Press. Martínez Comeche, J. A. (2006). Los modelos clásicos de recuperación de información y su vigencia. Tercer Seminario Hispano-Mexicano de investigación en Bibliotecología y Documentación, UNAM, Centro Universitario de Investigaciones Bibliotecológicas, pp. 187-206. Python.org. Rijsbergen, C.J. (1979). Information retrieval. London: Butterworths. © Copyright Universidad Europea. Todos los derechos reservados. 7 Proyecto de computación I Tema 4. Datos Abiertos (Open Data) Rogers, J. D. y Tanimoto, T. T. (1960). A computer program for classifying plants. Science, pp. 1115-1118. Rusell, S. y Norvig, P. (2004). Inteligencia artificial: un enfoque moderno. Prentice Hall. Salton, G. y McGill, M. J. (1983). Introduction to Modern information retrieval. New York: Mc Graw Hill. Singhal, A. (2001). Modern information retrieval: a brief overview. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. Sierra Araujo, Basilio. (2006). Aprendizaje automático: conceptos básicos y avanzados. Pearson Prentice Hall. Sci-kit Learn Software. © Copyright Universidad Europea. Todos los derechos reservados. 8 Proyecto de computación I Tema 4. Datos Abiertos (Open Data) © Todos los derechos de propiedad intelectual de esta obra pertenecen en exclusiva a la Universidad Europea de Madrid, S.L.U. Queda terminantemente prohibida la reproducción, puesta a disposición del público y en general cualquier otra forma de explotación de toda o parte de la misma. La utilización no autorizada de esta obra, así como los perjuicios ocasionados en los derechos de propiedad intelectual e industrial de la Universidad Europea de Madrid, S.L.U., darán lugar al ejercicio de las acciones que legalmente le correspondan y, en su caso, a las responsabilidades que de dicho ejercicio se deriven. © Copyright Universidad Europea. Todos los derechos reservados. 9