Tema 4: Base de Datos en Internet PDF
Document Details
Uploaded by Deleted User
Universidad, Grado en Periodismo
Tags
Summary
Este documento presenta una introducción a las bases de datos en internet, enfocado especialmente en formatos como PDF y HTML. Explica técnicas de acceso y tratamiento de archivos PDF, cómo extraer información de tablas HTML, y el concepto de scraping. El documento está dirigido especialmente a estudiantes de Periodismo.
Full Transcript
Tema 4 : Base de datos en internet 4.2.Tipología de datos en internet. Grado en Periodismo. Curso 1º. Gestión de Base de Datos. Contenido Formatos de datos en la web Técnicas de acceso y tratamiento de PDF’s Técnicas de acceso a Tablas de HTML...
Tema 4 : Base de datos en internet 4.2.Tipología de datos en internet. Grado en Periodismo. Curso 1º. Gestión de Base de Datos. Contenido Formatos de datos en la web Técnicas de acceso y tratamiento de PDF’s Técnicas de acceso a Tablas de HTML Periodismo Base de Datos de uso en Técnicas de acceso a contenidos en la web (scraping) Herramientas para tratar Base de datos propietarias Portales de Datos Abiertos (Open Data) 2 Objetivos Introducción a las principales técnicas de acceso a datos en internet Habituarnos con la nomenclatura. Conocer las diferentes herramientas y técnicas que nos permitan Periodismo Base de Datos de uso en tratar los diferentes formatos de datos en Internet 3 Formatos de datos en la web En el primer tema vimos que la información se podría clasificar de la siguiente manera: Base de datos relacional (oracle, SqlServer, Access,etc..) Base de datos documentales (Alfresco, Estructurada Drive, SharePoint, Documentum,etc..) Otras bases de datos Periodismo Base de Datos de uso en Ficheros XML Información Semi-estructura Base de datos No-SQL Ficheros de texto (e-mails, foros, PowerPoint, Word, etc..) No estructurada No texto ( flash, videos, etc…) 4 Pero en internet los formatos más comunes a los que nos vamos a encontrar son: Formatos de datos en la web Los más extendidos: Portales OpenData (XLS, CSV, JSON, RDF, etc..) PDF WEBS Periodismo Base de Datos de uso en (HTML) Base de datos (*) 5 (*) Principalmente BBDD SQL (entre ellas Microsoft Access, extensión mdb). PDF (Portable Document Format) Es un formato de almacenamiento para documentos digitales independiente de plataformas de software o hardware. Este formato es de tipo compuesto (imagen vectorial, mapa de bits y texto). Fue inicialmente desarrollado por la empresa Adobe Systems, oficialmente lanzado como un estándar abierto el 1 de julio de 2008 y publicado por la Organización Periodismo Base de Datos de uso en Internacional de Estandarización (ISO) como ISO 32000-1. El formato PDF es uno de los más populares a la hora de publicar información, a pesar de que no está pensado para la reutilización de dicha información: al convertir a PDF mucha de la estructura original de la información se pierde, lo cual complica su uso posterior. 6 Origen PDF’s Dentro de los ficheros PDF es fundamental distinguir, a la hora de trabajar con ellos, dos tipos, en función de su origen tenemos: PDFs generados a partir del escaneo de un documento físico En estos casos el PDF es una foto (compuesta por puntos blancos y negros), y Periodismo Base de Datos de uso en no contiene el texto original. Puedes saber que es una imagen haciendo click en el documento. Verás que se te ilumina todo en azul. PDFs generados “digitalmente” A partir de programas como Word, Excel u Open Office. Se distinguen porque al abrirlos podemos seleccionar un fragmento de texto, y también podemos hacer búsquedas por palabras. 7 Origen PDFs Origen PDF Periodismo Base de Datos de uso en Imagen Generado escaneada electrónicamente Formato Tablas complejo 8 PDF’s Escaneados Para extraer la información de este tipo de ficheros es necesario emplear programas de “Reconocimiento Óptico de Carácteres” (OCR en inglés), que intentan reconocer el texto original a partir de “las manchas negras sobre fondo blanco” que aparecen en la imagen. La precisión del resultado depende de la nitidez de la Periodismo Base de Datos de uso en imagen original, y de la calidad del programa empleado, pero nunca es del 100%, y requiere una revisión “manual” posterior. 9 Herramientas para tratar PDF’s Escaneados Free OCR (http://www.free-ocr.com/) Para extraer texto que está publicado en formato de imágenes, lo que les ocurre a ciertos PDFs. Onlineocr (http://www.onlineocr.net/) es otra herramienta para extraer texto de PDFs escaneados o fotografías. Periodismo Base de Datos de uso en ExtractPDF (http://www.extractpdf.com/) Para extraer texto, imágenes y fuentes de PDFs. Sin registro ni instalaciones. VeryPDF (http://www.extractpdf.com/) reconoce letras también de imágenes Google Docs Una alternativa gratuita, sencilla, y de calidad generalmente aceptable, es usar la conversión integrada en Google Docs. 10 PDF’s Digitales Para convertir un PDF “digital” a un documento con el que podamos trabajar (es decir, en una hoja de cálculo, como Excel, por ejemplo), podemos usar programas comerciales (PDF Converter, Nitro PDF, Acrobat Pro...), pero existen también servicios webs gratuitos, entre los que destacan: Cometdocs (http://www.cometdocs.com/) Herramienta on line y gratuita para convertir documentos a diversos formatos. Ideal para transformar PDFs en Excels, CSV… Periodismo Base de Datos de uso en Zamzar (http://www.zamzar.com/) Excelente herramienta para convertir variados tipos de formato de texto, foto y vídeo, entre otros. Tabula (http://tabula.nerdpower.org) Para extraer datos de PDF PDFtoExcelonline (https://www.pdftoexcelonline.com/) De PDF a Excel ExtractPDF (http://www.extractpdf.com/) Para extraer texto, imágenes y fuentes de PDFs. Sin registro ni instalaciones. PDF to excel (http://www.pdftoexcel.org) 11 Es muy importante que revises los datos y los limpies, porque no siempre la conversión funciona perfectamente. PDF’s Digitales con datos complejos Los servicios de conversión automáticos dan buenos resultados con ficheros PDF “sencillos” que contienen tablas bien delimitadas, pero generalmente no son capaces de convertir correctamente casos más complejos como una página de un boletín oficial, en la que el texto aparece en varias columnas, con líneas partidas y múltiples encabezamientos, como en el siguiente ejemplo: Periodismo Base de Datos de uso en En estos casos es necesario: 1. Convertir el fichero PDF a formato texto con una herramienta gratuita de las comentadas. 12 2. Escribir un programa a medida para extraer los datos. Para eso probablemente necesitarás la ayuda de un programador. Técnicas de acceso a Tablas de HTML Si queremos extraer una tabla de una página web la opción de copiar en el navegador y pegar en la hoja de cálculo no suele funcionar correctamente, ya que generalmente se pierde la estructura de la tabla (es decir, el hecho de que los datos están distribuidos en filas y columnas). Aquí nos podemos ayudarnos de extensiones en nuestros navegadores: 1. Table2Clipboard en Firefox Periodismo Base de Datos de uso en 1. TableCapture para Chrome (https://youtu.be/mYBk-XPwEJk) 1. Importar páginas web en Google Docs (IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India";"table";4 ) 13 Técnicas de acceso a contenidos en la web (scraping) Se conoce como scraping al arte de controlar de manera automatizada sitios web con el propósito de extraer datos publicados que son de nuestro interés. El mejor modelo para hacer scraping es en el que existe un programa “orquestador” que puede estar en cualquier lenguaje de programación y que controla a un explorador web. Periodismo Base de Datos de uso en 14 Técnicas de acceso a contenidos en la web (scraping) Una herramienta útil y fácil de utilizar es HTTrack, el cual se define como un copiador de sitios web. Está disponible en varios sistemas operativos y acompañado de algunas opciones y parámetros nos permite descargar todos los elementos estáticos del sitio y los modifica para que funcione localmente. Es importante aclarar que no trae aquellos objetos dinámicos del sitio a menos que sean accesibles desde links dentro del mismo sitio. Otros: Talend Open Studio for Data Integration/ Big Data, IMacros Enterprise Edition ,Wget | Periodismo Base de Datos de uso en HTTrack, WAMP Server 15 Más información: http://www.httrack.com/html/step.html Herramientas para tratar Base de datos propietarias (Access) Microsoft Access es una base de datos popular que guarda la información en ficheros con extensión.MDB, que requieren disponer del programa original para ser leídos, Microsoft Access. Es posible extraer toda la información de ficheros.MDB usando la herramienta gratuita y de código abierto, MDB Tools o por el contrario habría que disponer del programa original para poder acceder a los datos (tablas y campos). Periodismo Base de Datos de uso en 16 Gobierno Abierto Garantizar que los servicios de las administraciones públicas puedan ser supervisados por la ciudadanía. Se incrementa la transparencia de la administración hacia la ciudadanía Se generan espacios de encuentro entre administración y ciudadanía Se canaliza el potencial innovador de la ciudadanía, las organizaciones privadas y Periodismo Base de Datos de uso en públicas para el beneficio de la sociedad a través de la búsqueda de soluciones a los problemas públicos Memorando Obama (2009): http://www.whitehouse.gov/the_press_office/TransparencyandOpenGov ernment 17 Memorando Obama Transparencia Rendición de cuentas hacia la ciudadanía La administración proporciona datos a la ciudadanía Participación Intervención de la ciudadanía en las actividades del gobierno La ciudadanía proporciona datos a la administración Periodismo Base de Datos de uso en Colaboración Ciudadanía, sector público y privado ayudan a solventar los problemas públicos ….usando los datos disponibles y su conocimiento En España Ley información 19/2013, pública de 9 de diciembre, de transparencia, acceso a la información pública y de buen gobierno. 18 Gobierno abierto El gobierno abierto surge como un nuevo modelo de relación entre los gobernantes, las administraciones y la sociedad El acceso a la información es fundamental. Gobierno Leyes y políticas de Periodismo Base de Datos de uso en abierto transparecnia Datos Datos públicos abiertos Reutilización de 19 RISP la Información del Sector Público Datos abiertos Datos libremente accesibles y reutilizables Única condición de la atribución Periodismo Base de Datos de uso en Creative Commons Reconocer explícitamente al Attribution 4.0 autor Licencias recomendadas por OKFN Posibilidad de tener una versión cerrada de los datos ODC Open Database License siempre y cuando se (ODbL) sumisnistre una versión abierta 20 Datos abiertos Favorecer la reutilización Periodismo Base de Datos de uso en 21 Datos abiertos Creación del estandar de datos abiertos: http://5stardata.info/en/ Periodismo Base de Datos de uso en 22 Decálogo de apertura de datos 1. Publicar datos en formatos abiertos y estándares 2. Usar esquemas y vocabularios consensuados y utilizar metadatos abiertos 3. Inventario en un catálogo de datos estructurado 4. Datos accesibles desde direcciones web persistentes y amigables Periodismo Base de Datos de uso en 5. Exponer un mínimo conjunto de datos relativos al nivel de competencias del organismo y su estrategia de exposición de datos 6. Compromiso de servicio, actualización y calidad del dato, manteniendo un canal eficiente de comunicación reutilizador 7. Monitorizar y evaluar el uso y servicio mediante métricas 8. Datos bajo condiciones de uso no restrictivas y comunes 9. Evangelizar y educar en el uso de datos 10. Recopilar aplicaciones, herramientas y manuales para motivar y facilitar la reutilización 23 Impacto de datos abiertos Impacto social Impacto económico Periodismo Base de Datos de uso en Rendición de cuentas, Modelos de negocio transparencia, democracia basados en la reutilización participativa, etc. de datos 24 RISP y la “economía del dato” El sector público recopila, produce, reproduce y disemina datos en el desarrollo de sus ¿Cómo generar impacto RISP - Reutilización de funciones y actividades económico? Información del Sector Público Mapas, meteorología, tráfico, Habilitar que estos datos puedan datos financieros, subvenciones, ser utilizados por terceros con planes urbanísticos, acuerdos fines comerciales y no políticos, etc. comerciales Periodismo Base de Datos de uso en Neelie Kroes Vicepresidenta de la Comisión Europea responsable de la Agenda Digital (hasta noviembre 2014) “Los datos son el combustible de la nueva economía, [...], el nuevo petróleo de la era digital” Los datos y la tecnología se pueden asociar para generar valor económico a través servicios de valor añadido Datos públicos que se reutilizan para añadirles valor y que la ciudadanía los aproveche 25 RISP y la “economía del dato” A nivel nacional, el volumen de negocio asociado directamente a la actividad de las empresas que generan aplicaciones, productos o servicios de valor añadido destinados a terceros, a partir de datos abiertos, se sitúa entre los 1.000 y 1.200 millones de euros ONTSI - Observatorio Nacional de las Telecomunicaciones y de la Sociedad de la Información (2014). Estudio de caracterización del sector infomediario en España http://datos.gob.es/content/estudios-de-caracterizacion-del-sector- Periodismo Base de Datos de uso en infomediario-2014 A nivel internacional el beneficio económico (directo e indirecto) de la reutilización de datos abiertos a nivel europeo se estima en unos 200 billlones de euros (1.7% del PIB europeo) anuales World Bank (2014). Open data for economic growth. http://www.worldbank.org/content/dam/Worldbank/document/Open-Data-for- Economic-Growth.pdf Las PYME crecieron un 15% más con información geográfica gratuita versus información de pago (Finlandia 2011) http://epsiplatform.eu/content/finnish-study-psi-pricing-geo-data 26 Ejemplo de aplicaciones Citymapper Sin Barrera Sugiere trayectos combinando transportes Buscador de espacios accesibles, públicos aparcamientos adaptados Periodismo Base de Datos de uso en ¿Dónde van mis impuestos Málaga City Sense Visualización sencilla y atractiva de gastos Permite al usuario colaborar activamente anuales de la administración con la ciudad en la generación de datos abiertos a través de los sensores de su smartphone MeteoRoute Itinerarios según datos meteorológicos 27 Portal de datos abiertos Sitio web donde una organización publicará todos sus datos Facilidad para que terceras personas consulten y reutilicen los datos Infomediarios y ciudadanía en general Enfocados en el dato como unidad principal de interacción Periodismo Base de Datos de uso en Algunas características Catálogo de datos Metadatos Búsqueda de datos Visualización API 28 Portal de datos abiertos Portales Públicos OpenData España: http://datos.gob.es OpenData Estados Unidos: http://www.data.gov/ OpenData UK: https://www.data.gov.uk OpenData Unión Europea: https://open-data.europa.eu/es/data# Periodismo Base de Datos de uso en Censo de EEUU: http://www.census.gov/ OpenData Euskadi: http://opendata.euskadi.eus/w79-home/es OpenData Aragón: http://opendata.aragon.es Hubs de portales Hub de Portales: http://datahub.io/es/ Open Data @ CTIC. Blogs sobre open data y reutilización de datos: http://datos.fundacionctic.org/ CTIC publica unmapa con todas las instituciones públicas del mundo que ofrecen información en abierto –OpenData-: http://datos.fundacionctic.org/sandbox/catalog/faceted/ Catalogo general de base de datos: http://opengovernmentdata.org/data/catalogues/ 29 Google Public Data explorer: http://www.google.com/publicdata/directory?hl=es Tema 4 : Base de datos en internet 4.1 Conceptos fundamentales de Internet y tecnologías Web Grado en Periodismo. Curso 1º. Gestión de Base de Datos Contenido Breve Historia de Internet Tipologías de las web (web 1.0, web 2.0, web 3.0, web 4.0) Conceptos fundamentales de Internet Periodismo Base de Datos de uso en Tecnologías web 2 Objetivos Introducción a los conceptos de internet Habituarnos con la nomenclatura Conocer las diferentes protocolos y contenidos disponibles en internet Periodismo Base de Datos de uso en 3 Breve Historia de Internet ARPAnet se desmantela y aparecen. MILNET: ARPA partiendo de las caracter experiencias y militar.INTERNET: Agencia de Proyectos conocimientos en el naturaleza de Investigaciones campo de las pública,orientada al avanzadas de tecnologías de redes mundo académico y Defensa (ARPA) crea ARPAnet científico e industrial Periodismo Base de Datos de uso en 1957 1967 1969 1970 1990 Hombre llega a la Protocolo TCP/IP luna. Marca el inicio de las comunicaciones globales. 4 World Wide Web La Web, o World Wide Web, es un medio de comunicación de texto, gráficos y otros objetos multimedia a través de internet. Es un sistema de hipertexto que utiliza Internet como su mecanismo de transporte, una forma gráfica de explorar Internet PRINCIPALES SERVICIOS: Periodismo Base de Datos de uso en Correo Electrónico (E-Mail) - Listas de correos World Wide Web Transferencia de archivos (FTP) Buscadores News Conferencias (Chat services) y Talk Otros servicios: Ping Telnet 5 Central de fax, Voz y vídeo, etc. La web 1.0 En 1991, Tim Berners Lee, crea la World Wide Web mas conocida como WWW. Propuso un nuevo sistema de "hipertexto" para compartir Documentos. HyperText Markup Language Periodismo Base de Datos de uso en (Lenguaje de Marcas de Hipertexto) Definición de la web 1.0 : “Sistema basado en hipertexto, que permite clasificar información de diversos tipos , conocido como la gran telaraña mundial”. Funciona por hipertexto y gráficos e incluye efectos multimedios. Es considerado como el acceso más sencillo y comprensible al universo de la información disponible en Internet. 6 Enlaza páginas o documentos localizados en la red sin importar su ubicación física o geográfica. La web 1.0. Protocolos Http: Protocolo de transferencia de hipertexto (HyperText Transfer Protocol) Periodismo Base de Datos de uso en Html: Un formato hipertextual y hipergráfico para publicar documentos en la red. Creado para codificar y visualizar documentos. Incluye formatos, layout y estructura de un documento web. 7 La web 1.0. Características Pocos productores de contenidos. Muchos lectores de estos contenidos. Paginas estáticas. La actualización de los sitios no se realiza en forma periódica. Sitios direccionales y no colaborativos. Los usuarios son lectores consumidores. Periodismo Base de Datos de uso en Interacción mínima reducida a formularios de contacto. inscripción boletines, etc. Evolución: ○ 1.0 (1994-1997): Es un tipo de web estática con documentos que jamás se actualizaban y los contenidos dirigidos a la navegación (HTML. GIF). ○ 1.5 (1997-2003): Las páginas web son construidas dinámicamente a partir de una o varias bases de datos. 8 (Nota: todos estos términos nacieron una vez que O’Reilly definiera la Web 2.0 como un nuevo paradigma.) La web 2.0. Segunda generación de Web basada en comunidades de usuarios. Se pasa de una web informativa, creada por Tim O’Reilly expertos a una web social, donde cualquiera puede participar fácilmente. Periodismo Base de Datos de uso en Aparecen aplicaciones Web muy potentes y sencillas de manejar enfocadas al usuario final. Basa su desarrollo en CMS (Sistemas de 9 Gestión de Contenidos). Sistema de Gestión de Contenidos (CMS) Un Sistema de Gestión de Contenidos (Content Management System), permite la creación y administración de contenidos principalmente en páginas web. Consiste en una interfaz que controla una o varias bases de datos donde aloja el contenido. El sistema permite manejar de manera independiente el contenido y el Periodismo Base de Datos de uso en diseño. Paginas dinámicas (PHP, ASP, Java). Paginasde Evolución estáticas los CMS: Gran flexibilidad. (HTML). Edición a Paginas dinámicas Crecimiento de las mano. Difícil (CGI) Gestores comunicaciones de actualización. complicados(CGI). usuario. Contenido y diseño Poca flexibilidad. Separación total unidos. entre presentación y contenido. 10 Web 2.0 Características ▪ “El usuario es el centro”: ○ Protagonista usuario que crea y comparte. ▪ Participación: ○ Conocimiento compartido en base a la suma de esfuerzos Periodismo Base de Datos de uso en individuales. ○ Cuantos más usuarios comparten mayor utilidad del servicio. ▪ Usabilidad (facilidad de utilización de las herramientas): ○ No es necesario grandes conocimientos técnicos para crear un espacio en internet con contenidos que sean accedidos por otros 11 usuarios. Web 2.0. Tecnologías Tecnologías empleadas: XHTML (o HTML) y CSS ○ Presentación de datos Document Object Model (DOM)Document ○ Mostrar e interactuar dinámicamente con la información XML y XSL Periodismo Base de Datos de uso en ○ Intercambiar y manipular datos con el servidor XMLHttpRequest ○ Recuperación y envío de datos de modo asíncrono JavaScript ○ Nexo de unión 12 Web 2.0. Blogs Espacios web donde un usuario escribe cronológicamente artículos y los lectores dejan sus comentarios. Son sitios web periódicamente actualizados que recopila Periodismo Base de Datos de uso en cronológicamente textos o artículos de uno o varios autores. Existen weblogs de tipo personal, empresariales o corporativos, periodístico, etc. 13 Web 2.0. Wiki Un wiki (del hawaiano wiki wiki «rápido»)wiki, es: ○ Una colección de páginas hipertexto. Pueden ser visitadas y editadas por cualquier persona en Periodismo Base de Datos de uso en cualquier momento. Básicamente son un editor de texto online que permite que sus contenidos sean escritos de forma colaborativa a través de un navegador, utilizando una notación sencilla para dar formato, crear enlace, etc.. 14 Web 2.0. RSS ▪ RSS. Really Simple Sindication. ▪ Formato que permite que unos programas llamados agregadores presenten el contenido de una página web sin necesidad visitarla. Periodismo Base de Datos de uso en ▪ Usando un agregador, el Internauta puede suscribirse a varias páginas web y recibir automáticamente todas las novedades de las páginas en un único sitio. 15 Web 2.0. Ejemplos ❖Google ❖Emule ❖Wikipedia ❖Ebay ❖Youtube ❖Skype ❖Writely Periodismo Base de Datos de uso en ❖Blogger ❖Flickr ❖Facebook 16 LA WEB 3.0 ▪ En general, se asocia la Web 3.0 a una nueva etapa destinada a añadir significado a la Web, y por tal motivo se acuerda con Tim Berners-Lee, el creador de la World Wide Web, en llamarla Web Semántica. ▪ Todavía no se ha incorporado el cambio de actitud que implica la Web 2.0, cuando ya se habla de Web 3.0, como de una realidad inminente que promete transformar no sólo nuestra experiencia Web, sino toda nuestra cotidianidad. Web Semántica se remonta al año 2001 (el término proviene del griego sémantikós, tener sentido). WEB 3.0 : LA WEB SEMANTICA ▪ En febrero de 2004, el World Wide Web Consortium (W3C) publicó las recomendaciones para el RDF y el Ontology Web Language (OWL), Este último describe la función y relación de cada uno de los componentes de la Web Semántica. DEFINICIONES DE WEB 3.0 ▪ Si bien, en general, se asocia el término al de Web Semántica (acuñado por Tim Berners-Lee, quién inventó la Web a principios de los 90), cabe acotar que no existe total consenso acerca de lo que significa la Web 3.0. Aunque se coincide en que esta etapa añadirá significado a la Web, no hay acuerdo sobre cuáles son los caminos más apropiados para su desarrollo. ▪ Dado que los avances de esta disciplina son demasiado lentos y dificultosos, la solución podría estar en la combinación de las técnicas de inteligencia artificial con el acceso a la capacidad humana de realizar tareas extremadamente complejas para un ordenador. En cualquier caso, el aumento de la interactividad y de la movilidad son dos factores que muchos señalan como decisivos en esta nueva etapa de la Web. ▪ Básicamente, tienen que ver con los avances y proyectos en curso que tienden a una cada vez mayor y más eficiente incorporación de la Web a la cotidianidad. Se habla así, de conceptos tales como: Web 3D, Web centrada en multimedia y Web permanente. ▪ Según otro punto de vista similar, la Web 3.0 es "la Web Semántica, una Web 3D, una web centrada en los medios de comunicación, una Web extendida, una gran base de datos presenta como páginas Web, o una combinación de todos ellos (Metz, 2007; Murugesan, 2007) ". CARACTERÍSTICAS DE LA WEB 3.0 ▪ Web Semántica: - Al mejorar las conexiones entre los bloques de información facilita las aplicaciones de software que se puede anticipar lo que realmente quieres saber o hacer. Por ejemplo, cuando usted lea acerca de una película en la Web, usted puede inmediatamente obtener enlaces a una gran cantidad de contenido y servicios relacionados. ▪ 3D Web: - Esto le permite presentar imágenes tridimensionales en la Web y por lo tanto para crear mundos virtuales. La Web como un espacio 3D presenta varias oportunidades para nuevos servicios, incluyendo nuevas formas de vivir prácticamente en línea. ▪ Media-centric Web: - Esto se refiere medios avanzados en Web. Entre otras cosas, se te podría ayudar a encontrar los medios de medios de comunicación, también conocida como una "búsqueda visual". Por ejemplo, mediante la presentación de una fotografía de un edificio o de su pintura favorita a un motor de búsqueda, usted puede conseguir varias fotos que son similares a la que se le presenta al motor de búsqueda. Del mismo modo, se puede recuperar una canción entera desde un motor de búsqueda cuando se presente una pequeña sección de la canción. ▪ Pervasive Web: - Internet y la Web será más penetrante como muchos aparatos y artículos para el hogar, tales como televisores, refrigeradores, hornos de microondas y calentadores están conectados a Internet y disponer de un navegador Web integrado para acceso a Internet. ▪ Base de datos como páginas web: - Podemos acceder y gestionar una base de datos como páginas Web de manera abierta y sencilla. También podemos tener control sobre nuestros datos a través de las páginas Web. DE LA WEB 2.0 A LA WEB 3.0 Transición de aplicaciones “Web semántica“ Genera colaboración y Contenido, significado y la servicios relación de los datos Nuevos proyectos en Internet Mayor capacidad de interacción entre los sistemas informáticos Concepto de Web 2.0 Menor mediación de Renacimiento y evolución de operadores humanos la Web ¿ WEB 4.0 ? ▪ Mientras que la Web 3.0 está avanzando y está marchando hacia la adopción corriente principal pronto, el nombre de la siguiente fase en la evolución de Internet Web 4.0, o "Web X.0". ▪ El objetivo de la Web 4.0 es añadir sofisticación que más y más altos niveles de inteligencia. Por ejemplo, en una aplicación Web 4.0, el software agente (s) de roaming a través de Internet o, simplemente, que reside en su computadora puede razonar y comunicarse con otros agentes tales y sistemas y trabajar en equipo para lograr las cosas por su nombre. Web 4.0 es también conocido como "inteligente Web" o "web inteligente". DE LA WEB 3.0 A LA WEB 4.0 ▪ La Web 3.0 están contenidas públicamente en páginas Web, salvo raras excepciones, son difícilmente entendibles por los ordenadores y tienen significado principalmente para las personas. Se trata, pues, de añadir información adicional con una estructura tal que pueda ser entendida por los ordenadores quienes por medio de técnicas de inteligencia artificial serían capaces de emular y mejorar la obtención de conocimiento hasta el momento reservada a las personas. Se trata de dotar de significado a las páginas Web, por lo que la Web evoluciona cada cierto tiempo dando paso a diferentes sistemas que nos permiten conocer a fondo las páginas Web. ▪ El estudio de Nova Spivack sitúa eventos razonables en la evolución de la Web, que estará marcada por la entrada en juego de la web semántica y que tendrá su periodo de vigencia entre el 2010 y el 2020. Más allá Spivack sitúa otro concepto, el de WebOS, que podría marcar el paso a la Web 4.0. ▪ El desarrollo de la Web 3.0 y sus tecnologías llevarán hacia la Web 4.0, la Web Ubicua, donde el objetivo primordial será el de unir las inteligencias donde tanto las personas como las cosas se comuniquen entre sí para generar la toma de decisiones. Para el 2020 se espera que haya agentes en la Web que conozcan, aprendan y razonen como lo hacemos las personas. CARACTERÍSTICAS DE LA WEB 4.0 ❖ Rec Ubicua: - La llamada ubicomp (computación ubicua) es un paradigma diferente en el uso de servicios y recursos. Es lo opuesto a la realidad virtual. En ella la persona entra en el mundo de las computadoras. En la concepción ubicomp las comunicaciones y la computación entran en la vida cotidiana a un nivel no solamente global, sino estableciendo redes pequeñas, dimensionadas según fines específicos y breves. ❖ Pueden tener usos tan variados como seguimiento y cuidado médico o soporte para la vida independiente de menores, ancianos o discapacitados, docencia on line, discusiones en grupos pequeños en movimiento haciendo experiencias de campo, militancia o revisiones y controles, etc. Además a la vez se puede enlazar con señales digitales terrestres para construir pequeñas redes emisoras de televisión. No se trata de una forma excluyente sino complementaria de la comunicación que usamos habitualmente, sólo que pasaremos a la global cuando sea necesario y automáticamente, nuestros receptores, teléfonos, computadoras, IPad, incluso, pueden decidir por sí mismos si usar una red ubicomp o una global, proponernos opciones y ahorrarnos esfuerzo y dinero. ❖ Factor económico: Los protocolos son de código abierto y no es necesario pagar servicios de telefonía de las corporaciones globales, en lugar de grandes servers se pueden usar muchas computadoras y antenas caseras. El protocolo de enlace, SLP (Service Location Protocol) que permite cambiar de una red global a una ubicua es gratis y está siendo aplicado e impulsado en Europa y Canadá para personas con discapacidad o para información turística o a nivel de comunidades locales, como en el caso de Trondheim, el pueblo noruego del niño del autobús que tiene estas redes que se llaman redes sociales instantáneas (porque la red existe sólo el tiempo que la usamos), en el transporte y edificios públicos y hasta barrios enteros. DIFERENCIAS ENTRE WEB 3.0 Y WEB 4.0 Web 3.0 Web 4.0 Aplicaciones de Web conectadas a aplicaciones de Web Web Ubicua Permite autonomía respecto al navegador Unir las inteligencias Añade significado (red semántica) Combinación de técnicas de inteligencia Artificial La Web que conozca, aprenda y razone como las personas Cloud Computing, Micro-networks EVOLUCIÓN DE LA WEB El uso de Internet ha experimentado una evolución significativa en los últimos años, marcada por hitos tecnológicos y cambios en la forma en que las personas interactúan con la red. Algunos de los aspectos destacados de esta evolución incluyen: Crecimiento exponencial de usuarios: El número de usuarios de Internet ha experimentado un crecimiento constante, con casi dos tercios de la población mundial conectada a la red. Nuevos medios de comunicación y redes sociales: La llegada de plataformas como Skype, YouTube, Gmail y las redes sociales ha transformado la forma en que las personas se relacionan y comparten información. Avances tecnológicos: La evolución de Internet ha propiciado la creación de nuevas herramientas digitales que benefician a las empresas, así como la popularización de conceptos como Internet de las Cosas (IoT). Cambios en la arquitectura y modelos de negocio: En los últimos años, se ha producido un drástico cambio en la arquitectura y los modelos de negocio de Internet, lo que ha generado debates sobre la contribución justa de las grandes empresas de Internet y la necesidad de revisar los supuestos originales de la red. Cuadro Resumen de las webs La historia de Internet y las diferentes versiones de la web han transformado la forma en que interactuamos, compartimos información y realizamos actividades en línea. Estas evoluciones continúan moldeando el panorama digital y condicionarán el futuro en internet. Versión Características Web 1.0 Web estática, unidireccional, informativa. Web 2.0 Interactividad, participación del usuario, aplicaciones dinámicas, redes sociales. Web 3.0 Inteligencia artificial, web semántica, descentralización, mayor personalización. Concepto teórico no desarrollado completamente.Se espera completamente autónoma, donde Web 4.0 las máquinas y la inteligencia artificial puedan tomar decisiones y acciones por sí mismas. Tecnologías webs A continuación describiremos las principales tecnologías web que son fundamentales para el desarrollo y funcionamiento de sitios y aplicaciones web, permitiendo la creación de interfaces de usuario, estableciendo comunicaciones con el servidor y facilitando la implementación de comportamientos de la web tanto en el lado del cliente/usuario de internet como en el lado del servidor/ servidores webs. Tecnología Descripción Ejemplos de uso Lenguaje de marcado para la creación de sitios web. Describe el HTML5 Creación de páginas web, estructuración de contenido. contenido de un sitio web. Lenguaje de diseño gráfico que define la presentación de CSS Estilización y diseño visual de páginas web. documentos HTML. Periodismo Base de Datos de uso en Lenguaje de programación que permite la creación de contenido Desarrollo de aplicaciones web interactivas y JavaScript interactivo en páginas web. dinámicas. Lenguaje de programación del lado del servidor ampliamente PHP Desarrollo de aplicaciones web dinámicas y sitios web. utilizado en el desarrollo web. Lenguaje de programación versátil utilizado en el desarrollo web y Python Desarrollo de aplicaciones web, análisis de datos. en la creación de aplicaciones. Plataforma para el desarrollo de aplicaciones empresariales en JavaEE Desarrollo de aplicaciones empresariales y web. Java. 28 Entorno de ejecución para JavaScript que permite el desarrollo de Desarrollo de aplicaciones web escalables y de alto Node.js aplicaciones del lado del servidor. rendimiento. Internet post Pandemia La pandemia ha tenido un impacto significativo en el uso de Internet, con un aumento notable en la actividad en línea y el consumo de contenidos digitales. Algunos de los efectos observados incluyen: Crecimiento del número de usuarios y tiempo de uso: Durante la pandemia, se ha registrado un aumento en el número de usuarios de Internet a nivel mundial, con un incremento del 7,3% en el último año, lo que representa casi el 60% de la población mundial. En España, por ejemplo, se ha observado que casi 43 millones de ciudadanos son usuarios de Internet, con un promedio diario de 6 horas y 11 minutos navegando por la web. Periodismo Base de Datos de uso en Auge de las redes sociales y el entretenimiento online: El uso de redes sociales ha experimentado un crecimiento significativo, con un aumento del 13% en el número de usuarios de redes sociales a nivel mundial, lo que representa 490 millones de nuevos usuarios. Además, el entretenimiento online, incluyendo el gaming y el streaming, ha experimentado un aumento rápido durante la pandemia. Digitalización acelerada: La pandemia ha acelerado la digitalización en diversos aspectos, desde la educación y el teletrabajo hasta el comercio electrónico y el entretenimiento en línea. Se ha observado un avance equivalente a varios años en la adopción digital en un corto período de tiempo. Estos cambios reflejan la importancia creciente de Internet como una herramienta fundamental 29 para la comunicación, el trabajo, la educación y el entretenimiento, especialmente en el contexto de la pandemia y post-pandemia. ENLACES DE INTERÉS INTERNET Y WWW Web 1.0 https://es.wikipedia.org/wiki/Web_1.0 Web 2.0 https://es.wikipedia.org/wiki/Web_2.0 http://www.w3c.es/Divulgacion/GuiasBreves/W Web Semántica ebSemantica W3c http://www.w3c.es/ https://es.wikipedia.org/wiki/Computación_ubi Computación ubicua cua Periodismo Base de Datos de uso en Ciudad Inteligente web 4.0 http://songdoibd.com/about/ Evolución de Internet: su crecimiento y https://telefonicatech.com/blog/evolucion-de-i desarrollo a favor de la empresa nternet https://www.stackscale.com/es/blog/internet-e Internet: evolución y estadísticas volucion-estadisticas/ El drástico cambio de Internet en los https://www.telefonica.com/es/sala-comunicac últimos 10 años ion/blog/el-drastico-cambio-de-internet-en-los- ultimos-10-anos/ 30 https://www.newtral.es/pandemia-redes-social La pandemia que nos volcó a las redes es-digitalizacion-covid-19/20210317/#google_vi gnette TEMA III: ESTRUCTURA DE LA INFORMACIÓN EN LAS BASES DE DATOS DOCUMENTALES Grado en Periodismo. Curso 1º. Gestión de Base de Datos. Roberto Dale Valdivia. 1 Estructura de la información en las Bases de Datos Documentales 2 Contenido 3.1. Mecanismos de acceso a Bases de Datos Documentales. 3.2. Estructura de almacenamiento de la información documental. 3.3. Tipos y tratamiento de los documentos. 3.4. Recuperación de la información. Búsquedas y Herramientas. 2 Estructura de la información en las Bases de Datos Documentales 3 Introducción Este tipo de base de datos esta orientada exclusivamente a gestionar de forma efectiva el almacenamiento y acceso a documentos. En las bases de datos documentales (BDD) cada registro se corresponde con un documento. Dentro de la denominación genérica de BDD existe una variedad de modelos que pueden diferir tanto en: Contenido (tipos de documentos que escriben). Como en la propia estructura de éstas de las mismas. En general existen diferentes criterios para la clasificación de las BDD: Según el organismo productor. Según el modo de acceso. Según su cobertura temática. Según su cobertura documental. Según el modelo de tratamiento documental. Sistema Gestor de Base de Datos Documental. (DDBMS) Recordemos algunos de los conceptos que ya estudiamos en el Tema I. EL ORGANISMO PRODUCTOR (es decir por el realizador) Organismos públicos: Por una parte tenemos las de acceso público, (Que pueden ser o no gratuitas) y las de uso interno, cuya información es de acceso restringido. Instituciones sin ánimo de lucro: ONG’s, Sindicatos, Fundaciones,… Entidades privadas: BDD para el uso interno de la empresa que incluso podrían permitir ciertos accesos desde el exterior. Por otra parte encontramos las BDD meramente comerciales. De cooperación en red: Son BDD desarrolladas por el interés común de varias instituciones, individuos o empresas. SEGÚN EL MODO DE ACCESO QUE DESARROLLAMOS EN EL SIGUIENTE APARTADO (3.1). SEGÚN SU COBERTURA TEMÁTICA (pueden ser multidisciplinares o especializada en tan solo cierta disciplina). Científico‐tecnológicas. Económico‐empresariales. Medios de comunicación. 3 De ámbito político‐administrativo y jurídico. De ámbito sanitario. De índole general para el gran público. SEGÚN SU COBERTURA DOCUMENTAL De un único tipo de documento: por ejemplo solo tesis doctorales http://www.educacion.es/teseo. De varios tipos de documentos: por ejemplo, en la universidad de la rioja: http://dialnet.unirioja.es. SEGÚN EL MODELO DE TRATAMIENTO DOCUMENTAL QUE DESARROLLAMOS EN EL APARTADO (3.3). 3 Estructura de la información en las Bases de Datos Documentales 4 3.1 Mecanismos de acceso a Bases de Datos Documentales. Acceso local. Tan solo accesible desde el realizador, por ejemplo bases de datos internas de bibliotecas y centros de documentación. En soporte: Por ejemplo en CD-ROM, DVD, USB,..., Sistema muy extendido antes de la universalización de Internet. Típico de aplicaciones para sectores verticales. En línea: Son de acceso vía internet por cualquiera de sus servicios como telnet, ssh o web. Un mismo sistema de información lo podemos encontrar accesible desde distintos de éstas vías: vía internet, edición en DVD, desde una aplicación local. Cada una de estas vías puede tener su propio sistema de búsqueda o interrogación así como una forma de presentación diferente. En el acceso tradicional en línea (telnet o ssh) la consulta se puede realizar a través de una serie de menús en los que el usuario va seleccionando sucesivas opciones o también mediante ciertos lenguajes de recuperación formados por comandos y operadores. En las consultas mediante páginas web y en la mayoría de los soportes magnéticos el usuario normalmente rellena formularios en un entorno gráfico. 4 Estructura de la información en las Bases de Datos Documentales 5 3.2 Estructura de almacenamiento de la información documental. Los registros de las BDD pueden incluir o no el contenido completo de los documentos que describen. En este sentido podemos hace una división en tres categorías: Bases de datos de texto completo: son aquellas que estén constituidas por los propios documentos en formato electrónico, con su texto completo. Archivos electrónicos de imágenes: constituidos por enlaces directos a la imagen del documento original (fotografías, imágenes, un documento digitalizado). Bases de datos referenciales: sus registros no contienen el texto original sino tan sólo la información fundamental para describir y permitir la localización de documentos impresos, sonoros, iconográficos, audiovisuales o electrónicos. En una BDD bibliográfica cada registro se corresponde con una referencia de un documento original, que puede ser una publicación independiente (monografía, tesis,...) o parte de otra publicación con autonomía de contenido (artículo incluido en una revista, capítulo de un libro, actas de un congreso científico,...). Cada registro bibliográfico contiene información estructurada en campos para facilitar su control sistemático y su recuperación individualizada. Algunos campos reflejarán la descripción formal del documento y otros van destinados a reflejar su contenido temático. Las bases de datos se componen de diferentes registros con su correspondiente identificación. Según el modelo de base de datos y el tipo de documentos vaciado en la misma se establece una estructura de campos particular, por ejemplo, en una base de datos donde se incorporan referencias de artículos de revista se suelen encontrar campos como los siguientes: ‐ Autor o autores del documento original ‐ Título del artículo ‐ Título de la revista en la que aparece ‐ Año de publicación ‐ Datos fuente : volumen, número, páginas ‐ Idioma en el que está escrito el documento ‐ Clasificación que describe el tema central tratado en el documento ‐ Palabras clave que caracterizan cada uno de los temas tratados con suficiente relevancia en el artículo ‐ Resumen: texto breve que sintetiza el contenido del documento. 5 Estructura de la información en las Bases de Datos Documentales 6 3.3. Tipos y tratamiento de los documentos. Según el modelo de tratamiento documental las BDD pueden ser: Tipo resumen o sin análisis de contenido: están compuestas por referencias bibliográficas sencillas, donde el realizador solo nos proporciona los datos de la propia fuente sin realizar ningún análisis del contenido. Catálogos de bibliotecas: Estrictamente se tratan los contenidos de una biblioteca o en una red de éstas. Existe una alta homogeneidad, al hacer uso de normas internacionales en la Catalogación. BDD con análisis documental más completo: Incorporan un mayor número de opciones para facilitar la localización por materias. Cada registro bibliográfico incluye bien un resumen del contenido del documento original (Abstract) y/o un conjunto de conceptos o términos representativos de los temas tratados. Véase http://arxiv.org/abs/0906.2085. Dentro de éstas podemos distinguir: Bases de datos con clasificación y resúmenes: la búsqueda por materias se realiza generalmente a través del contenido en el título y en el resumen. Bases de datos con clasificación e indización. En este proceso de clasificación y organización se utilizan descriptores o ciertas palabras clave. Bases de datos que reúnen ambos dos requisitos. En el ámbito científico y tecnológico, tiene especial importancia el control de las citas, pues se utilizan en la elaboración de estudios de productividad científica (autores, instituciones). Resumen o sin análisis de contenido: Solamente encontramos los datos descriptivos básicos para localizar el documento, por ejemplo: autor, título y datos de la fuente. Podrían incorporar un resumen o “abstract”, generalmente realizado por el propio autor. Normalmente la búsqueda por materias tan sólo puede realizarse a través de las palabras contenidas en título del artículo, si bien en muchas áreas temáticas los títulos podrían resultar poco significativos. Catálogos de bibliotecas: Como ejemplo de este modelo en España destacamos los catálogos colectivos, de la red de bibliotecas del CSIC (http://digital.csic.es/handle/10261/46404) así como la red de bibliotecas universitarias REBIUN (http://rebiun.crue.org/). BDD con análisis documental más completo: Se caracterizan por permitir una mayor afinidad en la recuperación de la información, pero ello obliga (para un óptimo rendimiento) al usuario a conocer (o tener acceso) a los términos utilizados para la descripción del contenido de los documentos. La indización es un proceso que consiste en extraer los conceptos representativos del contenido de un documento con la ayuda de un lenguaje documental. Según algunos autores: “Es el acto de retener una o más nociones que representan el contenido de un documento y adecuarlas al lenguaje natural o documental previamente escogido por el analista". En definitiva se trata de desglosar, descifrar, 6 analizar y resumir el contenido de los documentos, para optimizar su almacenamiento, recuperación y acceso. El proceso está conformado por cuatro etapas: Revisión del contenido del documento. Selección de los conceptos. Traducción de los conceptos en descriptores (vocabulario controlado). Establecimiento de enlaces sintácticos entre los descriptores (temas relacionados). Dentro de este modelo se incluyen numerosas bases de datos especializadas, de gran importancia y prestigio internacional como: NASA (http://adsabs.harvard.edu/), INSPEC (http://www.theiet.org/resources/inspec/index.cfm),... Respecto a las citas tenemos las realizadas por el autor así como las que otros autores realizan a éste. Obsérvese, que en muchos casos se da la auto‐cita, es decir un autor en su obra cita obras de si mismo. 6 Estructura de la información en las Bases de Datos Documentales 7 3.4. Recuperación de la información. Búsquedas y Herramientas. Recordemos que la misma base de datos documental podría estar accesible por diferentes caminos: (aplicación de red, DVD, Web). Podríamos encontrarnos que cada uno de estos formatos tuviese su propio sistema de interrogación y forma de presentación diferentes. La forma clásica de consulta a través de un aplicación en línea suele ser mediante un sistema de menús donde el usuario va seleccionando sucesivas opciones o también mediante un sistema de comandos y operadores. Sin embargo, lo habitual en las consultas en páginas web y en la mayoría de los DVD es mediante la introducción de los datos requeridos en formularios que suelen contener desplegables que nos facilita la labor. Existen algunos sistemas que permiten realizar consultas que acceden a varias bases de datos simultáneamente. 7 Estructura de la información en las Bases de Datos Documentales 8 3.4. Recuperación de la información. Búsquedas y Herramientas. Sea como fuere todos los sistemas de recuperación de información permiten realizar diferentes modalidades de búsqueda, que normalmente son: Búsqueda directa: donde el usuario introduce directamente una o varias palabras en el espacio reservado a tal efecto por el sistema de interrogación en la BDD. Dentro de éste, encontramos dos modalidades: De texto libre: el usuario realiza su consulta sin tener en cuenta la estructura de campos de los registros de la base de datos. Y normalmente, el sistema busca lo indicado en la totalidad de los campos de la BDD. En campos individuales: el usuario indica directamente sobre el campo o campos que ha seleccionado previamente: autor, libro,…etc, los valores que desea buscar. Búsqueda a través de índices: en este caso el usuario tan solo puede seleccionar un conjunto de valores que constan en un diccionario o bien en los desplegables y selecciona las más adecuados a su búsqueda. Los índices se pueden realizar: por palabras: los conceptos se sumarizan en un único término. por frase: se trata de entradas compuestas por varias palabras. Búsqueda jerarquizada: la estructura jerárquica parte de un concepto genérico que permite localizar, no sólo los registros en los que aparece dicho término, sino además todos aquellos en los que figure algún concepto más específico de su campo semántico. Búsqueda a través de códigos: en ciertos campos de ciertas bases de datos la consulta no se realiza a través de un texto sino a través de códigos numéricos o alfanuméricos. De texto libre, por ejemplo si indicamos león en la BDD de la biblioteca buscaría tanto los libros del Autor, por ejemplo Diego de León, como los libros que, en su título incluyesen la palabra león, por ejemplo “Historia del león de la Metro”. A través de índices: siguiendo el ejemplo anterior, el usuario tan solo puede seleccionar los autores y libros que constan en un índice o en los desplegables. Este proceso puede parecer más lento pero es más seguro, ya que la búsqueda se adapta mejor al contenido real de los registros de una base de datos. La mayoría de los fabricantes de bases de datos establecen una relación de “palabras vacías” (preposiciones, artículos,...) para reducir el tamaño de estos índices y por lo tanto mejorar el rendimiento de la base de datos. Los términos presentes en esta relación de palabras vacías no serán consultables. Por ejemplo: apellidos y nombre del autor. La búsqueda jerarquizada sólo es posible en aquellos sistemas de información que cuenten con campos codificados (por cuestiones de rendimiento) o que utilicen lenguajes estructurados jerárquicamente en la clasificación o en los descriptores. 8 Estructura de la información en las Bases de Datos Documentales 9 3.4. Recuperación de la información. Búsquedas y Herramientas. Los sistemas de recuperación de información cuentan con diferentes herramientas para construir una estrategia y relacionar de forma clara los diferentes términos utilizados en una búsqueda: Operadores lógicos: OR: coincidencia con algunos de los elementos de una lista. AND: coincidencia con todos de los elementos de una lista. Operadores sintácticos, de proximidad o de adyacencia: se trata de mejorar el refinamiento en la búsqueda, interesa la posibilidad de combinar conceptos relacionados entre sí por criterios sintácticos. Truncado: permite la búsqueda conjunta de conceptos que comparten una misma raíz, usando cierto signo de truncado (habitualmente *, ?). Operadores numéricos y de rango. Aplicable a campos numéricos donde en los criterios de búsqueda podemos seleccionar valores mayores o menores a una cifra o comprendidos en un intervalo determinado. Acotar o limitar. La búsqueda se realizará tan sólo sobre los registros resultado de una búsqueda anterior, en vez de toda sobre la base de datos. Si buscamos los autores “Hernández” AND “Fernández” saldrán las publicaciones comunes a ambos. Pero si buscamos los autores “Hernández” OR “Fernández” saldrán todas las publicaciones en las que alguno de los autores sea cualquiera de estos dos. Los operadores lógicos se pueden combinar y en casos más complicados se debe hacer uso de los paréntesis. Operadores sintácticos, de proximidad o de adyacencia: presencia en la misma frase, el mismo párrafo o el mismo campo, aparición en determinado orden o con una separación mínima de palabras entre ellas. No es lo mismo “España” AND “Alfonso” que “España Alfonso”. Esto es similar al LIKE con el * y ? estudiado en las consultas en BDR: se realiza una búsqueda conjunta de todas las palabras de un campo que comparten un mismo comienzo, fin o raíz. 9 19/11/2024 Gestión de la información en formato digital 2.3 Consultas. Existen en Access, dos tipos de consultas: Las Consultas de Selección: Permiten seleccionar un conjunto de datos (un conjunto de filas y de columnas) de una o más tablas relacionadas. Puede ser usadas como origen de datos, es decir como si de otra tabla más se tratase. Las Consultas de Acción: Igualmente permite seleccionar un conjunto de datos (un conjunto de filas y de columnas) de una o más tablas relacionadas. Pero además proporciona la opción de operar sobre los datos seleccionados. Este tipo de consultas se divide a su vez en tres subtipos: Consultas de actualización. Permiten realizar cambios sobre los campos que cumplan una serie de condiciones. Consultas de eliminación. Permiten eliminar registros que cumplan una serie de condiciones. Consultas de datos anexados. Permiten añadir registros que cumplan una serie de condiciones, usando para ello ciertos orígenes de datos que contienen los registros a anexar. Las Consultas de Acción están sometidas tanto a las restricciones de tipos de datos y dominio para los campos (ver sección 2.1) así como las restricciones derivadas de la preservación de las relaciones estudiadas en 2.2. Gestión de la información en formato digital 2.3 Consultas. Consultas de Selección. Para diseñar una consulta de selección utilizaremos, dentro de la pestaña crear, la opción Diseño de Consulta: También podemos consultar el contenido de una tabla haciendo doble clic en esta. Si así lo hacemos el contenido de ésta será mostrado en un formato denominado “Vista Hoja de Datos”. Podemos cambiar el formato de visualización de la tabla haciendo uso del botón derecho y del menú contextual que a continuación nos aparecerá. Ayuda Tabla Actual en vista Hoja de Datos Menú Contextual Tablas a nuestra disposición. 1 19/11/2024 Gestión de la información en formato digital 2.3 Consultas. Por cada campo tenemos En columnas un Menú Contextual que Vista Hoja de Datos de una tabla. los campos. permite filtrar y ordenar. Tabla Actual en vista Hoja de Datos. En filas los registros Ordenar la presentación de los registros por la columna actual: AZ alfabéticamente de forma ascendente. O numéricamente de menor a mayor. ZA alfabéticamente de Para poder eliminar Valores existentes Filtros posibles forma descendente. O un filtro existente. para el campo a para el campo. numéricamente de activar/desactivar. mayor a menor. Gestión de la información en formato digital 2.3 Consultas. Vista Hoja de Datos de una tabla. Para las tablas relacionadas, podemos visualizar también el conjunto de registros relacionados con cada registro de la tabla de la cual hemos solicitado la Vista hoja de datos. En la parte inferior contamos con un conjunto de herramientas que nos permiten: Ir al primer registro. Ir al registro anterior. Indicador de filtro(s) Activo(s) que permite Ir al siguiente registro. desactivarlos. Ir al último registro. Crear un nuevo registro Buscar Información en cualquier columna. 2 19/11/2024 Gestión de la información en formato digital 2.3 Consultas. Pasos en el Diseño de Consulta de Selección. En primer lugar elegiremos la tabla o conjunto de tablas relacionadas que son necesarias para obtener el resultado deseado. Las tablas seleccionadas pasan a formar parte de la ventana de la consulta. Herramientas disponibles en la consulta Tipo de consulta Las consultan de selección: No alteran datos. Pero SI procesas las relaciones, por lo que: Los registros que aparecen cumplen la relación. El numero de apariciones de un registro corresponde con Tablas a nuestra el numero de relaciones en Tablas incluidas en la las que participa. consulta actual. disposición. Gestión de la información en formato digital 2.3 Consultas. ….. Una vez seleccionadas las tablas seleccionamos los campos a incluir en la consulta: Directamente doble clic sobre el campo en la tabla. Usando el desplegable de la ventana inferior. También podemos Mover una columna de lugar manteniendo el botón izquierdo del ratón pulsado sobre la columna que deseemos mover y moviendo ésta.. Eliminar una columna de la consulta seleccionándola y pulsando la tecla suprimir. Realizar una selección de múltiples columnas manteniendo el botón izquierdo pulsado tras haber, préviamente, seleccionado la columna y arrastrando el ratón. La opción mostrar permite ocultar y visualizar la columna en cuando está desactivada o activada, respectivamente. 3 19/11/2024 Gestión de la información en formato digital 2.3 Consultas. ….. Una vez seleccionadas los campos a incluir en la consulta podemos seleccionar las filas que nos interesan mostrar, usando la fila de criterios. Para imponer criterios sobre los campos utilizaremos Para los campos con contenido numérico y/o fecha los operadores de comparación Mayor que (>), Menor que ( 0. Requerido. Si Indica que es obligatorio introducir un dato en el campo. Permitir longitud cero: Si Permitirá que se guarden cadenas de longitud cero en un campo de tipo Texto o Memo. Alerta: no confundir Regla de Validación con Texto de Validación. El valor predeterminado (valor por defecto o valor por omisión), es el valor que se le asigna al campo cuando se crea un nuevo registro de tal manera que si deseamos otro debemos modificar este. Gestión de la información en formato digital La definición de datos y sus propiedades en Access. El campo DNI: Es un numero Entero Positivo Valor predeterminado Regla de Validación, Texto de Validación, Requerido, Permitir longitud cero. 7 31/10/2024 Gestión de la información en formato digital La definición de datos y sus propiedades en Access. Además de los elementos descritos en las anteriores diapositivas para la definición de las propiedades de un campo, existen otras propiedades que restringen los valores admisibles para un campo: La Clave Principal: por definición no puede quedar vacía y su valor no puede estar repetido en ese campo en ninguno de los registros de la tabla. Pueden definirse campos que, no siendo la clave principal, su valor no se repita en la tabla. La Clave Foránea: se trata de un campo que se ha introducido en una tabla para reflejar una relación entre ésta y otra tabla. Una clave foránea siempre hace referencia a un campo que es clave principal (o parte de ésta). Toda tabla tiene su clave principal que es única y puede ser un campo o un CONJUNTO de campos. Toda clave foránea hace referencia a una clave principal que ha de existir. Una tabla puede tener ninguna, una o muchas claves foráneas. Gestión de la información en formato digital La definición de datos y sus propiedades en Access. Decíamos que el DNI: La Clave Principal: por Pueden definirse definición no puede quedar campos que, no vacía y su valor no puede siendo la clave Es un numero principal, su estar repetido en ese Entero campo en ninguno de los valor no se repita Positivo en la tabla. registros de la tabla. Y además … Es la clave principal en la tabla Alumnes. El valor del campo “Número d’Expedient” no puede repetirse y no es clave principal. La Clave Foránea: se trata de un campo que se ha introducido en una tabla para reflejar una relación entre ésta y otra tabla. Una clave foránea siempre hace referencia a un campo que es clave principal (o parte de ésta). DNI es clave foránea “Codi Assignatura” en Matrícula. es clave foránea en Matrícula. Cada una de ellas hace referencia a una clave principal de otra tabla 8 31/10/2024 TEMA II: GESTIÓN DE LA INFORMACIÓN EN FORMATO DIGITAL. Grado en Periodismo. Curso 1º. Gestión de Base de Datos. Roberto Dale Valdivia. Gestión de la información en formato digital Contenido 2.1. Hojas de Cálculo. 2.2. Tipos de relaciones. 2.3. Consultas. 2.4. Formularios e Informes. 2.5. Exportación e Importación de Datos. 1 31/10/2024 Gestión de la información en formato digital Objetivos Entender los elementos más básicos de las hojas de cálculo y su representación en Microsoft Excel. Entender los elementos más básicos del denominado modelo Relacional y su representación en Microsoft Access. Habituarnos con la nomenclatura. Conocer como es la estructura de la información en los Sistemas Gestores de Bases de Datos Relacionales (SGBDR). Adquirir destrezas con las técnicas de organización y recuperación de la información mediante los Sistemas Gestores de Bases de Datos Relacionales (SGBDR). Sistema Gestor de Base de Datos. (DBMS) + R = Sistema Gestor de Base de Datos Relacional. + D = Sistema Gestor de Base de Datos Documental. Gestión de la información en formato digital 2.1 Hojas de Cálculo. Una hoja de cálculo es un tipo de documento, que permite manipular datos representados en forma de organizadas de forma cartesiana en filas y columnas. Cada intersección determina el contenedor básico de la hoja de cálculo: la celda. Así pues la celda es la unidad básica de información en la hoja de cálculo, donde podemos introducir: valores, fórmulas y otro tipo de elementos para realizar cálculos. Toda celda suele estar identificada por su fila y su columna. Son múltiples los tipos de operaciones que se pueden realizar: Los más básicos: las operaciones aritméticas básicas: , െ, ൈ, ൊ. Funciones matemáticas como potencias, logaritmos, senos, cosenos , … Cálculos estadísticos: Promedios, Mediana, Moda,… Funciones lógicas: SI, Y, O, … 2 31/10/2024 Gestión de la información en formato digital 2.1 Hojas de Cálculo. En este tema nos centraremos en conocer la hoja de cálculo de Microsoft: Excel, cuyos objetivos se centran en: Identificar y trabajar con los principales componentes de la interfaz del usuario. Identificar libro y una hoja de cálculo. Cómo introducir datos en una hoja de cálculo. Estudiar las propiedades de las Celdas. Entender las referencias de celda absolutas y relativas. Copiar, cortar y pegar texto y fórmulas. Usar la función de llenado. Realizar operaciones matemáticas básicas en una hoja de cálculo. Aprender a utilizar el sistema de ayuda y las guías para el uso de las funciones. Aprender a usar el formato condicional. Insertar gráficas en una hoja de cálculo. Hacer uso de tablas dinámicas. Explicar el propósito de las opciones disponibles para imprimir una hoja de cálculo. … y otros objetivos de menor relevancia para nuestros propósitos en este curso. En el siguiente tema estudiaremos como interactuar con una base de datos, concretamente con Access. Gestión de la información en formato digital 2.1 Hojas de Cálculo. Son múltiples los videos tutoriales de Excel 2013, por ejemplo: Principiantes: https://www.youtube.com/watch?v=yKWFMgurUnU https://www.youtube.com/playlist?annotation_id=annotation_2765465053&feature=iv&list=PLxgQzwsFLGL2FJhm BNZ8EW7Zn7-OqBlHI&src_vid=hrCOOF_z6mc https://www.youtube.com/watch?v=yKWFMgurUnU&list=PLLniqWgyb4HHfkyWNgMWSvTq6RlUGusgN Igualmente para Excel 2016: Básico: https://www.youtube.com/watch?v=gXCyB_d_-c4 Básico: https://www.youtube.com/watch?v=aWsl39_LXRk&list=PLNNBeiDLb2gUUxj6NJ1bPoU9shMqUhb3M Principiantes: https://www.youtube.com/watch?v=yKWFMgurUnU Avanzado: https://www.youtube.com/watch?v=osuiUkAjpEY Expertos: https://www.youtube.com/watch?v=5CczSFF-_0g&list=PLpKurRfiInIwX4y9j1Erhf8iN5V6fDnRN O para el Excel 2019: Básico: https://www.youtube.com/watch?v=v_R5SaMTlug Básico: https://www.youtube.com/watch?v=JcE2UhFWZvc Avanzado: https://www.youtube.com/watch?v=GiBeO7U7Qnk Expertos: https://www.youtube.com/watch?v=mZEKr4gBJnw 3 31/10/2024 Gestión de la información en formato digital 2.1 Hojas de Cálculo. Nombre de la Celda: Columna y Fila: C4, A1, … Pseudónimo o Alias: Cuadro de Nombres. Podemos usar la opción Administrador de Nombres del menú Fórmulas. Formato de Celda: Nos permite tener una mejor visualización y entendimiento de los datos presentados. Estas herramientas podemos invocarlas al hacer clic derecho sobre una celda, eligiendo dicha opción. Las herramientas de formato en Excel 2013 permiten realizar una gran cantidad de personalizaciones: Aplicar formato a números. Fuentes. Alineación de los contenidos en las celdas. Establecer rellenos. Definir Bordes. … Gestión de la información en formato digital 2.1 Hojas de Cálculo. Referencias absolutas y relativas: Una referencia en Excel identifica a una celda (o rango de celdas) dentro de una hoja de trabajo indicándole al Excel dónde buscar los valores que se quieren utilizar en una fórmula. Podemos distinguir de dos tipos: las referencias absolutas y las relativas. Una referencia es relativa cuando Excel puede modificar libremente dicha referencia para ajustarla al utilizarla dentro de una fórmula. Dicho efecto se produce al arrastrar. Si la referencia relativa y arrastramos el controlador de relleno hacia abajo, Excel copiará la fórmula y la ajustará de manera que la referencia se modifique automáticamente conforme va avanzando la fila. El mismo efecto se puede reproducir horizontalmente. Una referencia es absoluta cuando Excel no la puede ajustar para adaptarse a la fórmula conforme cambia de fila o de columna. Las referencias absolutas permanecen constantes sin importar a dónde se copie la fórmula y se definen utilizando el símbolo “$”. Fórmulas y Funciones: Una fórmula es un código especial que introducimos en una celda con el objetivo de realizar ciertos cálculos, de tal manera que realizado éste, devolverá un resultado que podremos visualizar. 4 31/10/2024 Gestión de la información en formato digital 2.1 Hojas de Cálculo. Fórmulas y Funciones: Todas las fórmulas deben empezar con un símbolo igual (=). Componentes de una fórmula de Excel: Constantes (= 1,5488) o texto (= “Mi Texto”). Referencias a celdas (= C1 + D1). Funciones de Excel. Gestión de la información en formato digital 2.1 Hojas de Cálculo. Fórmulas y Funciones: Podemos clasificar las fórmulas de Excel en ciertos grupos principales: Fórmulas aritméticas: combinan números, referencias de celda, funciones y operadores aritméticos para realizar cálculos matemáticos Fórmulas de comparación: permiten comparar dos o más números o cadenas de texto, devolviendo Verdadero o Falso dependiendo del resultado de la comparación. Fórmulas de texto: podemos manipular texto, por ejemplo el operador de concatenación para unir el valor de dos cadenas de texto que es equivalente al uso de la función CONCATENAR. Fórmulas de referencia: permiten combinar dos o más referencias de celda para crear una sola referencia. ; ; 5 31/10/2024 Gestión de la información en formato digital 2.1 Hojas de Cálculo. Fórmulas y Funciones: Si en el resultado de una formula encontramos: ###### … El resultado no cabe en la celda. Ampliar el tamaño visible de la celda. Usar Formato científico. #¡VALOR! Una celda no contiene el valor adecuado para la resolución de la fórmula. Revisar los contenidos de las celdas implicadas. Revisar la fórmula y/o funciones usadas. #¿NOMBRE? Una de las celdas indicadas no existe. Revisar las celdas indicadas en la fórmula y/o funciones. Revisar los nombres asignados a las celdas en el cuadro de nombres o bien en la opción Administrador de Nombres del menú Fórmulas. #¡DIV/0! Existe una división por cero en la fórmula. Revisar los valores las celdas indicadas en la fórmula y/o funciones. Revisar la fórmula y/o funciones implicadas. Podemos invocar una función de múltiples maneras: Invocando al asistente. Haciendo su uso directo en la barra de fórmulas. Usando opciones en la barra de herramientas. Las funciones se pueden combinar. Gestión de la información en formato digital 2.1 Hojas de Cálculo. Fórmulas y Funciones: Funciones lógicas en Excel: Las funciones lógicas en Excel se usan en la toma de decisiones. Permiten evaluar el cumplimiento de una condición, y según el resultado, decidiremos si se debe ejecutar una determinada acción. Y(valor_lógico1; [valor_lógico2]; …): La función Y solamente regresará el valor VERDADERO si todas las expresiones lógicas evaluadas son verdaderas. Bastará con que una sola expresión sea falsa para que la función Y tenga un resultado FALSO. Ejemplos: =Y(5=5; 16), =Y(5=5; 16; 2222). O(valor_lógico1; [valor_lógico2]; …): Devuelve el valor VERDADERO si alguno de los argumentos es verdadero o FALSO si todos los ellos son falsos. Ejemplos: =O(1=2; 3>4; 55; 7=9), =O(1=1; 3>4; 55; 7=9). SI(condición; [si_verdadero]; [si_falso]) Evalúa una condición y devuelve un valor si la condición es verdadera y otro valor si la condición es falsa. La función SI es de gran ayuda para tomar decisiones en base al resultado obtenido en la prueba lógica.