Unidad 1. Características de los lenguajes de marcas PDF
Document Details
LMSGI
Miguel Ángel Martí Ferrer
Tags
Summary
Este documento presenta una introducción a los lenguajes de marcado, incluyendo su evolución y tipos principales, como HTML y XML. Se analiza la representación de la información en los ordenadores, tanto en binario como en texto plano. Además, se detallan las ventajas y desventajas de ambos formatos, destacando la importancia de los lenguajes de marcado para la compatibilidad entre sistemas.
Full Transcript
UNIDAD 1. Características de los lenguajes de marcas LMSGI Miguel Ángel Martí Ferrer Índice ✓ 1. Introducción ✓ 2. Qué son los lenguajes de marcas ✓ 3. Formas de representar la información en el ordenador ✓ 4. Formas...
UNIDAD 1. Características de los lenguajes de marcas LMSGI Miguel Ángel Martí Ferrer Índice ✓ 1. Introducción ✓ 2. Qué son los lenguajes de marcas ✓ 3. Formas de representar la información en el ordenador ✓ 4. Formas de codificar el texto plano ✓ 5. Ventajas y desventajas de utilizar archivos con datos binarios o texto plano ✓ 6. El problema de compartir datos y los archivos texto plano como solución ✓ 7. Aparición de los lenguajes de marcas ✓ 8. Definición de lenguajes de marcas ✓ 9. Tipos ✓ 10. Evolución ✓ 11. Cronología ✓ 12. Etiquetas, elementos y atributos ✓ 13. Organizaciones desarrolladoras ✓ 14. Utilización de lenguajes de marcas en entornos web ✓ 15. Gramáticas Este documento se proporciona con licencia Creative Commons: CC BY-NC-ND. Se puede usar siempre y cuando se cite al autor, y no se permite obras derivada de ella, ni su uso en proyectos comerciales o con ánimo de lucro. 1. Introducción ✓ Los lenguajes de marcas están en plena expansión: ✓ Debido al éxito que han representado las páginas web. ✓ Van más allá de la simple representación de datos que ofrecía HTML, y pueden recuperar la información y procesarla de manera automática. 2. Qué son los lenguajes de marcas ✓ Debemos recordar que el ordenador “es una máquina electrónica que recibe y procesa datos para convertirlas en información útil”. ✓ Los ordenadores es almacenan de muchos tipos diferentes (texto, imágenes, vídeos, música...). ✓ Los lenguajes de marcas ayudan a poder ofrecer esos datos al usuario, o a otras máquinas. 3. Formas de representar la información en el ordenador ✓ El ordenador es una máquina digital, por lo tanto la información que maneja es binaria (0 y 1), y cualquier elemento (música, imágenes, texto, etc.) será almacenada y tratada en binario. ✓ El binario no es entendible por el ser humano, ya que. usamos el sistema decimal para los números y otras formas de representación como el texto, las imágenes, la música, etc. ✓ El paso de información humana a información digital es posible y se llama codificación. 3. Formas de representar la información en el ordenador Podemos representar la información de dos maneras: ✓ Datos binarios: ✓ es cualquier dato que no sea texto. Música, vídeo, imagen, un archivo Excel, un programa, etc. ✓ Por ejemplo en el caso de las imágenes, cada punto (píxel) de la imagen se codifica utilizando su nivel de rojo, verde y azul. ✓ Para que un ordenador pueda leer datos binarios necesita utilizar un software que utilice el mismo estándar de codificación con el que se guardaron. ✓Texto plano: ✓Es la forma más humana de representar información, y se guarda codificando cada carácter en binario. 4. Formas de codificar el texto plano ✓ Los datos binarios están codificados según estándares datos binarios. ✓ Igualmente, el texto plano debe codificarse dígitos binarios para hacerlo representable en el ordenador. ✓ A -> 01000001. ✓ B -> 01000010. ✓ Pronto surgieron estándares para la codificación de caracteres. Los más asentados: ✓ ASCII. ✓ ISO 8859. ✓ UNICODE. 4. Formas de codificar el texto plano 5. Ventajas y desventajas de utilizar archivos con datos binarios o texto plano ✓ Ventajas de los archivos binarios ✓ Ocupan menos espacio que los archivos de texto, ya que optimizan mejor su codificación a binario (por ejemplo el número 213 ocupa un solo byte y no tres como ocurriría si fuera un texto). ✓ Son más rápidos de manipular por parte del ordenador (se parecen más al lenguaje nativo del ordenador). ✓ Permiten el acceso directo a los datos. Los archivos de texto siempre se manejan de forma secuencial, más lenta. ✓ En cierto modo permiten cifrar el contenido que de otra forma sería totalmente visible por cualquier aplicación capaz de entender textos (como el bloc de notas). Es decir los datos no son fácilmente entendibles. ✓ Ventajas de los archivos de texto ✓ Cualquier dispositivo es capaz de interpretar texto, por tanto son ideales para almacenar datos, exportar, importar. ✓ Al ser directamente modificables sin tener que acudir a software específico, su manipulación es más sencilla que la de los archivos binarios. ✓ Son directamente transportables y entendibles por todo tipo de redes. 6. El problema de compartir datos y los archivos texto plano como solución ✓ El primer problema es la compatibilidad entre softwares : haber realizado un determinado trabajo con un software en un ordenador concreto y después querer pasar dicho trabajo a otro software en ese u otro ordenador. ✓ Para los archivos binarios han aparecido formatos binarios de archivo que han sido estándares de facto (no han sido reconocidos por ningún organismo de estándares): PDF para documentos, JPEG para imágenes, MP3 para música o MPEG de vídeo. ✓ Otros son propietarios como el MOV de Apple. ✓ Para los archivos de texto hay un formato de archivo que cualquier dispositivo es capaz de entender. El texto. ✓ Problema: los archivos de texto sólo son capaces de almacenar texto plano. ¿Qué pasa si queremos almacenar información no textual junto con el texto por ejemplo el formato? Solución: almacenar esa información en modo texto junto con el propio texto -> Lenguajes de marcas 7. Aparición de los lenguajes de marcas ✓ Los procesadores de texto fueron el primer software que pudo hacer uso de esta doble representación: texto + datos (tamaño de la página, márgenes, negrita, etc). ✓ Puesto que son programas que sirven para escribir texto parecía que lo lógico era que sus datos se almacenaran como texto. ✓ La idea del marcado (marking up) consiste en utilizar documentos de texto que contienen comandos u anotaciones (marcas). ✓ Son formatos de documento y no lenguajes en el sentido de los lenguajes de programación de aplicaciones, llamados lenguajes de marcas, lenguajes de marcado o lenguajes de etiquetas. 8. Definición de lenguajes de marcas ✓ Los lenguajes de marcas son aquellos que combinan la información, generalmente texto, que contiene un documento con marcas o anotaciones relativas a la estructura del texto o a la forma de representarlo. ✓ El lenguaje de marcas especifica cuales serán las etiquetas posibles, donde deben colocarse y el significado ✓ Las propias etiquetas o marcas generalmente no se suelen presentar al usuario final, sino sólo el texto formateado 9. Tipos de lenguajes de marcas ✓ Lenguajes orientados a presentación. son los usados tradicionalmente por los procesadores de texto como puede ser Microsoft Word o HTML para navegadores. Codifican como ha de presentarse el documento mediante marcas. ✓Lenguajes procedurales. las etiquetas son también orientadas a presentación pero se integran dentro de un marco procedural que permite definir macros (secuencias de acciones) y subrutinas. ✓Lenguajes descriptivos. no definen que se debe hacer sino que las marcas sirven para indicar qué es esa información, describen que es lo que se esta representando. Son ejemplos: SGML y sus derivados (HTML, XML, etc.) que se verán a en el curso, o JSON. 10. Evolución de los lenguajes de marcas ✓ Comenzaron a usarse a finales de la década de los 60 para poder introducir anotaciones en los documentos electrónicos. ✓ SGML (Standard Generalized Markup Language), descendiente directo del lenguaje GML de IBM, estandarizada por la ISO para permitir compartir información por parte de sistemas informáticos. No acabó de asentarse del todo debido a su complejidad, pero es el padre del lenguaje XML y la base sobre la que se sostiene el lenguaje HTML. ✓ A finales de los 80 en el CERN (Conseil Européen pour la Recherche Nucléaire) se creo un lenguaje de marcado para compartir información para redes de computadores e Internet. Este lenguaje se basaba en algunos principios de de SGML y lo denominaron HTML (Hyper-text Markup Language). ✓ En 1998, W3C hizo publico un nuevo estándar que denominaron XML (eXtended Markup Language), más sencillo que SGML y más potente que HTML. 11. Cronología de los lenguajes de marcas ✓ TeX y LaTeX: En la década de los 70, se creo TEX, lenguaje con alrededor de 300 comandos que permiten crear documentos. TeX produjo numerosos derivados de los cuales el más popular es (LaTeX), simplificación de TeX, definido en 1984, muy utilizado para producir documentos científicos. ✓ RTF: acrónimo de Rich Text Format (Formato de Texto Enriquecido) un lenguaje ideado por Microsoft en 1987 para producir documentos de texto que incluyan anotaciones de formato. Word Pad incorporado por Windows lo utiliza como formato nativo. ✓ PostScript : lenguaje desarrollo en 1976 de descripción de páginas para documentos en los que se dan indicaciones muy potentes sobre como mostrar información en el dispositivo final. Su desarrollo continua con Adobe Systems. 11. Cronología de los lenguajes de marcas ✓ XML (Extensible Markup Language): subconjunto de SGML ideado para mejorar el propio SGML y con él definir lenguajes de marcado con sintaxis más estricta, pero más entendibles. Su popularidad le ha convertido en el lenguaje de marcado más importante de la actualidad y en el formato de documentos para exportación e importación más exitoso. ✓ JSON (JavaScript Object Notation): notación de datos procedente del lenguaje JavaScript estándar (concretamente ECMA Script de 1999). Compite claramente con XML, a pesar de no tratarse de realmente de un lenguaje de marcas (no hay etiquetas, el texto se divide en dato y metadato). 11. Cronología de los lenguajes de marcas ✓ YAML: YAML es un acrónimo recursivo que significa YAML Ain't Markup Language (en castellano, ‘YAML no es un lenguaje de marcado’). En YAML, se usa la sangría al estilo Python para indicar la incorporación de un elemento de código dentro de otro. No se admiten los caracteres de tabulación, así que se usan los espacios en blanco, ni tampoco hay símbolos comunes de formato, como las llaves, las etiquetas de cierre o las comillas. Los archivos YAML usan las extensiones.yml o.yaml. 11. Cronología de los lenguajes de marcas ✓ HTML (Hypertext Markup Language): creado por Tim Berners Lee en los 90 a partir de SGML para documentos transportables a través de Internet en los que fuera posible el hipertexto; es decir, la posibilidad que determinadas palabras marcadas de forma especial permitieran abrir un documento relacionado con ellas. ✓ A pesar de tardar en ser aceptado, HTML fue un éxito rotundo y la causa indudable del éxito de Internet. Hoy en día casi todo en Internet se ve a través de documentos HTML, que popularmente se denominan páginas web. 12. Etiquetas, elementos y atributos ✓ Existen tres términos comúnmente usados para describir las partes de un documento de lenguajes de marcas: ✓ etiqueta (tag): es un texto que va entre el símbolo menor que (). Existen etiquetas de inicio (como ) y etiquetas de fin (como ). ✓ elementos: estructuras con las que se organiza el contenido del documento o acciones que se desencadenan cuando el programa navegador interpreta el documento. Constan de la etiqueta de inicio, la etiqueta de fin y de todo aquello que se encuentra entre ambas. Algunos elementos no tienen contenido. Se les denomina elementos vacíos y no deben llevar etiqueta de fin. ✓ Atributo: es un par nombre-valor que se encuentra dentro de la etiqueta de inicio de un elemento e indican las propiedades asociadas los elementos. 12. Etiquetas, elementos y atributos 13. Organizaciones desarrolladoras ✓ ISO (International Organization for Standardization): red de los institutos de normas nacionales de 163 países, sobre la base de un miembro por país. después del éxito que tuvo GML, publicó en 1986 el Standard Generalized Markup Languaje (SGML) con rango de Estándar Internacional con el código ISO 8879. ✓ W3C (World Wide Web Consortium). Creado en 1994 por Tim Berners-Lee en el MIT, actual sede central del consorcio. Su función principal es tutelar el crecimiento y organización de la web. Su primer trabajo fue normalizar el lenguaje HTML, el lenguaje de marcas con el que se escriben las paginas web. Al crecer el uso de la web, fue necesario crear unas reglas para que cualquiera pudiera crear lenguajes de marcas adecuados a sus necesidades. Ese conjunto de reglas es el XML, cuya primera versión se publico en 1998. 14. Utilización de lenguajes de marcas en entornos web ✓ Una página web es un documento electrónico adaptado para la World Wide Web que, normalmente, forma parte de un sitio web para ofrecer información (texto, multimedia o hiperenlaces). ✓ Las paginas web están escritas en un lenguaje de marcas que proporciona la capacidad de manejar e insertar hiperenlaces, generalmente, HTML. ✓ El contenido de la pagina puede ser predeterminado (página web estática) o generado en el momento de su visualización o al solicitarla a un servidor web (página web dinámica). 15. Gramáticas ✓ DTD (Definición de Tipo de Documento) que establece las reglas de formación del lenguaje formal. Una DTD describe: ✓ Elementos: indican qué etiquetas son permitidas y el contenido de dichas etiquetas. ✓ Estructura: indica el orden en que van las etiquetas en el documento. ✓ Anidamiento: indica qué etiquetas van dentro de otras. ✓ XML Schema es la evolución de la DTD descrita por el W3C, también denominado XSD (XML Schema Definition). Es un lenguaje de esquema más complejo y más potente, basado en la gramática para proporcionar una potencia expresiva mayor que la DTD. A la hora de validar un documento, XSD supone un gran consumo.