lenguaje marca.pdf
Document Details
Uploaded by Deleted User
Full Transcript
UT 01: INTRODUCCIÓN A LOS LENGUAJES DE MARCAS TEMA 1: RECONOCIMIENTO DE LAS CARACTERÍSTICAS DE LOS LENGUAJES DE MARCAS UT 01: INTRODUCCIÓN Contenido 1. Introducción....................
UT 01: INTRODUCCIÓN A LOS LENGUAJES DE MARCAS TEMA 1: RECONOCIMIENTO DE LAS CARACTERÍSTICAS DE LOS LENGUAJES DE MARCAS UT 01: INTRODUCCIÓN Contenido 1. Introducción......................................................................................................................... 2 2. Evolución de los lenguajes de marcas................................................................................. 3 2.1. GML (Generalized Markup Language)........................................................................ 4 2.2. SGML (Standard Generalized Markup Language)...................................................... 5 2.3. HTML (HyperText Markup Language)......................................................................... 5 2.4. XML (eXtensible Markup Language)........................................................................... 7 2.5. XML vs HTML............................................................................................................... 8 2.6. Comparación de XML con SGML................................................................................. 9 3. Etiquetas............................................................................................................................ 10 4. Espacios de nombres en XML............................................................................................ 10 5. Herramientas de edición XML........................................................................................... 11 Lenguajes de Marcas y Sistemas de Gestión de la Información 1/14 UT 01: INTRODUCCIÓN 1. Introducción Un "lenguaje de marcas" es un modo de codificar un documento donde, junto con el texto, se incorporan etiquetas, marcas o anotaciones con información adicional relativa a la estructura del texto o su formato de presentación. Permiten hacer explícita la estructura de un documento, su contenido semántico o cualquier otra información lingüística o extralingüística que se quiera hacer patente. Algunos de los lenguaje de marcas como XML o HTML hasta su versión 4 están definidos en un documento denominado DTD (Document Type Definition). En él se establecen las marcas, los elementos utilizados por dicho lenguaje y sus correspondientes etiquetas y atributos, su sintaxis y normas de uso. Ejemplo: Aspecto de un documento realizado en un lenguaje de marcas En la práctica, en un mismo documento pueden combinarse varios tipos diferentes de lenguajes de marcas. Podemos clasificar los tipos de lenguajes de marcas en función del tipo de marca que utilice, por ejemplo: De presentación: define el formato del texto, sin especificar su estructura, por ejemplo, poner en negrita, subrayar, poner en cursiva o tachar. Los procesadores de texto y en general los programas de edición profesional utilizan este tipo de marcado. Por ejemplo, RTF. Descriptivo o semántico: describen las diferentes partes en las que se estructura el documento, pero sin especificar cómo deben representarse. Por ejemplo, HTML, XML. Algunos ejemplos de lenguajes de marcado agrupados por su ámbito de utilización son: Lenguajes de Marcas y Sistemas de Gestión de la Información 2/14 UT 01: INTRODUCCIÓN Documentación electrónica: RTF (Rich Text Format): formato de Texto Enriquecido, fue desarrollado por Microsoft en 1987. Permite el intercambio de documentos de texto ente distintos procesadores de texto. TeX: Su objetivo es la creación de ecuaciones matemáticas complejas. Wikitexto: permite la creación de páginas wiki en servidores preparados para soportar este lenguaje. Un wiki es una herramienta de colaboración que permite a las personas contribuir y modificar contenido de una o más páginas relacionadas a un tema específico. Su nombre proviene del hawaiano, que en español significa “rápido”. DocBook: permite generar documentos separando la estructura lógica del documento de su formato. De este modo, dichos documentos, pueden publicarse en diferentes formatos sin necesidad de realizar modificaciones en el documento original. Tecnologías de internet: HTML, XHTML: (Hypertext Markup Language, eXtensible Hypertext Markup Language): Su objetivo es la creación de páginas web. RSS: Permite la difusión de contenidos web. Otros lenguajes especializados: MathML (Mathematical Markup Language): Su objetivo es expresar el formalismo matemático de tal modo que pueda ser entendido por distintos sistemas y aplicaciones. VoiceXML (Voice Extended Markup Language) tiene como objetivo el intercambio de información entre un usuario y una aplicación con capacidad de reconocimiento de habla. MusicXML: Permite el intercambio de partituras entre distintos editores de partituras. 2. Evolución de los lenguajes de marcas En los años 70 surgen unos lenguajes informáticos, distintos de los lenguajes de programación, orientados a la gestión de información. Con el desarrollo de los editores y procesadores de texto surgen los primeros lenguajes informáticos especializados en tareas de descripción y estructuración de información: los lenguajes de marcas. Paralelamente, también, surgen otros lenguajes informáticos orientados a la representación, almacenamiento y consulta eficiente de grandes cantidades de datos: lenguajes y sistemas de bases de datos. Lenguajes de Marcas y Sistemas de Gestión de la Información 3/14 UT 01: INTRODUCCIÓN Los lenguajes de marcas surgieron, inicialmente, como lenguajes formados por un conjunto de códigos de formato, que los procesadores de texto introducen en los documentos para dirigir el proceso de presentación (impresión) mediante una impresora programable. Este marcado estaba exclusivamente orientado a la presentación de la información, aunque pronto se percataron de las posibilidades del marcado y le dieron nuevos usos que resolvían una gran variedad de necesidades, apareció el formato generalizado. 2.1. GML (Generalized Markup Language) Uno de los problemas que se conocen desde hace décadas en la informática es la falta de estandarización en los formatos de información usados por los distintos programas. Para resolver este problema, en los años sesenta IBM encargó a Charles F. Goldfab la construcción de un sistema de edición, almacenamiento y búsqueda de documentos legales. Tras analizar el funcionamiento de la empresa llegaron a la conclusión de que para realizar un buen procesado informático de los documentos había que establecer un formato estándar para todos los documentos que se manejaban en la empresa. Con ello se lograba gestionar cualquier documento en cualquier departamento y con cualquier aplicación, sin tener en cuenta dónde ni con qué se generó el documento. Dicho formato tenía que ser válido para los distintos tipos de documentos legales que utilizaba la empresa, por tanto, debía ser flexible para que se pudiera ajustar a las distintas situaciones. El formato de documentos que se creó como resultado de este trabajo fue GML, cuyo objetivo era describir los documentos de tal modo que el resultado fuese independiente de la plataforma y la aplicación utilizada. Lenguajes de Marcas y Sistemas de Gestión de la Información 4/14 UT 01: INTRODUCCIÓN Ejemplo: Documento GML sencillo. 2.2. SGML (Standard Generalized Markup Language) El formato GML evolucionó hasta que en 1986 dio lugar al estándar ISO 8879 que se denominó SGML. Éste era un lenguaje muy complejo y requería de unas herramientas de software caras. Por ello su uso ha quedado relegado a grandes aplicaciones industriales. 2.3. HTML (HyperText Markup Language) Entre mayo de 1989 y diciembre de 1990 Tim Berners-Lee creó el World Wide Web y se encontró con la necesidad de organizar, enlazar y compatibilizar gran cantidad de información procedente de diversos sistemas. Para resolverlo creó un lenguaje de descripción de documentos llamado HTML, que, en realidad, era una combinación de dos estándares ya existentes: ASCII: es un código definido y establecido para representar caracteres (letras, números, signos de puntuación, caracteres especiales, etc.) de forma numérica. Su versión básica utiliza 7 bits y es capaz de representar hasta 128 caracteres. Existen versiones ampliadas que utilizan 8 bits. Entre ellas se encuentran los códigos ISO 8859-n. SGML: lenguaje que permite dar estructura al texto, resaltando los títulos o aplicando diversos formatos al texto. HTML es una versión simplificada de SGML, ya que sólo se utilizaban las instrucciones absolutamente imprescindibles. Era tan fácil de comprender que rápidamente tuvo gran aceptación logrando lo que no pudo SGML. HTML se convirtió en un estándar general para la creación de páginas web. Además, tanto las herramientas de software como los navegadores que permiten visualizar páginas HTML son cada vez mejores. Lenguajes de Marcas y Sistemas de Gestión de la Información 5/14 UT 01: INTRODUCCIÓN A pesar de todas estas ventajas HTML no es un lenguaje perfecto, sus principales desventajas son: No soporta características para la impresión del documento web. No tiene características avanzadas en lo que se refiere al diseño o presentación. El lenguaje no es flexible, ya que las etiquetas son limitadas. No permite mostrar contenido dinámico. La estructura y el diseño están mezclados en el documento. Ejemplo: Documento HTML En el navegador se visualizaría así: Lenguajes de Marcas y Sistemas de Gestión de la Información 6/14 UT 01: INTRODUCCIÓN 2.4. XML (eXtensible Markup Language) El W3C (World Wide Web Consortium) establece, en 1998, el estándar internacional XML, un lenguaje de marcas puramente estructural que no incluye ninguna información relativa al diseño. Se convirtió con rapidez en un estándar ampliamente utilizado para el intercambio de datos en la Web. A diferencia de HTML las etiquetas indican el significado de los datos en lugar del formato con el que se van a visualizar los datos. XML es un metalenguaje caracterizado por: Permitir definir etiquetas propias. Permitir asignar atributos a las etiquetas. Utilizar un esquema para definir de forma exacta las etiquetas y los atributos. La estructura y el diseño son independientes. En realidad, XML es un conjunto de estándares relacionados entre sí y que son: XSL, eXtensible Style Language. Permite definir hojas de estilo para los documentos XML e incluye capacidad para la transformación de documentos. XML Linking Language (XLink): lenguaje que permite crear enlaces dentro de documentos XML, de manera similar a cómo funcionan los enlaces en HTML. Sin embargo, XLink es más avanzado, ya que permite enlaces entre varias partes de un mismo documento o entre distintos documentos, con opciones para enlaces simples, múltiples o bidireccionales. XML Namespaces. Proveen un contexto al que se aplican las marcas de un documento de XML y que sirve para diferenciarlas de otras con idéntico nombre válidas en otros contextos. XML Schemas. Permiten definir restricciones que se aplicarán a un documento XML. Ejemplo: Documento XML Lenguajes de Marcas y Sistemas de Gestión de la Información 7/14 UT 01: INTRODUCCIÓN 2.5. XML vs HTML A continuación, encontrarás una tabla comparativa de ambos lenguajes. XML HTML Se pueden crear tus propias etiquetas Aplica un conjunto limitado de etiquetas para organizar y describir datos. No estás sobre un único tipo de documento. limitado a un conjunto fijo de etiquetas Modelo de hiperenlaces para la definición Tiene un modelo de hiperenlaces de reglas (DTS o XSDS externas al intrínseco y fácil de usar, diseñado documento XML) específicamente para conectar diferentes páginas web y recursos en la web El navegador es una plataforma para el El navegador es un visor de páginas. desarrollo de aplicaciones. Ayudó a poner fin a la guerra de los El problema de la 'no compatibilidad' y las navegadores y etiquetas propietarias. diferencias entre navegadores ha alcanzado un punto en el que la solución es difícil. Ejemplo: XML vs HTML. Código XML XML practico SebastienLecomte Thierry Boulanger Ediciones Eni 978-2-7460-4958-1 1 347 Visualización XML Lenguajes de Marcas y Sistemas de Gestión de la Información 8/14 UT 01: INTRODUCCIÓN Código HTML Libro XML práctico Autores: Sebastien Lecomte, Thierry Boulanger Editorial: Ediciones Eni ISBN: 978-2-7460-4958-1 Edición: 1 Páginas: 347 Visualización HTML 2.6. Comparación de XML con SGML XML SGML Uso sencillo Uso complejo Trabaja con documentos bien formados. Solo trabaja con documentos válidos No exige que estén validados Facilita el desarrollo de aplicaciones deSu complejidad hace que las aplicaciones bajo coste informáticas para procesar SGML sean muy costosas Es muy utilizado en informática y en más Solo se utiliza en sectores muy específicos áreas de aplicación Compatibilidad e integración con HTML No hay compatibilidad con HTML definida Formato y estilos fáciles de aplicar Formateo y estilos relativamente complejos No usa etiquetas opcionales Lenguajes de Marcas y Sistemas de Gestión de la Información 9/14 UT 01: INTRODUCCIÓN Para saber más … La recomendación de XML publicada por el W3C es pública y accesible en: https://www.w3.org/TR/xml/ 3. Etiquetas Los lenguajes de marcas utilizan una serie de etiquetas especiales intercaladas en un documento de texto sin formato. Dichas etiquetas serán posteriormente interpretadas por los intérpretes del lenguaje y ayudan al procesado del documento. Las etiquetas se escriben encerradas entre ángulos, es decir < y >. Normalmente, se utilizan dos etiquetas: una de inicio y otra de fin para indicar que ha terminado el efecto que queríamos presentar. La única diferencia entre ambas es que la de cierre lleva una barra inclinada "/"antes del código. Ejemplo: texto que sufrirá las consecuencias de la etiqueta Ejemplo de etiqueta HTML de subrayado (Underline) Las últimas especificaciones emitidas por el W3C indican la necesidad de que vayan escritas siempre en minúsculas para considerar que el documento está correctamente creado. 4. Espacios de nombres en XML Los espacios de nombres (o namespaces) en XML son una forma de evitar conflictos de nombres cuando se utilizan múltiples vocabularios o conjuntos de etiquetas en un solo documento. Son especialmente útiles cuando diferentes partes de un documento XML pueden requerir el uso de etiquetas con el mismo nombre, pero con significados distintos. Lenguajes de Marcas y Sistemas de Gestión de la Información 10/14 UT 01: INTRODUCCIÓN Un espacio de nombres es esencialmente un identificador (normalmente una URI) que se asocia con un prefijo y sirve para diferenciar las etiquetas que pueden tener el mismo nombre, asegurando que no haya ambigüedades entre diferentes vocabularios. 5. Herramientas de edición XML Para trabajar en XML es necesario editar los documentos y luego procesarlos, por tanto, tenemos dos tipos de herramientas: Editores XML Una característica de los lenguajes de marcas es que se basan en la utilización de ficheros de texto plano por lo que basta utilizar un procesador de texto normal y corriente para construir un documento XML. Para crear documentos XML complejos e ir añadiendo datos es conveniente usar algún editor XML. Estos nos ayudan a crear estructuras y etiquetas de los elementos usados en los documentos, además algunos incluyen ayuda para la creación de otros elementos como DTD, hojas de estilo CSS o XSL,... El W3C ha desarrollado un editor de HTML, XHTML, CSS y XML gratuito cuyo nombre es Amaya. Otros editores: Notepad++, XML Copy Editor y Visual Studio Code. Procesadores XML Para interpretar el código XML se puede utilizar cualquier navegador. Los procesadores de XML permiten leer los documentos XML y acceder a su contenido y estructura. Un procesador es un conjunto de módulos de software entre los que se encuentra un analizador de XML que comprueba que el documento cumple las normas establecidas para que pueda abrirse. Estas normas pueden corresponderse con las necesarias para trabajar sólo con documentos de tipo válido o sólo exigir que el documento esté bien formado, los primeros se conocen como validadores y los segundos como no validadores. El modo en que los procesadores deben leer los datos XML está descrito en la recomendación de XML establecida por W3C. Para publicar un documento XML en Internet se utilizan los procesadores XSLT, que permiten generar archivos HTML a partir de documentos XML. Puesto que XML se puede utilizar para el intercambio de datos entre aplicaciones, hay que recurrir a motores independientes que se ejecutan sin que nos demos cuenta. Por ejemplo JAXP (Java API for XML Processing) de Sun. Lenguajes de Marcas y Sistemas de Gestión de la Información 11/14 UT 01: INTRODUCCIÓN Para saber más … Información sobre analizadores XML: http://xml.coverpages.org/index.html expat - XML Parser Toolkit: http://www.jclark.com/xml/expat.html Lenguajes de Marcas y Sistemas de Gestión de la Información 12/14 UT 01: INTRODUCCIÓN Este contenido está bajo la licencia CC-BY-NC-SA. Ha sido elaborado gracias a un curso cedido por la Consejería de Educación y Deporte de la Comunidad de Madrid. En el presente documento se han hecho algunas adaptaciones sobre los contenidos originales, modificando o añadiendo conceptos y ejercicios prácticos. Lenguajes de Marcas y Sistemas de Gestión de la Información 13/14