Universidad YacambuEstudios Virtuales Participante: Mirelys M. Petit Cedeño. Sub Tema: Componentes de un documento XMLSintaxis del XMLDiferencias entre HTML y XML
Resumen:
Los documentos HTML y XML están
compuestos por elementos, cada uno de los cuales consta de una "etiqueta
inicial" (por ejemplo, <orden>), una "etiqueta
final" (como, por ejemplo, </orden>) y la información comprendida
entre ambas etiquetas (denominada contenido del elemento). Los elementos se
pueden anotar con atributos que contienen metadatos acerca del elemento y su
contenido.
No obstante, existen diferencias
importantes entre HTML y XML. XML distingue entre mayúsculas y minúsculas,
mientras que HTML no, lo que significa que en XML las etiquetas iniciales <Table> y <table> son diferentes,
mientras que en HTML son la misma. Otra diferencia es que con XML se introduce
el concepto de formación correcta. Las reglas de formación correcta de XML
eliminan parte de la ambigüedad inherente al procesamiento de lenguajes de
marcado como HTML, imponiendo reglas como, por ejemplo, exigir que todos los
valores de atributos estén entre comillas y que todos los elementos deban tener
una etiqueta inicial y una etiqueta final, o bien, indicar explícitamente que
se trata de elementos vacíos. En la sección D.2 de las preguntas más frecuentes
sobre XML se incluye una breve descripción de las normas de formación correcta.
La diferencia más importante
entre HTML y XML radica en que HTML tiene elementos y atributos predefinidos
cuyo comportamiento está especificado con exactitud, mientras que XML no. Por
el contrario, los autores de los documentos pueden crear sus propios
vocabularios XML que sean específicos para sus aplicaciones o necesidades
empresariales. Actualmente existen vocabularios XML para un gran número de
industrias y aplicaciones, desde archivos financieros (XBRL) y servicios
financieros (FpML) hasta documentos Web (XHTML) y protocolos de red (SOAP). La
falta de énfasis en los elementos y atributos predefinidos que especifican cómo
se representa o se muestra un documento XML, permite a los autores de los
documentos centrarse en la creación de documentos que contengan sólo
información semántica relevante para el campo de su problema concreto. La
separación del contenido de la presentación que permiten los vocabularios XML
hace posible que haya una mayor reutilización de la información y redirección
del contenido con distintos fines.
Infografía:
Se explican los comentarios, los cuales pueden contener cualquier cadena de texto excepto el literal --.); las secciones CData, útiles cuando queremos visualizar código XML como parte del texto; los elementos, etiquetas más frecuentemente utilizadas dentro de un documento XML y las referencias a entidades de un documento XML.
La sintaxis del XML es estricta, ya no vale dejar de entrecomillar los atributos o utilizar las mayúsculas y minúsculas sin ningún control; la especificación XML determina claramente una serie de reglas que especifican cuando un documento está bien formado.
La diferencia más importante entre HTML y XML radica en que HTML tiene elementos y atributos predefinidos cuyo comportamiento está especificado con exactitud, mientras que XML no. Por el contrario, los autores de los documentos pueden crear sus propios vocabularios XML que sean específicos para sus aplicaciones o necesidades empresariales.
Un documento XML tiene
dos estructuras, una lógica y otra física; físicamente, el documento está
compuesto por unidades llamadas entidades; lógicamente, el documento está
compuesto de declaraciones, elementos, comentarios, referencias a caracteres e
instrucciones de procesamiento, todos los cuales están indicados por una marca
explícita.
Un documento XML simplificado lo más posible está formado por etiquetas. Éstas pueden ser nodos que a su vez están formados por otros nodos, o pueden ser etiquetas simples, es decir, que ya no tienen más nodos. De esta forma se puede pensar en un documento XML en forma de árbol.
Un documento XML contiene datos que se autodefinen, exclusivamente. Un documento HTML contiene datos mal definidos, mezclados con elementos de formato. En XML se separa el contenido de la presentación de forma total.
Son etiquetas, por ejemplo <libro>,<portada>,<titulo>, tienen un nombre y se escriben entre los símbolos “<” y “>”, obligatoriamente tienen una marca de principio y otra de fin; </libro>, por ejemplo, es una, marca de fin; lo que hay dentro es el contenido de la etiqueta. Hay etiquetas que no tienen contenido y se les llama “vacías”.
El XML es un 10% del SGML, las
normas que tiene son muy simples; se escribe en un documento de texto ASCII,
igual que el HTML y en la cabecera del documento se tiene que poner el texto <?xml
version="1.0"?>; en el resto del documento se deben escribir
etiquetas como las de HTML, las etiquetas que se deseen, por eso el lenguaje se
llama XML, lenguaje de etiquetas extendido. Las etiquetas se escriben anidas,
unas dentro de otras, pueden tener atributos; los comentarios de XML se
escriben igual que los de HTML.
El desarrollo del HTML marco la competencia entre los distintos visores del mercado. Cada uno quería ser el mejor e inventaba etiquetas nuevas que a la larga entraban a formar parte del estándar del W3C. El desarrollo del XML está siendo llevado a cabo con rigor, siempre ajustado a lo que marca el estándar que desarrolla el W3C, entidad que está desarrollando el XML con más diligencia que las empresas con intereses particulares.
En XML cada <etiqueta> ha de tener una </etiqueta>
de cierre. Otra regla es que no puede 'mezclar' etiquetas. Tiene que cerrar las
etiquetas en el orden inverso al que las abrió. Las reglas sintácticas dicen
que ha de cerrar la etiqueta </I> antes de
cerrar </B>.Todos los elementos de un
documento XML han de estar contenidos en etiquetas (salvo, naturalmente, las
etiquetas inicial y final).
Todos los documentos XML deben
tener un elemento raíz; una etiqueta de cierre, las etiquetas distinguen entre
mayúsculas y minúsculas; todos los elementos XML deben estar anidados
correctamente, los atributos deben estar incluidos en la etiqueta de apertura y
deben ser escritos entre comillas.
Las reglas de sintaxis XML: La primera línea es un tag
especial que indica que versión de XML se usa; un documento XML es un árbol
etiquetado y ordenado; debe haber siempre un elemento root o nodo raíz; el
resto de los elementos deben ser children o nodos hijos del root; el nivel de
anidamiento puede ser arbitrariamente profundo.
La diferencia de XML con HTML se refleja en: HTML se preocupa de formatear datos de estructurar la información que pretende almacenar; HTML permite crear cada una de sus etiquetas y en XML existe un organismo llamado W3C quien regulariza y estandariza las etiquetas creadas; en HTML la información no puede ser leída por diferentes plataformas, como lo realiza XML, PC, celulares, etc.
El XML sirve para describir información y el HTML sirve para darle formato y presentarla a través de un navegador. O sea que el XML no es ni será nunca un reemplazo del HTML sino un complemento que sirve para manejar la información separada del formato.
HTML, no es un lenguaje de programación, es un lenguaje de especificación de contenidos para un tipo específico de documentos SGML. XML conserva todas las propiedades importantes del SGML. Es decir, XML es un metalenguaje, dado que con él podemos definir nuestro propio lenguaje de presentación y, a diferencia del HTML, que se centra en la representación en la pantalla de la información, XML se centra en la información en si misma.
El XML es sensible a la utilización de mayúsculas y minúsculas, lo que significa que las elementos <LIBRO> y <libro> son diferentes según la especificación XML. Si se consideran las DTDs que conforman el XHTML, sus elementos y atributos están definidos en minúsculas, de modo que las etiquetas del código XHTML deben estar siempre en minúsculas.
...esto es exactamente lo que ha pasado con HTML. HTML es un lenguaje que es definido con ayuda de SGML y que contiene muchos comandos; contiene todos los comandos más importantes que un autor web necesita, pero que no le da la oportunidad de inventar comandos propios; esta es la diferencia entre HTML e XML. XML es definida con ayuda de SGML la madre de todos los lenguajes de marcación. Sin embargo no es una "aplicación SGML", sino un "perfil de SGML".
Otra diferencia es que con XML
se introduce el concepto de formación correcta. Las reglas de formación
correcta de XML eliminan parte de la ambigüedad inherente al procesamiento de
lenguajes de marcado como HTML, imponiendo reglas como, por ejemplo, exigir que
todos los valores de atributos estén entre comillas y que todos los elementos
deban tener una etiqueta inicial y una etiqueta final, o bien, indicar
explícitamente que se trata de elementos vacíos.
La diferencia fundamental entre HTML y XML es que mientras
el primero es un lenguaje, XML es un metalenguaje. De hecho es un subconjunto
de SGML, una versión reducida y totalmente compatible diseñada específicamente
para la Web. Todos los documentos XML se ajustan a las normas de SGML.
Aunque, a primera vista, un documento XML y un documento HTML puedan parecernos muy parecidos, hay una diferencia principal y es que el HTML no indica lo que se está representando, tiene datos mal definidos con elementos de formato, mientras que el XML contiene datos que se autodefinen: describe el contenido de lo que etiquetan.