x
1

Web semántica



La web semántica (del inglés semantic web) es un conjunto de actividades desarrolladas en el seno de World Wide Web Consortium con tendencia a la creación de tecnologías para publicar datos legibles por aplicaciones informáticas (máquinas en la terminología de la Web semántica).[1]​ Se basa en la idea de añadir metadatos semánticos y ontológicos a la World Wide Web. Esas informaciones adicionales —que describen el contenido, el significado y la relación de los datos— se deben proporcionar de manera formal, para que así sea posible evaluarlas automáticamente por máquinas de procesamiento. El objetivo es mejorar Internet ampliando la interoperabilidad entre los sistemas informáticos usando "agentes inteligentes". Agentes inteligentes son programas en las computadoras que buscan información sin operadores humanos.

El precursor de la idea, Tim Berners-Lee, intentó desde el principio incluir información semántica en su creación, la World Wide Web, pero por diferentes causas no fue posible.[2]​ Por ese motivo introdujo el concepto de semántica con la intención de recuperar dicha omisión.

El precursor de la idea de enlaces web de hipertexto fue Vannevar Bush (1890 - 1974), ingeniero y profesor del Massachusetts Institute of Technology (MIT) y asesor, durante la Segunda Guerra Mundial, de Investigación Científica y Desarrollo en la administración americana siendo presidente Roosevelt. En 1945 describió la primera aplicación hipertextual, un proyecto llamado MeMex Memory Extended y descrito en As We May Think, (Cómo podríamos pensar) publicado en la revista Atlantic Monthly.[3]

La idea presentada era la de un sistema distribuido de información accesible a través de un escritorio (interfaz), en el que los archivos de texto e imagen estuvieran ligados y pudieran ser consultados a través de los enlaces. Así los usuarios podrían visualizar la información a través de distintos recorridos.[4]​ Este proyecto es lo que puede considerarse el origen del hipertexto.

En la década de los años 60 Theodor Nelson acuñó el término Hypertext como “non-sequential writing”, una escritura no secuencial. Se trata de un conjunto de bloques de texto conectados entre sí mediante unos enlaces que permiten navegar de un texto a otro.[5]

Paralelamente, Douglas Carl Engelbart, del centro Augmentation Research Center (ARC) de la Universidad de Stanford, trabajó sobre la idea de Vannevar Bush, desarrollando un software capaz de implementar hipertexto o referencias cruzadas automáticas a otros documentos. El proyecto oN Line System (NLS) consistía en un sistema de navegación en línea, una red local que enlazaba los documentos publicados por el instituto, para poder acceder a ellos y trabajar en grupo.[6]

Basándose en estos proyectos, fueron surgiendo numerosos sistemas de hipertexto. Como Hypertext Editing System (HES) en 1967 por IBM y la Brown University, File Retrieval and Editing System (FRESS) en 1968, ZOG en 1972 de la Carnegie Mellon University, Knowledge Management System (KMS) en 1983, Intermedia en 1985 en la Brown University, Note Cards en 1985 por la Xerox Parc o Smar Text en 1988.[7]

En 1990 Tim Berners - Lee y Robert Cailliau dieron a conocer la web como la conocemos actualmente. Presentaron el proyecto World Wide Web (WWW) en la Organización Europea para Investigación Nuclear (CERN) en Ginebra (Suiza), que constituyó la primera propuesta de web. Consistía en un programa cliente (navegador/editor) basado en el lenguaje de etiquetas de hipertexto HTML (Hyper Text Markup Language), junto con el protocolo de transferencia de hipertexto HTTP (Hyper Text Transfer Protocol), lenguaje que los ordenadores usan para comunicarse por Internet, y el identificador uniforme de recursos digitales URI (Uniform Resource Identifier), para la localización de objetos digitales. El navegador/editor World Wide Web era capaz de seguir vínculos en los archivos de los servidores HTTP.[7]

El W3C empieza a plantearse la idea de web semántica a finales de los años 90, aunque hasta 2001 no se presenta un artículo en la revista Scientific American en el que se exhiben los postulados de la web semántica. La propuesta de Tim Berners- Lee en 2001 pretende transformar la actual web. La web actual se basa en el lenguaje natural, tiene una falta de estructuración de contenidos y una carencia de descripciones normalizadas para los recursos digitales, lo que se ve reflejado en la ambigüedad de los resultados que recuperan los motores de búsqueda generalistas.[8]

Como consecuencia, para resolver el actual problema de accesibilidad a la información en Internet, surge la idea de web semántica, cuyo objetivo es identificar la información de forma unívoca y establecer relaciones entre los objetos digitales con miras a facilitar una recuperación eficaz de la información.

La Web Semántica se basa en dos puntos fundamentales:

a) La descripción del significado. Donde se definen los conceptos

b) La manipulación automática de estas descripciones. Se efectúa mediante lógica y motores de inferencia.

En la descripción del significado se articula la semántica, los metadatos y las ontologías.[9]

En nuestro contexto de la Web Semántica, se pretende dotar de significado interpretable por parte de las máquinas, como información adicional que pueda ser comprendida y procesada por una computadora.

La distinción entre datos y metadatos es relativa, pues depende de la aplicación. Los metadatos de una aplicación pueden ser los datos que maneja otra aplicación.

Una ontología se puede definir como una «especificación explícita y formal de una conceptualización compartida» según (Gruber, 1993) de esta manera:[11]

En cuanto a la web 3.0, y sus otras acepciones como web de datos y web semántica, existe bastante controversia en la literatura a la hora de establecer semejanzas o diferencias entre los conceptos. Para Küster y Hernández (2013) la web semántica forma parte de la web 3.0.[13]

Sin embargo, Tim Berners-Lee ha descrito la web semántica como un componente de la "Web 3.0".[14]

Sin embargo el W3C, organismo que lleva la iniciativa y desarrolla esta web, emplea las acepciones web de datos y web semántica, para hacer referencia a la web de datos enlazados y las tecnologías semánticas que emplea para hacerla efectiva.[15]

El enfoque del W3C se centra en los datos, y gira en torno a la cada vez mayor cantidad de datos existentes que se encuentran aislados en silos, y en cómo conectarlos.[16]

La web semántica es una ampliación de la Web, por medio de la que se intenta realizar un filtrado de manera automática pero precisa de la información. Es necesario hacer que la información que anida en la web sea entendible por las propias máquinas. En concreto se atiende a su contenido, independientemente de la estructura sintáctica. O lo que es lo mismo, se atiende a diferentes ámbitos, se tiene en cuenta el conjunto de lenguajes, a la vez que los procedimientos para poder añadir esa semántica a la información para que, de esta manera, sea entendible por los agentes encargados de procesarla. Además, se tiene en cuenta el desarrollo y la construcción de los agentes encargados de procesar esa información y de filtrar adecuadamente cuál de todas ellas es la útil para los usuarios o para los agentes que tienen que realizar una función concreta. Con todo ello, los agentes deben recuperar y manipular la información pertinente, lo que requiere una integración sin fracturar la web, pero sin dejar de aprovechar totalmente las infraestructuras que existen. En concreto, a través de esta modalidad de web semántica se pueden obtener soluciones a problemas habituales en la búsqueda de información gracias a la utilización de una infraestructura o proceso común, mediante la cual, es posible compartir, procesar y transferir información de forma sencilla.

En la actualidad, la World Wide Web está basada principalmente en documentos escritos en HTML, un lenguaje de marcado que sirve principalmente para crear hipertexto en Internet. El lenguaje HTML es válido para adecuar el aspecto visual de un documento e incluir objetos multimedia en el texto (imágenes, esquemas de diálogo, etc.). Pero ofrece pocas posibilidades para categorizar los elementos que configuran el texto más allá de las típicas funciones estructurales, como sucede con otros lenguajes de maquetación (tipo LaTeX).

HTML permite mediante una herramienta de visualización (como un navegador o un agente de usuario) mostrar por ejemplo un catálogo de objetos en venta. El código HTML de este catálogo puede explicitar aspectos como "el título del documento es Ferretería Acme"; pero no hay forma de precisar dentro del código HTML si el producto M270660 es una "batería Acme", con un "precio de venta al público" de 200 €, o si es otro tipo de producto de consumo (es decir, es una batería eléctrica y no un instrumento musical, o un puchero). Lo único que HTML permite es alinear el precio en la misma fila que el nombre del producto. No hay forma de indicar "esto es un catálogo", "batería Acme" es una batería eléctrica, o "200 €" es el precio. Tampoco hay forma de relacionar ambos datos para describir un elemento específico en oposición a otros similares en el mismo catálogo.

La web semántica se ocuparía de resolver estas deficiencias. Para ello dispone de tecnologías de descripción de los contenidos, como RDF y OWL, además de XML, el lenguaje de marcado diseñado para describir los datos. Estas tecnologías se combinan para aportar descripciones explícitas de los recursos de la web (ya sean estos catálogos, formularios, mapas u otro tipo de objeto documental). De esta forma el contenido queda desvelado, como los datos de una base de datos accesibles por web, o las etiquetas inmersas en el documento (normalmente en XHTML, o directamente en XML, y las instrucciones de visualización definidas en una hoja de estilos aparte). Esas etiquetas permiten que los gestores de contenidos interpreten los documentos y realicen procesos inteligentes de captura y tratamiento de información.[17]

Según Codina y Rovira (2006), en el proyecto de la Web Semántica conviven 2 grandes visiones, por lo que se proponen 2 definiciones: 1- La visión de la inteligencia artificial: la Web Semántica es un conjunto de iniciativas destinadas a promover una futura web cuyas páginas estén organizadas, estructuradas y codificadas de tal manera que los ordenadores sean capaces de efectuar inferencias y razonar a partir de sus contenidos. 2- La visión del procesamiento robusto: la Web Semántica es un conjunto de iniciativas destinadas a convertir www en una gran base de datos capaz de soportar un procesamiento sistemático y consistente de la información.

Algunos de los retos de la Web Semántica incluyen amplitud, vaguedad, incertidumbre, inconsistencia y engaño. Los sistemas de razonamiento automatizado tendrán que lidiar con todos estos temas con la finalidad de cumplir con la promesa de la Web Semántica.

Esta lista de retos es ilustrativa más que exhaustiva, y se centra en los desafíos a la "lógica unificadora" y las capas de "prueba" de la Web Semántica.

El World Wide Web Consortium (W3C). En el informe final del Grupo incubador para razonamiento de incertidumbre para la World Wide Web (URW3-XG) agrupa estos problemas bajo el mismo epígrafe de "incertidumbre". Muchas de las técnicas mencionadas aquí requerirán extensiones de la Web Ontology Language (OWL), por ejemplo, para anotar las probabilidades condicionales. Actualmente esta es un área de investigación activa.[18]

El desarrollo y difusión masivos de la web semántica tiene algunas dificultades que no ha podido superar todavía: una de ellas es tecnológica y la otra está relacionada con la falta de interés de los propietarios de las páginas web.

Las tecnologías para expresar la información en el formato que requiere una web semántica existen hace años. Quizás la componente más especializada sea OWL, que existe como estándar del W3C desde 2004. El componente tecnológico que falta es el que permita convertir de forma automática el abundante contenido de texto de las páginas web en marcas OWL. La web semántica requiere que los creadores de las páginas web traduzcan "a mano" su contenido en marcas OWL, para que pueda ser interpretado por agentes semánticos. Pero esto es inviable debido al gran volumen que tiene la Web y su imparable crecimiento, razón por la que hay que plantear procesos de anotación (por lo menos) semi-automáticos.[19]​ Afortunadamente muchas páginas (aunque no representen un porcentaje elevado de todas las páginas del mundo) tienen información formateada en su base de datos, y pueden realizar esta conversión de manera automática. Por ejemplo, un sitio con miles de fichas de películas, que incluyen datos como título, director, fecha de estreno, tiene estos datos prolijamente ordenados y clasificados en una base de datos, lo que les permite elaborar un traductor de "ficha de película" a OWL, que sirva para todas las fichas, sin necesidad de tener que realizar la traducción a mano para cada una.

La otra barrera que se opone pasivamente a la web semántica es el modelo de negocio de gran cantidad de páginas web, que obtienen ingresos de la publicidad. Estos ingresos son posibles únicamente si sus páginas son visitadas por una persona, y se pierden si los datos quedan disponibles para que los interprete un proceso automático.

El siguiente ejemplo arbitrario y parcial ilustra este concepto: para un trabajo de investigación para la escuela sobre la vida de un prócer, un sistema semántico realiza la investigación y presenta en pantalla el resultado: fecha de nacimiento y defunción, batallas en las que participó, hechos destacados, frases célebres, y todo esto sin necesidad de acceder a ninguna página web específica, y por lo tanto sin consumir la publicidad de los sitios que pusieron a disposición esa información.

La visión no debe encerrarse en estos términos. Es muy probable que, de surgir una web semántica masiva, el modelo de negocios se adapte. Sin embargo, mientras no haya indicios de que esto vaya a suceder de manera inevitable e inminente, no es lógico suponer que los sitios web basados en publicidad apoyen su desarrollo poniendo su información en el formato necesario.

Actualmente, existen nichos piloto que han comenzado con la transformación hacia la web semántica:

El primer grupo de investigación enfocado explícitamente en el corporativo de la Web Semántica ha sido el equipo de ACACIA en la INRIA-Sophia-Antipolis, fundada en 2002. Los resultados de su trabajo son el RDF (S) del motor de búsqueda basado Corese, y la aplicación de la tecnología de web semántica en el ámbito del E-learning.[20]

Desde 2008 el grupo corporativo de investigación de la Web Semántica que se encuentra en la Universidad Libre de Berlín, se centra en bloques de construcción: Búsqueda semántica Corporativa, Colaboración empresarial Semántica y la Ingeniería Ontológica corporativa.[21]

La investigación en ingeniería ontología incluye la cuestión de cómo involucrar a los usuarios no expertos en la creación de ontologías y contenido semánticamente anotada para la extracción de conocimiento explícito de la interacción de los usuarios dentro de las empresas.[22]

La normalización para la Web Semántica, en el contexto de la Web 3.0, está bajo el cuidado del W3C.

Los principales componentes de la Web Semántica son los metalenguajes y los estándares de representación XML, XML Schema, RDF, RDF Schema y OWL, así como el lenguaje SPARQL para la consulta de datos RDF.[23]​ La OWL Web Ontology Language Overview describe la función y relación de cada uno de estos componentes de la Web Semántica:

La usabilidad y aprovechamiento de la Web y sus recursos interconectados puede aumentar con la web semántica gracias a:

Los proveedores primarios de esta tecnología son las URIs que identifican los recursos junto con XML y los namespaces. Si a esto se añade un poco de lógica, mediante una RDF, u otras tecnologías como los mapas temáticos y algo de razonamiento basado en técnicas de inteligencia artificial, Internet podría estar cerca de alcanzar las aspiraciones iniciales de su inventor, Tim Berners-Lee.

Normas bien establecidas:

Todavía no se ha realizado plenamente:

La intención es mejorar la usabilidad y utilidad de la Web y sus recursos interconectados mediante la creación de servicios Web Semánticos, tales como:

• Los servidores que exponen a los sistemas de datos existentes utilizando los estándares RDF y SPARQL. Muchos convertidores a RDF existen desde diferentes aplicaciones. Las bases de datos relacionales son una fuente importante. El servidor web semántico se conecta al sistema existente sin afectar a su funcionamiento.

• Documentos "marcados" con información semántica (una extensión del HTML <meta> etiquetas utilizadas en las páginas web de hoy en día para suministrar información para los motores de búsqueda utilizando los rastreadores web). Esta información podría ser legible por máquina sobre el contenido humano-comprensible del documento (como el creador, título, descripción, etc.) o puede ser puramente metadatos que representen una serie de factores (tales como los recursos y servicios en otros lugares en el sitio). Se debe de tener en cuenta que cualquier cosa que pueda ser identificado con un identificador uniforme de recursos (URI) puede ser descrito, por lo que la web semántica puede razonar acerca de los animales, personas, lugares, ideas, etc. Hay cuatro formatos de anotación semántica que se pueden utilizar en los documentos HTML; microformato, RDFa de microdatos y JSON-LD.[24]​ El marcado semántico se genera regularmente de manera automática, en lugar de forma manual.

• Vocabularios de metadatos común (ontologías) y mapas entre vocabularios que permiten que los creadores de documentos sepan cómo marcar sus documentos para que los agentes puedan utilizar la información de los metadatos suministrados (de este modo un autor en el sentido de que el autor de la página no se confundirá con autor en el sentido de un libro que es objeto de una reseña).

• Agentes automatizados para realizar tareas para los usuarios de la Web Semántica que utilizan estos datos.

• Servicios basados en la web (a menudo con agentes propios) para suministrar información específica a los agentes, por ejemplo, un servicio de confianza que un agente podría preguntar si alguna tienda en línea tiene una historia de un mal servicio o envío de correo spam.

Estos servicios podrían ser útiles para los motores de búsqueda públicos, o que pueden ser utilizados para la gestión del conocimiento dentro de una organización.

Las aplicaciones de negocios incluyen:

• Facilitar la integración de la información procedente de fuentes mixtas.

• Ambigüedades de disolución en la terminología corporativa.

• El mejoramiento de la recuperación de información lo que reduce la sobrecarga de información.

• La identificación de información relevante con respecto a un determinado dominio.[25]

• Proporcionar apoyo de toma de decisiones

En una corporación, no es un grupo cerrado de usuarios y la gestión es capaz de cumplir los lineamientos de la empresa, como la adopción de determinadas ontologías y el uso de la anotación semántica. En comparación con la Web Semántica pública hay menos requisitos de escalabilidad y la información que circula dentro de una empresa pueden ser generalmente más confiable; la privacidad es un problema menor fuera del manejo de datos de los clientes.

El entusiasmo sobre la web semántica podría ser atemperada por preocupaciones con respecto a la censura y la privacidad, por ejemplo, las técnicas de análisis de un texto pueden ahora ser fácilmente sobrepasadas mediante el uso de otras palabras, metáforas por ejemplo, o mediante el uso de imágenes en lugar de palabras. Una implementación avanzada de la Web Semántica haría más fácil para los gobiernos controlar la visualización y creación de información en línea, ya que esta información sería mucho más fácil de entender para una máquina automatizada de bloqueo de contenidos. Además, la cuestión se ha planteado también que, con el uso de FOAF archivos y geolocalización de metadatos, habría muy poco anonimato asociado en la autoría de artículos por ejemplo un blog personal. Algunos de estos problemas fueron abordados en el proyecto "Política Consciente Web"[26]​ y es un tema activo de investigación y desarrollo.

Erróneamente se identifican los conceptos de Web semántica y Web 3.0 La Web Semántica es un conjunto de actividades, tal y como indica el propio World Wide Web Consortium,[27]​ al amparo de las cuales se han desarrollado un conjunto de tecnologías que se aplican en muchos ámbitos: redes sociales, publicación de datos, realización de inferencias, marcado semántico de documentos convencionales, etc. Por su parte la Web 3.0 se refiere a un entorno en el que aplicaciones y agentes de usuario[28]​ intercambian datos, los procesan e incluso realizan procesos de inferencias para generar nueva información.[29]



Escribe un comentario o lo que quieras sobre Web semántica (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!