Extracción de la información

La extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora.

Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Estos textos pueden estar en forma semiestructurada o desestructurada. Estos documentos pueden ser muy variopintos desde artículos de prensa hasta informes científicos que en general están escritos en un lenguaje humano. Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en áreas muy restringidas.

El objetivo es procesar estos documentos con un software de procesamiento de lenguaje natural (NLP) para extraer información útil de ellos. Esta tarea es muy compleja ya que estos programas suelen operar con unos dominios muy restringidos. Lo que dificulta extraer la información de textos con un lenguaje poco formal o imágenes.

Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años:

Escribe un comentario o lo que quieras sobre Extracción de la información (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!