miércoles, 24 de noviembre de 2010

TECNICAS DE EXTRACCION DE INFORMACION


TECNICAS DE EXTRACCION DE INFORMACION


La Extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo derecuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora.
Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en áreas muy restringidas. Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes.


CUALES SON



§          Reconocimiento de nombres de entidades (NER, por sus siglas en inglés). Busca localizar y clasificar elementos atómicos en texto sobre categorías predefinidas como nombres de personas, organizaciones, lugares, expresiones de horas, cantidades, valores monetarios, porcentajes, etc.
§           Resolución de la correferencia (CR, por sus siglas en inglés). Identifica distintos sintagmas nominales que se refieren al mismo objeto. La anáfora es un tipo de correferencialidad.
§            Extracción de terminología. Identifica y extrae candidatos a términos de los textos explorados.
§             Extracción de relaciones. Requiere la detección y clasificación de las menciones a relaciones semánticas (como el número de teléfono de un cliente o la dirección de un cliente)



COMO SE APLICAN


La filosofía de trabajo de los SEI se basa en la aplicación de un conjunto de reglas construidas, tanto manual como automáticamente, para identificar las referencias a la información que nos interesa dentro de una serie de textos y proporcionar una representación simbólica de la misma. Estas reglas están basadas en aspectos del vocabulario, de la semántica y del estilo de escritura propios de cada dominio [Soderland, 1997]. Por esto la utilización de técnicas para el procesamiento del lenguaje natural y el uso de conocimiento relacionado con el dominio en que se está trabajando son de vital importancia para la construcción de un SEI.

Un buen sistema de extracción de información debe ser capaz de deducir que Luis López y Marta Pérez son personas, 4 de marzo de 2005 es una fecha y que Empresa S.A es una organización. Esta primera tarea, que consiste en identificar entidades de diferentes tipos en el texto, se denomina Named Entity Recognition.

Además debe ser capaz de solucionar anáforas. En el ejemplo, existen dos eventos: dejar un puesto y tomar otra persona el mismo puesto.Nótese que, para saber que se refieren al mismo evento, puede ser necesario realizar la resolución de anáfora, descubriendo que el pronombre Él en la segunda frase se refiere a Luis López.

No hay comentarios:

Publicar un comentario