Tesis Doctoral Aram: Aplicación del Procesamiento de Lenguaje Natural en la Recuperación de Información

La aplicación está basada en Recuperación de Información (RI) que consiste en la acción de recibir una consulta o pregunta de un usuario y devolver un conjunto o serie de documentos ordenados según su relevancia respecto a lo que se pidió. El propósito general consiste en mejorar la calidad de los resultados arrojados al hacer uso de técnicas de procesamiento de lenguaje natural (PLN).

El modelo propuesto se basa en que un documento puede estar representado por sus entidades y las relaciones que existen entre ellas. Las entidades son representadas por sintagramas nominales (Noun Phrase NP). Para las relaciones se emplean cláusulas en las que el verbo es el núcleo y los modificadores son los NP y los sintagramas preposicionales (Prepositional Phrase PP).

El ejemplo que indican para su análisis inicia con la siguiente oración: “Mary Blake arrived late, so Mary Spencer who is the secretary of ARS fined her, the president of ISS, with 1000€”. Se identifican dos entidades: Mary Blake y Mary Spencer, además se puede obtener datos de Mary Spencer (secretary of ARS). Al resolver la referencia anafórica entre her y Mary Blake se puede obtener que ella es the president of ISS. Esto permite que se pueda responder al usuario por consultas por Mary Blake, the president of ISS y descartar otras como Mary Blake, the president of ARS.

Para obtener el conocimiento emplearon el Slot Unification Parser for Anaphora Resolution (SUPAR). El sistema necesita como entrada el resultado de un etiquetador POS tagger (para el idioma español emplearon Maco) y se realiza un análisis sintáctico parcial del texto.

Para implementar las entidades y relaciones dentro del modelo vectorial tradicional de RI, se emplean 3 tablas NPT, PPT y CCT. NPT almacena la información de las entidades NP. PPT Y CCT almacenan información adicional sobre las entidades o las relaciones entre ellas ya sea en sintagramas preposicionales o clausulas. Por ejemplo se maneja la frase architecture in San Louis, la preposición in indica que es muy probable que San Louis sea un lugar en lugar de una persona por lo que se debe dar más puntaje al documento en que una PP aparezca como in San Louis a que aparezca solo. CCT se dedica a guardar información sobre las relaciones entre entidades en base a los verbos. A continuación se presentan ejemplos de las tablas:

En general el modelo se utiliza para enfrentar al concepto tradicional del modelo de sacos de palabras que asumen que los términos ocurren independientemente unos de otros al indexar entidades y las relaciones entre ellas.

Se adaptó el modelo vectorial al cambiar los términos por entidades y modificar la medida de similitud al introducir NLPfactor y proximity como valores.

En general los resultados muestran una mejoría respecto al modelo vectorial original en dos idiomas (inglés y español) en consultas largas y cortas. En inglés, las preguntas cortas tuvieron una mejoría en precisión de 35.11% mientras que en las largas fue de 12.96%. En español se lograron mejorías de 27.42% y 37.18% respectivamente. Comparándolos contra el método de coseno pivotado se obtuvo que en inglés se mejoró en 21.12% y 9.91% mientras que en español resultó con 19.76% y 36.67%.

Rojas, Y., Ferrández, A., & Peral, J. (2005). Aplicación del procesamiento de lenguaje natural en la recuperación de información. Procesamiento del lenguaje natural, (1999). Retrieved from http://www.sepln.org/revistaSEPLN/revista/34/02.pdf

Tesis Doctoral Aram

Thursday, November 8, 2012

Aplicación del Procesamiento de Lenguaje Natural en la Recuperación de Información

No comments:

Post a Comment