Tesis Doctoral Aram: Learning Similarities for Text Documents using Neural Networks

En IR (Information Retrieval) y los motores de búsqueda Web, se tiende a representar a las palabras como bolsas de palabras (bags of words) por lo que se toma a cada palabra independiente una de la otra. De este modo, los documentos representados como vectores ocupan un espacio dimensional muy grande (con millones de componentes que corresponden a cada palabra en el diccionario). Para determinar la similitud entre dos documentos, se emplea la co-ocurrencia de las mismas palabras (correlación de coseno). Esta representación no logra capturar el sentido semántico de los documentos ya que no toma en cuenta la complejidad del lenguaje natural (sinónimos, homónimos, verbos, etc.). En el artículo se propone una MLP (Multi Layered Perceptron) para proyectar la bolsa de palabras a un espacio dimensional pequeño y posteriormente realizar las búsquedas mediante el k-vecino más cercano basado en su distancia euclidiana.

Mientras que el aprendizaje supervisado es empleado en ocasiones en las que se tiene clara una salida (una clasificación) y una serie de entradas, en el caso del artículo buscan un enfoque no supervisado en el que se intenta obtener patrones de relación entre los términos de entrada.

El proceso de la red intenta agrupar a los términos mediante su similitud, los patrones similares son atraídos entre sí mientras que se alejan de los que no se tiene nada en común. La siguiente figura muestra un ejemplo del proceso:

Para las pruebas se buscaron documentos que hablasen de Linux, Formula 1 y Ciencia Ficción. Se recolectaron aproximadamente 90,000 entradas por tema. Los resultados muestran que solamente para las búsquedas hechas sobre temas de ciencia ficción, se obtuvieron resultados no favorables como se muestra en la siguiente figura:

Cada red fue entrenada con una capa oculta de 8 neuronas y como máximo 250 iteraciones. Los resultados fueron evaluados respecto a opiniones de expertos en cada uno de los temas elegidos.

Diligenti, M., Maggini, M., & Rigutini, L. (2003). Learning similarities for text documents using neural networks. Artificial Neural Networks in Pattern Recognition (ANNPR). Retrieved from http://nautilus.dii.unisi.it/pubblicazioni/files/conference/ANN.pdf

Tesis Doctoral Aram

Thursday, December 6, 2012

Learning Similarities for Text Documents using Neural Networks

No comments:

Post a Comment