Tesis Doctoral Aram: Exploring Tweets Normalization and Query Time Sensitivity for Twitter Search

La edición 2011 del TREC (Text Retrieval Conference) Microblog se centra en la evaluación de la búsqueda de información en Twitter. Como reto se requiere que los sistemas regresen los tuits más relevantes para 50 consultas específicas. Las aproximaciones tomadas en este artículo se basan en dos diferentes puntos: procesamiento de contenido mal formado (con errores) y la sensibilidad temporal de las consultas de Twitter.

Procesamiento del contenido: A diferencia de otro tipo de contenidos como las noticias, los mensajes en Twitter contienen un gran número de expresiones irregulares que incluyen errores de ortografía, sustituciones fonéticas, términos morfológicos adhoc, emoticons, sintaxis especializada, etc. Estas expresiones derivan en que existan grandes diferencias entre los términos buscados y el contenido del microblog, afectando así directamente la efectividad de las consultas. Siendo así, se optó por normalizar y regularizar el contenido para obtener las palabras originales y correctas.
Procesamiento de las consultas: Dado que los mensajes en Twitter son muy cortos, para obtener resultados de búsqueda más relevantes se emplea PRF (Pseudo Relevance Feedback) para expandir las consultas originales. Algunos estudios muestran que las personas tienden a hacer búsquedas en Twitter para obtener información de relevancia temporal, como por ejemplo eventos actuales, trending topics, información en tiempo real, etc. Debido a esto dividieron las consultas en consultas con sensibilidad temporal y consultas sin sensibilidad temporal.

Se emplea el Indri Toolkit para recolección y almacenaje de información. Por lo demás la siguiente figura muestra la arquitectura del framework creado:

Se tomaron los tuits de la semana del 23 de enero de 2011 al 8 de febrero del mismo año. Se recolectaron más de 16 millones de mensajes pero debido al enfoque se eliminaron los que no correspondían al idioma inglés dando así como resultado una base de 6 millones de tuits. Las estadísticas se muestran en las siguientes figuras:

Para la normalización del texto se siguieron los siguientes pasos:

Detección de palabras OOV: Se compara cada token de los mensajes contra un diccionario y los términos que no se encuentren se tratan como palabras OOV. Los tokens de un solo elemento como son removidos excepto por “I” y “a”. “RT” también es eliminado pues se presenta al inicio de todos los retuits.
Traducción de jerga: Las palabras pertenecientes a una jerga normalmente no son comunes dentro de un diccionario formal pero se puede encontrar un equivalente.
Generación del conjunto de candidatas: Para cada palabra OOV se genera un conjunto de palabras estándar basado en la distancia léxica (lexical edit distance) y la distancia fonética (fonetic edit distance). Para empezar la repetición de 3 o más letras se reduce a 2. Se indica un umbral (threshold) para decidir si una palabra se considera candidata.
Selección de candidata: Se utiliza tanto la similitud de la palabra como la inferencia del contexto para la elección de que palabra entre el conjunto de candidatas es la más adecuada. Para el cálculo de la similitud de la palabra se emplea la distancia léxica, distancia fonética, sub-secuenca de prefijo, sub-secuencia de sufijo y LCS (Longest Common Sequence). Para la inferencia del contexto se emplean los siguientes métodos:
1. Dependency-based frequency feature: Se remplaza la palabra OOV por la candidata y se calcula la dependencia de frecuencia basada en un banco de dependencias generado a partir del New York Times.
2. Language Model: De nuevo se cambia la palabra OOV por la candidata y se calcula la similitud basada en la cuenta de tri-gramas recolectadas del Web 1T 5-gram Corpus.

La parte que más tomó tiempo fue la del modelo del lenguaje que consumió hasta varios segundos para una sola elección.

Para determinar si una consulta tiene relevancia respecto al tiempo se analizó la distribución temporal de los resultados de la consulta. Se determinó que si más de la mitad de los n mensajes recuperados son de un mismo día, la consulta se determina con sensibilidad temporal.

Los resultados de las pruebas se muestran en la siguiente tabla:

En general el uso de la normalización mejora el desempeño del sistema y la parte temporal, ayuda aunque no resulta tan determinante. La normalización es una versión reducida o sencilla de otro artículo pero sin embargo logra mejorar el desempeño del sistema.

Wei, Z., Gao, W., Zhou, L., Li, B., & Wong13, K. (2011). Exploring Tweets Normalization and Query Time Sensitivity for Twitter Search. trec.nist.gov. Retrieved from http://trec.nist.gov/pubs/trec20/papers/SEEM_CUHK.microblog.update.pdf

Tesis Doctoral Aram

Thursday, October 11, 2012

Exploring Tweets Normalization and Query Time Sensitivity for Twitter Search

No comments:

Post a Comment