Tesis Doctoral Aram: Syntactic Normalization of Twitter Messages

Los mensajes dentro de Twitter suelen estar escritos con términos coloquiales, palabras repetitivas, palabras nuevas e interjecciones. Algunas palabras se escriben de acuerdo a su escritura fonética (nite en lugar de night) o en acrónimos combinadas con otras palabras (omg en lugar de oh my god). Además los mensajes carecen del uso correcto de mayúsculas y la puntuación. Algunos ejemplos de mensajes se presentan en la siguiente figura:

El sistema lleva a cabo una fase de normalización (preprocesamiento) de los mensajes para transformarlos en un inglés formal y que puedan ser analizados por técnicas de procesamiento de lenguaje natural. La arquitectura de esta fase se muestra a continuación:

Para la fase de preparación, se extrajeron aproximadamente un millón de tuits del Edinburgh Twitter Corpus (que contiene 97 millones de mensajes). Se removieron los mensajes que no se encontraran en el idioma inglés, es decir que al menos 40% de las palabras contenidas estuvieran en dicho idioma. De los mensajes restantes, se tomaron al azar 1150 mensajes y fueron traducidos a mano por 10 anotadores. Se removieron caracteres como los emoticons y otros elementos que no aportaran información para que las oraciones se tradujeran directamente al inglés. El propósito de esto fue el facilitar el trabajo a las herramientas de procesamiento de lenguaje natural.

Debido a la presencia de palabras que se han vuelto comunes dentro de la jerga de Twitter y que no están presentes en diccionarios, decidieron utilizar un enfoque conservador al corregir errores ortográficos para no cambiar palabras que posiblemente no estaban mal escritas.

Se creó una lista con las abreviaciones más comunes dentro de Twitter y su equivalencia en inglés. Sin embargo, existen abreviaciones que pueden variar su significado de acuerdo al contexto del mensaje por lo que fueron omitidas de la lista para ser posteriormente tratadas por un modelo estadístico de MT (Machine Translation).

Para el caso de signos y caracteres repetidos, se eliminan y si se logra formar una palabra que puede ser reconocida, se mantiene en el texto o de otra forma se elimina por completo.

Para el proceso de MT estadístico se empleó Moses. Moses permite llevar a cabo traducciones entre idiomas al seguir un proceso mediante el cual encuentra la equivalencia de una palabra dentro de un corpus a otro.

La evaluación se lleva a cabo mediante el indicador BLEU. Este indicador requiere como entrada una serie de traducciones llevadas a cabo por humanos para evaluar la traducción de la máquina en una escala de 0 a 1, siendo 0 el peor y 1 lo mejor. Los resultados se muestran a continuación:

Según se menciona, al momento de la publicación de este artículo, no existen otras investigaciones similares para comparar la efectividad de la normalización por lo que lo debieron hacer con mensajes SMS. Los resultados se muestran a continuación:

Al tener un mejor resultado BLEU de inicio, se sostiene la hipótesis que dice que los mensajes dentro de Twitter contienen menor cantidad de errores ortográficos que los encontrados en los SMS. Algunos ejemplos de los mensajes traducidos se muestran a continuación:

En el artículo se muestra que la combinación de un MT estadístico junto a un preprocesamiento, ayuda a eliminar la mayoría del ruido encontrado dentro de los mensajes de Twitter.

Kaufmann, M., & Kalita, J. (2010). Syntactic normalization of Twitter messages. International Conference on Natural Language …, 1–7. Retrieved from http://cs.uccs.edu/~jkalita/work/reu/REUFinalPapers2010/Kaufmann.pdf

Tesis Doctoral Aram

Thursday, November 29, 2012

Syntactic Normalization of Twitter Messages

No comments:

Post a Comment