Twitter es un espacio que contiene millones de mensajes de los cuales se puede buscar extraer información. Sin embargo, existen problemas en la forma en que la información es presentada, el texto puede contener errores, abreviaciones, emoticons, referencias, etc., esto puede impactar en el análisis de los mensajes.
Un ejemplo utilizado en el artículo es la palabra “Goood” que puede referirse a “Good” (bueno) o a “God” (Dios) dependiendo del contexto por lo que el aprendizaje supervisado puede tener dificultades.
El artículo se enfoca a trasladar las palabras OOV (Out Of Vocabulary) a su forma léxica tradicional en inglés. El sistema se limita al idioma inglés y a que cada token puede ser transformado a una sola palabra (smokin a smoking pero no imo a in my opinion). A este proceso lo denominan como normalización léxica.
Como primer paso, queda determinar la relevancia de crear un sistema de este tipo basados en la proporción de palabras OOV presentes. Para esto tomaron textos del NY Times, SMS (mensajes de texto de celular) y Twitter. Los resultados se presentan a continuación en la siguiente figura destacando cuestiones como que 15% de los mensajes en Twitter contienen 50% o más tokens OOV.
Para analizar el origen de los problemas léxicos tomaron 449 mensajes al azar y encontraron 254 instancias para normalización léxica. Las dividieron en lo mostrado en la siguiente figura:
Se crea un conjunto de confusión (Confusion Set) en el que se identifican los posibles candidatos a normalización. Se reducen las letras repetidas que tengan más de tres veces el mismo carácter a 3. Se calcula la distancia entre el candidato y las palabras en el diccionario con un Threshold determinado. Se lleva a cabo un proceso similar pero con el sonido de las palabras utilizando transcripción fonética. En la siguiente figura se muestran resultados de variar el Threshold.
Para determinar si una palabra esta mal formada (ill-formed) respecto a su conjunto de confusión, se utilizan las palabras adyacentes (2 palabras en cada lado) y mediante un SVM de un solo kernel se determina si lo es probando cada una de las combinaciones de las 3 palabras.
Para las palabras que quedan como candidatas a estar mal formadas se hace una selección de la palabra correcta según: lexical edit distance, phonemic edit distance, prefix substring, suffix substring y LCS (Longest Common Subsequence) para capturar la similitud morfo-fonética. Para inferir el contexto se emplea modelo del lenguaje y características basadas en la frecuencia de las dependencias.
Las pruebas se realizaron con dos objetivos: probar la identificación de palabras mal formadas y la selección de candidato. La evaluación de ambas pruebas se basó en la precisión a nivel de token, recall, y F-Score. Algunos datos observados muestran que mientras mayor sea el Threshold, de detección mayor será la precisión pero el recall caerá. Existen diferencias entre las dependencias encontradas en los diferentes conjuntos de prueba. Las siguientes imágenes muestran los resultados obtenidos:
En general encontraron ciertas semejanzas en los errores en los mensajes SMS y en Twitter. La mayoría de los errores son de tipo de variaciones morfo-fonéticas. El detector de palabras mal formadas no requiere anotaciones explícitas y las características basadas en dependencias resultaron ser útiles.
Han, B., & Baldwin, T. (2011). Lexical normalisation of short text messages: Makn sens a# twitter. HLT ’11 Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (pp. 368–378). Retrieved from http://ww2.cs.mu.oz.au/~hanb/acl2011-normalisation-slides.pdf
No comments:
Post a Comment