Últimamente y debido al auge de las redes sociales, se han buscado maneras de lidiar con los errores ortográficos para poder aprovechar por completo la información contenida en los mensajes. Una de las líneas de investigación comúnmente utilizada se basa en el uso de aprendizaje supervisado, sin embargo, se requiere contar con un conjunto de datos de entrenamiento tanto de entradas ruidosas (con errores) como de entradas limpias. Otra desventaja consiste en requerir una manera de etiquetar cada uno de los datos del conjunto de entrenamiento.
Las palabras fuera del vocabulario (OOV – Out Of Vocabulary) ruidosas, se forman por un proceso semi-determinístico lo que las vuelve no completamente indiscernibles a un nivel léxico de la palabra original. A este tipo de palabras se les denomina variantes léxicas de la palabra limpia dentro del vocabulario (IV – In Vocabulary). Como ejemplo se brinda 2morrow, 2morow y 2mrw que de alguna forma mantienen una remembranza léxica con tomorrow debido a que sus variaciones son resultado de una transliteración fonética.
El sistema propuesto busca obtener de un gran cuerpo de texto con ruido, una serie de pares de variantes léxicas (variante – palabra limpia) de un dominio específico. El sistema requiere como entrada un texto grande en inglés común y un cuerpo grande del dominio en específico (datos de Twitter por ejemplo). Con estos dos elementos, el sistema obtiene de manera no supervisada las variantes léxicas.
Existen las siguientes condiciones que se consideraron:
- Las variantes deben encontrarse semánticamente relacionadas entre sí.
- Los pares formados por palabras con similitud léxica pero sin relación semántica quedan fuera del alcance debido a que pueden ser encontradas de manera trivial utilizando técnicas de edición basadas en distancia.
- Las variantes deben ser específicas de un dominio.
- Las variantes que capturan variaciones léxicas comunes en el inglés (running y run por ejemplo) se pueden capturar mediante el uso de procedimientos estándar de normalización como stemming. En cambio se buscan variantes del tipo de dominio específico (u por you en SMS y mensjaes en Twitter) que no son manejadas fácilmente por los métodos actuales.
- Las variantes deben ser similares de forma léxica.
Tomando como base tanto técnicas de procesamiento de lenguaje natural como minería en textos de gran tamaño, establecieron su proceso en tres pasos: identificar pares semánticamente similares, filtrar variantes comunes del idioma inglés y volver a calificar la lista de resultados basado en la similitud léxica. El proceso se muestra en la siguiente figura:
Para la búsqueda de la relación semántica se emplea una distribución de similitud como medida. Sin embargo, al estar basados en un aprendizaje sin supervisión, no se tiene un conocimiento a priori de que pares pueden estar relacionados con otros por lo que se debe de calcular la similitud semántica entre todos los posibles pares de términos. La forma en que se calcula la similitud y distribución semántica es independiente al framework presentado. El proceso se aplica tanto al cuerpo de inglés común como al específico del dominio de tal forma que se tengan dos conjuntos de pares que serán utilizados para extraer las variantes léxicas no supervisadas.
El proceso para eliminar las variantes asociadas comúnmente al inglés se basa en eliminar del conjunto de pares específicos del dominio a los pares encontrados dentro de las variantes comunes del inglés. Cualquier cuerpo de gran tamaño de inglés común puede ser empleado pero se verifica que el uso de artículos de noticias funciona bien.
Por último para cada par restante del dominio se calculan una calificación similitud semántica y otra léxica. La calificación final es el producto de ambas calificaciones. Para la parte semántica se utiliza la calificación de similitud de coseno (cosine similarity score). Por otra parte, para la similitud léxica se emplea una función de similitud de sub-secuencias que logra capturar la similitud entre las letras que no cambian entre la variante léxica y la palabra original de la que se derivó.
El resultado del proceso completo es una lista con calificaciones de pares de palabras que se encuentran semánticamente relacionadas, son específicas de un dominio y son similares de forma léxica. Se tratan a estos pares como pseudo datos de entrenamiento obtenidos de manera no supervisada que puedan ser aprovechados para uso en técnicas de procesamiento de lenguaje natural.
Para los experimentos emplearon 2GB de artículos noticiosos y aproximadamente 500 millones de mensajes de Twitter. El proceso arrojó en el primer paso una lista de 3.3 millones de posibles pares. En el segundo paso se redujo a 314 mil pares. A continuación se presenta una imagen como ejemplo del proceso completo y como varían las listas de pares:
Probando el conjunto generado en una aplicación de normalización de texto contra el método Naive y uno más complejo por parte de IBM logran obtener mejores resultados disminuyendo el error al normalizar. La construcción del diccionario de excepciones para identificar los tokens OOV es en si lo que mejora el desempeño de la normalización. Los resultados aparecen en la siguiente imagen:
Gouws, S., Hovy, D., & Metzler, D. (2011). Unsupervised mining of lexical variants from noisy text. EMNLP ’11 Proceedings of the First Workshop on Unsupervised Learning in NLP, 82–90. Retrieved from http://dl.acm.org/citation.cfm?id=2140468
No comments:
Post a Comment