Este artículo se basa en el uso de un diccionario para la normalización de mensajes de Twitter debido a que la búsqueda en un diccionario es menos costosa computacionalmente que otros métodos empleados para este proceso. Sin embargo, el enorme número de variantes de palabras existentes dentro de Twitter vuelve prácticamente imposible la construcción manual del diccionario.
Mientras más corta sea la representación de la palabra, mayor será su tendencia a ser ambigua. Mientras más caracteres posean, es más difícil encontrar distintas interpretaciones. En este segundo tipo de escenario es en el que está basado el sistema.
Primero se obtienen datos de Twitter para formar pares en base a la similitud de su distribución. Se forman pares de palabras IV con OOV. Se formarán pares del tipo (tmrw, tomorrow) y otros falsos positivos como (Tusday, Sunday) o (Youtube, web). El siguiente paso es reordenar los pares en base a la similitud existente entre ellos.
Para la similitud entre los pares se desea tomar en cuenta el contexto de las palabras. Para definir el contexto se hicieron pruebas con el tamaño de la ventana de contexto (1 a 3 tokens en ambos lados), el orden del n-gram de los tokens (unigrama, bigrama, trigrama), si las palabras están indexadas para posicionamiento relativo y si se emplean todos los tokens de contexto o sólo las palabras IV.
Se utilizó un corpus de 10 millones de mensajes en Twitter recolectados entre septiembre de 2010 y enero de 2011. Se utilizaron sólo aquéllos en el idioma inglés y se aplicó un tokenizer simplificado para Twitter. Se empleó el diccionario de Aspell para determinar si las palabras eran IV y sólo se introdujeron palabras OOV al diccionario que tuvieran al menos 64 apariciones y una longitud mayor o igual a 4 caracteres. Al formar los pares, sólo se tomaron en cuenta aquellos que son morfo-fonéticamente similares entre sí.
Para evaluar los pares generados, se usó el criterio de 5 anotadores con 10,000 palabras OOV seleccionadas aleatoriamente dentro de los 10 millones de mensajes. Se consideró que debían concordar 3 de los 5 anotadores para que fuese correcto el par. Como resultado se obtuvieron 351 variantes léxicas y 282 palabras OOV correctas (como nombres de productos como iPad).
Los resultados de manejar diversos valores en los parámetros de similitud se presentan a continuación:
Para la evaluación se tomaron en cuenta las siguientes métricas:
Se compararon los resultados con otros diccionarios y los resultados fueron los siguientes:
Han, B., Cook, P., & Baldwin, T. (2012). Automatically Constructing a Normalisation Dictionary for Microblogs. newdesign.aclweb.org, (July), 421–432. Retrieved from http://newdesign.aclweb.org/anthology-new/D/D12/D12-1039.pdf