Tesis Doctoral Aram: Named Entity Recognition in Tweets: An Experimental Study

Los mensajes en Twitter comprenden una compilación única de información que incluso puede ser más actual que la encontrada en noticias tradicionales debido a su facilidad de uso y la proliferación de los dispositivos móviles. Debido al volumen de mensajes, se piensa en utilizar técnicas como named-entity recognition, information extraction y text mining. Sin embargo, el desempeño de las herramientas de procesamiento de lenguaje natural suelen ser pobre debido a que fueron entrenadas en otro ambiente.

Identificar entidades en Twitter presenta dos problemas. El primero radica en que existe una gran cantidad de entidades (compañías, productos, películas, grupos musicales, etc.) y la mayoría de estos (exceptuando a Personas y Lugares) se presentan de forma relativamente infrecuente. El segundo problema se basa en la limitante de 140 caracteres que permite Twitter por lo que llega a ser difícil determinar el tipo de entidad sin un contexto adecuado.

Para solucionar los problemas, se propone un acercamiento distantemente supervisado que aplica LabeledLDA para tomar gran cantidad de información sin etiquetar en conjunto con diccionarios de datos obtenidos de Freebase y combinar la información del contexto de una entidad en sus menciones.

Se utiliza POS Tagging como una técnica de NLP. POS Tagging asigna cada palabra a su etiqueta más frecuente y asigna cada palabra OOV (Out Of Vocabulary) a la etiqueta POS más común. En el experimento tradicional de Brown corpus se obtuvo un 0.9 de precisión mientras que en los datos de Twitter obtiene solo un 0.76.

El principal motivo del impacto en la precisión se basa en que los mensajes de Twitter contienen más palabras OOV que texto gramatical. Muchas de las palabras OOV se obtienen de errores o variaciones en la ortografía.

Algunos ejemplos de casos que impactan el desempeño son el uso indebido de mayúsculas que no permiten diferenciar entre nombres propios y comunes, verbos y exclamaciones identificados como sustantivos, diferencias en vocabulario, diferencias entre la gramática de los mensajes de Twitter y la usada en el texto de noticias. Los tuits inician suelen iniciar con un verbo omitiendo o el sujeto.

Se anotó manualmente un conjunto de 800 tuits (16K tokens) con etiquetas del conjunto de Penn TreeBank para uso como información de entrenamiento dentro del dominio. Se agregaron etiquetas para fenómenos exclusivos de Twitter como retuits, @nombres_de_usuarios, #hashtags y URLs.

Para las palabras OOV y las variaciones léxicas, se aplicó clustering para agrupar a las palabras que son similares distributivamente. Se utilizó un clustering jerárquico con Jcluster en 52 millones de tuits. Los clusters formados frecuentemente resultan efectivos para capturar las variaciones léxicas como en el ejemplo que proveen para la palabra tomorrow mostrado en la siguiente figura:

T-POS (su sistema) emplea Conditional Random Fields debido a que pueden modelar fuertes dependencias entre POS tags adyacentes y también hacer uso de características altamente correlacionadas. La comparación entre T-POS y el hecho por Stanford se muestra en la siguiente figura:

Shallow Parsing (también denominado como chunking) es la acción de identificar frases no recursivas como frases de sustantivos, frases de verbos y frases preposicionales en el texto.

El uso de mayúsculas es una característica clave para la identificación de entidades. Sin embargo, en Twitter no se encuentra de manera confiable como si podría hallarse en otro tipo de textos. Existe una gran variedad de estilos desde los que no incluyen mayúsculas a los que escriben el texto completamente en mayúsculas. Se construyó un clasificador que toma en cuenta el contenido completo del mensaje y predice si el uso de mayúsculas en un tuit es informativo o no.

Los tuits individuales suelen no contener suficiente información para determinar a una entidad. Además existe el problema de contar con poca presencia, es decir, que no se mencione frecuentemente a una entidad de forma que puede que no se encuentre presente en el conjunto de entrenamiento o que no sea suficiente para su clasificación. Para disminuir el impacto de este problema, se utilizan grandes listas de entidades y sus tipos de una ontología de dominio abierto (Freebase) como fuente para supervisión a distancia.

Sin embargo, la simple búsqueda de entidades y su tipo no es suficiente debido a que existen entidades (35% en el caso de las pruebas) que se encuentran en varias categorías. Además 30% de las entidades mencionadas en Twitter no aparecen en absoluto en Freebase, esto puede ocurrir debido a que es una referencia muy nueva o porque se encuentra mal escrita o abreviada.

Para modelar las entidades sin etiquetar utilizaron LabeledLDA restringiendo a cada entidad a un conjunto de temas basados en los posibles temas arrojados por Freebase. LabeledLDA modela cada string de una entidad como una mezcla de tipos en lugar de un tipo escondido como lo hacen otros modelos anteriores. Esto ayuda a manejar entidades ambiguas que puedan referirse a varios temas.

En general el artículo se basa en la comparación experimental de los resultados de utilizar un POS Tagger propio entrenado con términos comunes en Twitter y otros que son comúnmente utilizados y entrenados con otro tipo de fuentes (textos de noticias principalmente). Se obtienen mejoras (reducen el error de clasificación) y se puede encontrar la herramienta en: https://github.com/aritter/

Ritter, A., Clark, S., & Etzioni, O. (2011). Named entity recognition in tweets: an experimental study. EMNLP ’11 Proceedings of the Conference on Empirical Methods in Natural Language Processing (pp. 1524–1534). Retrieved from http://dl.acm.org/citation.cfm?id=2145595

Tesis Doctoral Aram

Thursday, September 20, 2012

Named Entity Recognition in Tweets: An Experimental Study

No comments:

Post a Comment