Tesis Doctoral Aram: Content-based prediction of temporal boundaries for events in Twitter

La popularidad y dinámica de Twitter, permiten que se puedan relatar eventos en tiempo real. Los mensajes normalmente son escritos por personas dentro de un evento o por personas que son afectadas directamente por el evento. Para eventos que pasan después de un tiempo (derrames de petróleo, huracanes, incendios, etc.) se puede analizar los datos de los mensajes para ver la progresión del evento, como avanzó geográficamente e identificar sus mayores sub-eventos.

El objetivo de este artículo es poder determinar cuando inicia un evento y cuando termina. Se segmenta este proceso en tres etapas: la concentración (buildup) del evento, el evento y los efectos y repercusiones posteriores al evento. El estudio va más enfocado al contenido de los mensajes que al volumen de los mismos.

Se recolectaron mensajes de varios temas (deportes, eventos climáticos, eventos sociales, etc.). Se trató a cada mensaje como una instancia de datos y se le etiquetó de manera manual si el mensaje correspondía a antes, durante o después del evento. Un ejemplo sobre el resultado del proceso se muestra en la siguiente figura y son mensajes correspondientes al SuperBowl XLV.

De igual forma se consideran los mensajes que no contienen información temporal. En lugar de ser descartados, se les asignan clases de forma que puedan ser identificados por el sistema. Un ejemplo de los datasets utilizados se muestra en la siguiente figura:

Para determinar los límites temporales de los eventos hacen uso de un SVM (Support Vector Machine) multi-clase para clasificar los datos del evento en tres grupos y se probaron distintos algoritmos para estimar los límites. La arquitectura general se muestra en la siguiente figura:

Se hace una limpieza de los mensajes eliminando elementos como URLs, símbolos de retuit (RT) y menciones a usuarios. Por otra parte, se aseguran de mantener los hashtags (palabras con un numeral # previo) debido a que es una característica valiosa y se puede usar para realizar consultas.

Debido al ruido presente en los mensajes, por ejemplo abreviaturas, faltas de ortografía, emoticons, etc., se requiere de un parser especializado para lidiar con el problema.

El identificar los tiempos en los que se encuentran conjugados los verbos ayuda a determinar en que grupo se debe clasificar un mensaje. El proceso para generar las características basadas en verbos se siguen los siguientes dos pasos:

Identificar verbos: Se anota a que instancia pertenece cada palabra (Part of Speech) utilizando el modelo left3words-wsj-0-18 del Stanford Log-linear POS Tagger. Este es un ejemplo del resultado de aplicarlo a una oración: the/DT doctor/NN is/VBZ examining/VBG the/DT effects/NNS that/WDT the/DT treatment/NN has/VBZ on/IN the/DT patient/NN ./.
Identificar la verb tag phrases: Se identifica cualquier secuencia de verbos en términos de sus frases de etiqueta. La siguiente figura muestra un ejemplo de las frases y etiquetas:

Se crearon oraciones gramáticamente correctas para poder comparar los verbos encontrados. Debido al ruido que se encuentra en los mensajes de Twitter y que el Stanford POS Tagger fue entrenado con estructuras gramaticales correctas, se debieron incluir más verb tag phrases.

Para los valores de C (compensación entre el error de entrenamiento y el margen), se calculó que 30,000 era un buen número de manera empírica al tratar con valores entre 1 y 100,000. Incrementar el valor de C significa incrementar la complejidad y poder manejar datasets más complejos.

La fidelidad del sistema se probó y se mostró que no influyen en gran medida las características obtenidas de los verbos. Sin embargo, se tiene en cuenta que esto puede ser ocasionado debido a como está entrenado el Stanford POS Tagger por lo que piensan utilizar un Tagger específico para Twitter en un trabajo a futuro. Los resultados se muestran en la siguiente figura:

El uso de una ventana deslizante mostró mejorías sobre la fidelidad de los resultados del sistema. El sistema mejoró sus resultados al incrementar su ventana hasta 20, después de ahí la mejoría por continuar incrementando el tamaño no fue tan drástica. Los resultados se pueden apreciar en la siguiente figura:

Siendo que se mantienen en orden cronológico los mensajes que se están procesando y al tener tres clases (antes, durante y después), la clasificación idealmente se debería llevar a cabo mediante dos cortes en el flujo de los mensajes. La comparación de los límites obtenidos mediante el algoritmo de Cuts y las cadenas ocultas de Markov (HMM) indican que para datos suavizados (smoothed) el desempeño del algoritmo de Cuts es mejor debido a que intenta minimizar el error pero para los casos en que los datos no se encuentran así, las HMM tienen un mejor desempeño ya que usan más factores para aprender. Los resultados se muestran en la siguiente figura:

Por otra parte, se mostró que es más sencillo identificar los límites de un evento bien definido como lo son los deportivos a diferencia de otros como un huracán (su duración comprende varios días afectando a diversas zonas) o la boda real (contiene varios sub-eventos como la alfombra roja, la llegada de la Reina, etc.) Debido a esto es difícil aun para los humanos decidir los límites que tienen los eventos. Esto se muestra en la siguiente figura:

Para evaluar la posible aplicación del sistema a un dominio en específico, se construyó un clasificador para deportes utilizando los 4 eventos del dataset (empleando 3 para el aprendizaje y uno de prueba). Los resultados de detección de los límites fueron bastante precisos y sobretodo al detectar el final del evento debido a la existencia de términos como ganar, perder, felicidades y otros que solo ocurren al finalizar el juego. Los resultados de comparar el clasificador específico del evento contra el del dominio se aprecian en la siguiente figura:

Por otra parte, la siguiente figura muestra la diferencia entre los límites reales y los especificados por el sistema en el caso del SuperBowl XLV:

En general el sistema asume que se cuenta con información suficiente que cubra los eventos y las situaciones previas y posteriores al mismo. Se comparan los resultados de utilizar clasificadores entrenados para el evento y otros para el dominio. Queda como trabajo a futuro crear clasificadores de multi-dominios.

Iyengar, A., Finin, T., & Joshi, A. (2011). Content-Based Prediction of Temporal Boundaries for Events in Twitter. 2011 IEEE Third International Conference on Privacy, Security, Risk and Trust and 2011 IEEE Third Internationall Conference on Social Computing (pp. 186–191). IEEE. doi:10.1109/PASSAT/SocialCom.2011.196

Tesis Doctoral Aram

Thursday, September 6, 2012

Content-based prediction of temporal boundaries for events in Twitter

No comments:

Post a Comment