El artículo habla sobre la detección de temas dentro de Twitter al observar las palabras que se incluyen en los mensajes, se buscan los temas más repetidos y se toman como hot topics. Sin embargo, que una palabra se encuentre en dos mensajes no significa que ambos hablen necesariamente del mismo evento, por ejemplo encontrar estadio puede referirse en un mensaje a un partido de beisbol y en otro a un juego de fútbol. Para corregir los errores que pueden generarse por este problema, utilizaron las propiedades temporales y espaciales de los mensajes.
El sistema propuesto utiliza la siguiente arquitectura:
Primer se toman todos los tuits que tengan geotagging activado pero se eliminan los que provienen de foursquare debido a que la mayoría solo contienen información del sitio y un enlace. Posteriormente emplearon MeCab (herramienta morfológica del idioma japonés) para descomponer el cuerpo de los mensajes en las partes en su categoría gramatical enfocándose solamente en los sustantivos y verbos.
Después de construir un conjunto de palabras semánticamente relacionadas obtenidas en los tuits, se procede a detectar los hot topics mediante los siguientes pasos:
Construir la relación entre un conjunto de palabras:
Es posible que dos palabras distintas hablen de un mismo tema dando paso a un fenómeno llamado fluctuación semántica. Se tomaron en cuenta fluctuaciones ortográficas, espaciales y temporales.
Se asume que cada mensaje habla de un solo tema debido al límite de caracteres que existe en Twitter. Para determinar las relaciones entre palabras, primero se construye la relación de palabras entre cada par contenido en el tuit. Se establece un peso entre cada par de palabras que es directamente proporcional a la frecuencia en que ambas palabras son encontradas en distintos tuits. Se emplea a Wikipedia como medio para contribuir al cálculo de los pesos dependiendo de si los términos también son encontrados en su sitio.
Clasificar las palabras en temas o clustering:
Se emplea un método de clustering incremental para clasificar las palabras en temas. El threshold empleado en el método fue determinado de manera empírica. Se introduce un grado de similitud de asociación entre las palabras y los temas.
Detectar los hot topics utilizando un método de burst-detection:
Se utiliza un método de burst-detection para determinar la frecuencia de un tema en un periodo de tiempo. Se determina si el flujo de mensajes respecto a un tema es más denso que en condiciones normales al compararlo con otras fuentes foros y sitios de noticias.
El experimento realizado tomó en cuenta una región de 5x5 km alrededor de un estadio de beisbol para determinar la fluctuación semántica. Los resultados se muestran en las siguientes figuras:
Se puede observar que las palabras Tokyo y Shinjyuku aparecen frecuentemente en el rango de tiempo al estar relacionadas con el espacio observado. Sin embargo, palabras como strike o preemptive point solo aparecen en una fecha específica como cuando ocurre un juego de beisbol ya que son términos directamente relacionados a dicho deporte. Además, ambas palabras no aparecen en todos los días en los que un juego ocurrió debido a que el número de mensajes relacionados a los juegos es relativamente bajo.
De las frecuencias se puede observar que existen temas que aparecen o aumentan su cantidad cuando el evento ocurre.
En general el sistema funciona al clasificar los tuits en temas de acuerdo a su contenido y se obtienen los principales dependiendo de la frecuencia en que se presenten mensajes que contienen palabras relacionadas con los temas.
Ishikawa, S., & Arakawa, Y. (2012). Hot topic detection in local areas using Twitter and Wikipedia. ARCS Workshops. Retrieved from http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6222198