Thursday, September 6, 2012

Breaking News Detection and Tracking in Twitter

Twitter es un medio que permite transmitir información en tan solo 140 caracteres. Los usuarios tienden a compartir eventos de relevancia para ellos, en este caso noticias, debido a la facilidad y alcance que se logra.

En si se separa la obtención de noticias recientes en dos partes: el aspecto de un solo mensaje y el aspecto de la línea de tiempo. Primero se tiene el aspecto de un solo mensaje. Un mensaje contiene dos elementos de relevancia: emociones y hechos. Las emociones distinguen a la entrega de la información por medio de Twitter de lo que haría un periodista profesional, aunque existan casos en que tradicionalmente se incluya en un medio profesional, este fenómeno tiende a aparecer más en Twitter. Las emociones se encuentran expresadas por símbolos (como el signo de exclamación) o por el uso de adjetivos.

Los hechos por su parte se encuentran en forma de texto, híper-texto, locación y fuente de información de quien envía el mensaje. La información basada en texto tiene gran relevancia ya que ayuda a responder los detalles de la noticia (¿qué?, ¿cuándo?, ¿cómo?, etc.). Se pueden establecer palabras clave que contribuyan a la noticia y normalmente son sustantivos y verbos significativos. Los sustantivos pueden incluir palabras encontradas en noticias convencionales, nombres de lugares famosos, personas y eventos. Los verbos significativos que se presentan como ejemplo son: quemar, chocar, bombardear, sobrevivir, rescatar, etc. Los usuarios tienden a preceder las palabras claves por una almohadilla o numeral (#) para agrupar los mensajes que se refieren al mismo tema. Los hechos basados en híper-texto proveen información de fuentes externas. Otros elementos comunes son la inclusión de mapas o imágenes para complementar la noticia.

Por su parte la línea del tiempo permite observar que los mensajes importantes o interesantes tienden a ser más retuiteados que otros. Se puede observar el desenvolvimiento de una historia por medio de una serie de mensajes. Un ejemplo se muestra en la siguiente figura:

image

El trabajo que se presenta deja de lado las emociones como trabajo a futuro y se concentra en un método para recolectar, agrupar, clasificar y seguir noticias actuales. Se divide el proceso en encontrar una historia y seguir el desarrollo de la historia. El proceso se muestra en la siguiente figura:

image

Para encontrar una historia se siguen los siguientes tres pasos:

  1. Sampling: Mediante peticiones al Straming API de Twitter, se consultan términos relacionados con las noticias emergentes por ejemplo: #breakingnews, breaking news, etc.
  2. Indexing: Se hace un indexado basado en el contenido de los mensajes utilizando el método de Apache Lucene.
  3. Grouping: Los mensajes que son similares entre si son agrupados para formar la historia de una noticia. La medida de similitud se calcula mediante el TF-IDF. Para asegurar que un mensaje se encuentra relacionado a una noticia se compara con el mensaje original y con un número k (en este caso 10) de términos en el grupo.

Para el desarrollo de la historia, cada historia se ajusta según una clasificación adecuada por un periodo de tiempo. Se agregan fuentes externas, fotos y videos si son encontrados.

Se llega a la conclusión de que es necesario darle mayor relevancia a los nombres propios ya que en un espacio tan pequeño como los 140 caracteres que se permiten, seguramente contienen información relevante. Los resultados de los agrupamientos se muestran en la siguiente figura:

image

Se construyó un prototipo de la aplicación llamado HotStream. Se muestran las historias más relevantes de las últimas 24 horas y al dar clic en una noticia, se obtienen más detalles así como su desarrollo. La aplicación se muestra en la siguiente figura:

image

Phuvipadawat, S., & Murata, T. (2010). Breaking News Detection and Tracking in Twitter. 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 120–123. doi:10.1109/WI-IAT.2010.205

No comments:

Post a Comment