Tesis Doctoral Aram: Improving Twitter Retrieval by Exploiting Structural Information

Tradicionalmente se trata a la información contenida en los tuits como documentos de texto plano. Debido a las diversas partes que puede presentar, se propone asumir cada mensaje como un documento estructurado construido a partir de bloques. Se utilizan los bloques para inducir una estructura que permita una mejor obtención de información personalizada. Los bloques se denominan Twitter Building Blocks (TBB).

La obtención de documentos estructurados intenta explotar la información estructural al recuperar documentos basándose en la estructura y la información del contenido.

Existen tres acciones que ocurren de manera frecuente en los mensajes de Twitter: tagging (se incluyen tags al mensaje para indicar el tema del contenido), retweeting (volver a compartir el mensaje de otro usuario) y mentioning (mencionar directamente a otro usuario). Se agregaron otras tres divisiones al contenido de los mensajes: compartir información a través de enlaces, comentarios y mensajes normales. Por lo tanto se toman en cuenta los siguientes seis TBB:

TAG – combinación de hastag (#) y palabras clave.
MET – indica a otro usuario como recipiente del mensaje.
RWT – indica el copiado y reproducción del mensaje de otro usuario.
URL – enlaces a contenidos externos.
COM – comentarios usados para describir los sentimientos de las personas.
MSG – mensaje contenido en el tuit.

La siguiente figura muestra dos mensajes de ejemplo y los bloques (TBB) identificados en la conversación:

Se tomaron 2000 mensajes aleatorios de los cuales se obtuvieron sus partes utilizando un tokenizer y luego manualmente se escribieron las partes de su estructura y se dio como resultado lo presentado en la siguiente figura:

Debido a que anotar de manera manual las TBB de cada mensaje se vuelve una tarea casi imposible, se desarrolló un sistema que lo hace de manera automática. El proceso se compone de dos partes: la primera identifica el tipo de TBB y la segunda busca los límites del TBB identificado. El proceso es similar al reconocimiento de entidades (Named Entity Recognition). Los resultados del sistema se presentan en la siguiente figura:

Dadas las estructuras encontradas se pueden agrupar los mensajes en lo siguiente:

Public Broadcast: Tuits producidos por el grupo de noticias de la BBC tienen de manera convencional la forma MSG URL TAG y TAG MSG URL. Normalmente los mensajes tienen un texto introductorio seguido de un enlace.
Private Broadcast: Tuits mandados por usuarios ordinarios con un pequeño número de seguidores tienen típicamente la forma COM URL y MET MSG URL. El número de personas al que le es relevante este tipo de mensajes es menor que al de la clasificación anterior.
High Quality News: La forma más común encontrada es RWT MSG URL.
Messy: Aquí se agrupan mensajes con estructuras poco comunes.

Buscando mejorar las consultas realizadas en las búsquedas de Twitter, se incorporan los siguientes elementos en la evaluación de resultados de la búsqueda:

Tipo de estructura TBB: Se usan las 14 estructuras más comunes obtenidas de los 2000 mensajes de prueba.
Posición del TBB en la consulta: Se busca en que parte de la estructura TBB se encuentra el término buscado.
Tipo TBB del vecino: Se busca la información contextual del TBB. Se busca el tipo del TBB precedente y sucesor.
Conteo de TBB: Mientras más TBB contengan los términos buscados, mayor se apegara el resultado a los intereses del usuario.
Longitud del TBB: Mientras más palabras tenga un TBB que contiene el término buscado, mayor información se estará proporcionando sobre el tema.
TBB’s OOV: Proporción de palabras en el TBB que contiene la consulta y que se encuentran fuera del diccionario.
Lenguaje del TBB: Indica si el TBB que contiene al término esta escrito en inglés.

Para la evaluación de resultados se tomó en cuenta una serie de parámetros definidos como SM_RANK y Baseline que se muestran en la siguiente figura:

Utilizando MAP (Mean Average Precision) se evaluaron las distintas métricas dando como resultado lo siguiente:

Se tienen mejoras incorporando las estructuras TBB definidas.

Luo, Z., Osborne, M., Petrovic, S., & Wang, T. (2012). Improving Twitter Retrieval by Exploiting Structural Information. Twenty-Sixth AAAI Conference on …, 648–654. Retrieved from http://www.aaai.org/ocs/index.php/AAAI/AAAI12/paper/download/4913/5252

Tesis Doctoral Aram

Thursday, October 4, 2012

Improving Twitter Retrieval by Exploiting Structural Information

No comments:

Post a Comment