Tesis Doctoral Aram: October 2012

Thursday, October 25, 2012

Hot Topic Detection in Local Areas Using Twitter and Wikipedia

El artículo habla sobre la detección de temas dentro de Twitter al observar las palabras que se incluyen en los mensajes, se buscan los temas más repetidos y se toman como hot topics. Sin embargo, que una palabra se encuentre en dos mensajes no significa que ambos hablen necesariamente del mismo evento, por ejemplo encontrar estadio puede referirse en un mensaje a un partido de beisbol y en otro a un juego de fútbol. Para corregir los errores que pueden generarse por este problema, utilizaron las propiedades temporales y espaciales de los mensajes.

El sistema propuesto utiliza la siguiente arquitectura:

Primer se toman todos los tuits que tengan geotagging activado pero se eliminan los que provienen de foursquare debido a que la mayoría solo contienen información del sitio y un enlace. Posteriormente emplearon MeCab (herramienta morfológica del idioma japonés) para descomponer el cuerpo de los mensajes en las partes en su categoría gramatical enfocándose solamente en los sustantivos y verbos.

Después de construir un conjunto de palabras semánticamente relacionadas obtenidas en los tuits, se procede a detectar los hot topics mediante los siguientes pasos:

Construir la relación entre un conjunto de palabras:

Es posible que dos palabras distintas hablen de un mismo tema dando paso a un fenómeno llamado fluctuación semántica. Se tomaron en cuenta fluctuaciones ortográficas, espaciales y temporales.

Se asume que cada mensaje habla de un solo tema debido al límite de caracteres que existe en Twitter. Para determinar las relaciones entre palabras, primero se construye la relación de palabras entre cada par contenido en el tuit. Se establece un peso entre cada par de palabras que es directamente proporcional a la frecuencia en que ambas palabras son encontradas en distintos tuits. Se emplea a Wikipedia como medio para contribuir al cálculo de los pesos dependiendo de si los términos también son encontrados en su sitio.

Clasificar las palabras en temas o clustering:

Se emplea un método de clustering incremental para clasificar las palabras en temas. El threshold empleado en el método fue determinado de manera empírica. Se introduce un grado de similitud de asociación entre las palabras y los temas.

Detectar los hot topics utilizando un método de burst-detection:

Se utiliza un método de burst-detection para determinar la frecuencia de un tema en un periodo de tiempo. Se determina si el flujo de mensajes respecto a un tema es más denso que en condiciones normales al compararlo con otras fuentes foros y sitios de noticias.

El experimento realizado tomó en cuenta una región de 5x5 km alrededor de un estadio de beisbol para determinar la fluctuación semántica. Los resultados se muestran en las siguientes figuras:

Se puede observar que las palabras Tokyo y Shinjyuku aparecen frecuentemente en el rango de tiempo al estar relacionadas con el espacio observado. Sin embargo, palabras como strike o preemptive point solo aparecen en una fecha específica como cuando ocurre un juego de beisbol ya que son términos directamente relacionados a dicho deporte. Además, ambas palabras no aparecen en todos los días en los que un juego ocurrió debido a que el número de mensajes relacionados a los juegos es relativamente bajo.

De las frecuencias se puede observar que existen temas que aparecen o aumentan su cantidad cuando el evento ocurre.

En general el sistema funciona al clasificar los tuits en temas de acuerdo a su contenido y se obtienen los principales dependiendo de la frecuencia en que se presenten mensajes que contienen palabras relacionadas con los temas.

Ishikawa, S., & Arakawa, Y. (2012). Hot topic detection in local areas using Twitter and Wikipedia. ARCS Workshops. Retrieved from http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6222198

Thursday, October 18, 2012

TwiNER: Named Entity Recognition in Targeted Twitter Stream

Debido a la gran cantidad de mensajes generados en Twitter, se adopta comúnmente a un grupo objetivo que puede estar determinado por una región geográfica o una búsqueda sobre un grupo de palabras de modo que se pueda obtener una opinión de los usuarios más focalizada.

También se encuentra como totalmente deseable la posibilidad de detectar de manera temprana una posible crisis basada en el stream del grupo objetivo. Por ejemplo, las empresas podrían detectar nombres de competidores, personas o lugares que según su contexto puedan derivar en una crisis de relaciones públicas. Si la compañía logra una detección temprana, puede reaccionar de manera rápida evitando que la crisis crezca o se esparza.

Los proceso NER (Named Entity Recognition) tradicionales emplean las características lingüísticas locales de las frases, como capitalización y etiquetas POS (Part of Speech) de palabras previas, en documentos con una estructura bien formada. Los mensajes en Twitter debido a su naturaleza predominantemente informal y corta (limitada por los 140 caracteres permitidos), frecuentemente contienen errores gramaticales, faltas de ortografía o mala capitalización.

La estructura general de TwiNER se presenta en la siguiente figura:

A pesar de los problemas mencionados en los mensajes de Twitter, el orden de las palabras que denominan a una entidad suele respetarse por lo que se puede hacer una segmentación básica de palabras como se muestra en la siguiente figura:

La segmentación se lleva a cabo por la probabilidad de que las palabras formen una frase válida. La forma de calcular la probabilidad se basa en contar la aparición del segmente en un gran cuerpo de texto. Idealmente se utilizaría la totalidad de mensajes de Twitter pero debido a que no se pueden acceder, se emplea Microsoft Web N-Gram corpus que contiene todos los documentos del mercado EN-US indexados por Bing.

Otra forma de calcular la probabilidad consta en hacer la búsqueda de los segmentos en una base de conocimientos donde sean fácilmente reconocibles. Para esto se tomó un Snapshot del sitio en inglés de Wikipedia y se creó un diccionario con todos los títulos de artículos, paginas de desambiguación, páginas re-direccionadas (sinónimos) y wikilinks. Si un segmento encaja con algún término en el diccionario, entonces tiene una mayor probabilidad de ser una entidad.

Se combinan ambas fuentes con un algoritmo de programación dinámica para probar de manera eficiente varias combinaciones de segmentos. El algoritmo lleva a cabo segmentaciones binarias y se evalúa cada una de las posibilidades. La función con la que se evalúa esta basada en PMI (Point Mutual Information) y SCP (Symmetric Conditional Probability).

PMI calcula el grado en que dos palabras puedan encontrarse juntas que sea mayor a la casualidad. SCP calcula el grado de unión entre un bigrama dadas dos probabilidades condicionales para el bigrama dado cada término.

Se agregó una función que permite priorizar los nombres largos en los segmentos válidos ya que tienen una mayor probabilidad de ser el nombre de una entidad que los segmentos cortos.

Después de obtener los segmentos válidos de los mensajes, se debe hacer un filtrado de las entidades del resto de los segmentos. Como primer filtro se lleva a cabo lo siguiente:

Se eliminan segmentos que contienen o consisten jerga conocida y comúnmente utilizada. Se basan en el sitio http://www.noslang.com/dictionary/full
Eliminación de segmentos con caracteres repetidos consecutivamente como “hahahahahaha”, “gooooooood” y “nooooooooo” debido a que tienden a ser palabras que muestran una exageración de las emociones.
Palabras que inicien con # debido a que normalmente se utilizan para resaltar un tema. Simplemente no se les considera como entidades en esta investigación.

Ya que un contexto general no es suficiente para la identificación de las entidades, se emplea un contexto local. Se crea un grafo de segmentos en el que cada nodo es un segmento y los arcos son pesos dados por el Jaccard Index. Se basa en que no es común que un conjunto de segmentos que no son entidades, aparezca continuamente junto.

Se aplica un modelo de caminata aleatoria (random walk) para calcular la probabilidad estacionaria de cada segmento de ser una entidad al considerar el grafo como bidireccional. En la definición de la caminata, se crea un vector de tele-transportación que favorece a los segmendos que aparecen en los enlaces de Wikipedia ya que son los que tienen mayor probabilidad de ser una entidad.

Se emplearon dos conjuntos de datos para llevar a cabo las pruebas. El primero consiste en los usuarios con más seguidores de Singapur, mientras que el segundo consiste de la búsqueda de palabras relacionadas con la elección de Singapur en el año 2011.

Para ambos conjuntos de datos, se tomaron 5000 mensajes que fueron clasificados por dos anotadores humanos con conocimientos sobre entidades ubicadas en Singapur.

Las métricas usadas para la evaluación son: Precision (Prec),Recall y F1. Prec cuantifica el porcentaje de frases extraídas que en realidad son una entidad. Recall cuantifica el número de entidades que son reconocidas correctamente. F1 es la media armónica entre Prec y Recall.

Se compararon los resultados con:

LBJ-NER: NER basado en el perceptrón de promedio regularizado basado en índices tomados de Wikipedia.
Stanford-NER: NER basado en el modelo CRF que incorpora información de distancia.
T-NER: NER supervisado que utiliza el modelo CRF para aprendizaje e inferencia.

Se hicieron dos pruebas, la primera con los NER entrenados con datos de Twitter y una segunda con los NER entrenados con datos formales. El desempeño de los NER supervisados varía notablemente dependiendo de la fuente de entrenamiento. Los resultados se muestran a continuación:

Li, C., Weng, J., He, Q., Yao, Y., Datta, A., Sun, A., & Lee, B. (2012). TwiNER. Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’12 (p. 721). New York, New York, USA: ACM Press. doi:10.1145/2348283.2348380

Integrating Web-based Intelligence Retrieval and Decision-making from the Twitter Trends Knowledge Base

Twitter es una herramienta de comunicación que surgió con el propósito de responder a la pregunta ¿qué te encuentras haciendo?, sin embargo, la actualidad presenta que los mensajes contenidos en esta red social, varían de la pregunta original mezclando los términos publicados entre actualizaciones de las accione de los usuarios, esparcimiento de noticias y hasta búsqueda de ayuda en tiempos de crisis.

Twitter tiene un indicador que presenta los temas sobre los que se encuentran hablando sus usuarios. Este indicador se representa por una serie de términos denominados trending topics. El objetivo del artículo es el análisis de la anatomía de los trending topics para determinar que los vuelve populares.

Las siguientes imágenes muestran los 4 trending topics elegidos para la prueba y los 2 temas de control.

Se recolectaron 7215 tuits de todos los términos buscados debido a que se utilizó el Search API que permite solo tomar alrededor de 1500 mensajes en cada consulta y con una vigencia de aproximadamente 2 semanas.

También se incluyeron los datos de los usuarios que publicaron los mensajes correspondientes a los temas analizados. Se tomó en cuenta una muestra representativa (13% de la población de cada tema) se obtienen los siguientes datos:

Cliente y dispositivo utilizado: Un código incluido en la estructura del mensaje permite conocerlo.
Género: Se determina por la forma de escribir del usuario (como ejemplo se usa una frase posible “username misses his/her friends”). Se tiene otro grupo sin género para grupos de trabajo u organizaciones.
Patrón primario de uso: Basado en la información en la página del perfil del usuario se cataloga en lo siguiente:
- Personal: La mayoría de sus mensajes son de carácter personal como conversaciones con amigos o información de sus actividades.
- Group: Un grupo con intereses comunes de fines no monetarios con grupos de investigación, club de fans de artistas, etc.
- Agregator: predominantemente se dedican a difundir información como su trabajo. Se incluyen a agencias de noticias, políticos, cuentas ligadas a fuentes RSS y que presentan poco o nulo contenido personal.
- Satire: Cuentas creadas con un fin humorístico, satírico o para parodiar.
Marketing: Perfiles creados para promover un producto, la mayoría en este grupo se les considera como spam.

País: Tomado de campos del perfil como una clave de ciudad, una serie de coordenadas o en otros casos en la descripción del usuario en su perfil.

Para el análisis de los picos de información generados por los temas, utilizaron como variable el UID (identificador que Twitter asigna automáticamente a los mensajes) en lugar del tiempo como se hace en otras investigaciones. La frecuencia de UID (determinada por la razón del rango de datos y la diferencia entre el primer y último mensaje en cada uno de los 6 casos de estudio, obteniendo el promedio) es aproximadamente 111 UIDs por segundo.

Se clasificaron los casos de estudio en 3 grupos:

Long-term topics: Temas que rara vez son discutidos debido a su falta de popularidad. Si llegan a tener algún pico en cuanto a su presencia, tiende a desaparecer de manera rápida.
Medium-term topics: Son basados en términos genéricos que son comúnmente discutidos pero que no garantizan un número grande de tuits. Normalmente se presentan en un día aunque pueden abarcar varios.
Short-term topics: Temas que debido a su naturaleza de gran volumen, no exhiben picos debido a su constancia o a que la consulta hecha por el Search API se presentó al momento de ocurrir un pico por lo que no se registran cambios.

La relación con el país o región en que se originaron los tuits permite llegar a algunas conclusiones a partir de la siguiente figura:

El café es mencionado principalmente por residentes de Estados Unidos y del Reino Unido debido a que se coincidió con la hora del desayuno.
Grey’s Anatomy y Revolverheld se mencionan en Estados Unidos y Alemania respectivamente debido a que son parte del entretenimiento local.
Nizar es un político de Malasia por lo que la mayoría de los mensajes provienen de usuarios de dicho país.
H1N1 es un asunto con alcances globales y esto se muestra en la distribución de los mensajes.
Los mensajes de TwitHit son en su mayoría retuits y se pueden considerar como spam, debido a que la mayoría provienen de Estados Unidos es muy probable que ahí se haya iniciado el tema.

Empleando como parámetros y consideraciones los datos de los usuarios y los mensajes, se entrenó SOMine para generar una serie de SOMs(Self-Organized Maps) para llevar a cabo clustering. Se generaron 29 SOMs para las palabras estudiadas.

Algunos ejemplos de los resultados son:

El primer mapa muestra el resultado del término Revolverheld en el que el grupo mayoritario consta de mujeres en Alemania cuyos mensajes tienen un carácter principalmente personal. El grupo rojo es de hombres u organizaciones alemanas que propagan noticias sobre el grupo Revolverheld usando clientes de medios sociales. El último sector (amarillo) es una serie de usuarios anónimos que no proporcionan datos sobre sus identidades.

En el segundo caso (Nizar), el grupo mayoritario (azul) consta de usuarios (hombres y mujeres) ubicados en Malasia y cuyos mensajes son de carácter personal. El segundo grupo (rojo) consiste de varones de otros países que utilizan Twitter como herramienta de “periodismo ciudadano” para publicar noticias. El tercer grupo se encuentra formado por cuentas empleadas para llevar a cabo una campaña de marketing agresivo respecto y que suelen estar enlazadas a una fuente RSS.

Este mismo proceso se recrea en los medium-term y short-term topics dando una clasificación similar de las características de los grupos. Se expone como trabajo a futuro el poder utilizar estos resultados para campañas de marketing, business intelligence, detecciones de epidemias y otros campos relacionados.

Cheong, M., & Lee, V. (2009). Integrating web-based intelligence retrieval and decision-making from the twitter trends knowledge base. Proceeding of the 2nd ACM workshop on Social web search and mining - SWSM ’09, 1. doi:10.1145/1651437.1651439

Thursday, October 11, 2012

Exploring Tweets Normalization and Query Time Sensitivity for Twitter Search

La edición 2011 del TREC (Text Retrieval Conference) Microblog se centra en la evaluación de la búsqueda de información en Twitter. Como reto se requiere que los sistemas regresen los tuits más relevantes para 50 consultas específicas. Las aproximaciones tomadas en este artículo se basan en dos diferentes puntos: procesamiento de contenido mal formado (con errores) y la sensibilidad temporal de las consultas de Twitter.

Procesamiento del contenido: A diferencia de otro tipo de contenidos como las noticias, los mensajes en Twitter contienen un gran número de expresiones irregulares que incluyen errores de ortografía, sustituciones fonéticas, términos morfológicos adhoc, emoticons, sintaxis especializada, etc. Estas expresiones derivan en que existan grandes diferencias entre los términos buscados y el contenido del microblog, afectando así directamente la efectividad de las consultas. Siendo así, se optó por normalizar y regularizar el contenido para obtener las palabras originales y correctas.
Procesamiento de las consultas: Dado que los mensajes en Twitter son muy cortos, para obtener resultados de búsqueda más relevantes se emplea PRF (Pseudo Relevance Feedback) para expandir las consultas originales. Algunos estudios muestran que las personas tienden a hacer búsquedas en Twitter para obtener información de relevancia temporal, como por ejemplo eventos actuales, trending topics, información en tiempo real, etc. Debido a esto dividieron las consultas en consultas con sensibilidad temporal y consultas sin sensibilidad temporal.

Se emplea el Indri Toolkit para recolección y almacenaje de información. Por lo demás la siguiente figura muestra la arquitectura del framework creado:

Se tomaron los tuits de la semana del 23 de enero de 2011 al 8 de febrero del mismo año. Se recolectaron más de 16 millones de mensajes pero debido al enfoque se eliminaron los que no correspondían al idioma inglés dando así como resultado una base de 6 millones de tuits. Las estadísticas se muestran en las siguientes figuras:

Para la normalización del texto se siguieron los siguientes pasos:

Detección de palabras OOV: Se compara cada token de los mensajes contra un diccionario y los términos que no se encuentren se tratan como palabras OOV. Los tokens de un solo elemento como son removidos excepto por “I” y “a”. “RT” también es eliminado pues se presenta al inicio de todos los retuits.
Traducción de jerga: Las palabras pertenecientes a una jerga normalmente no son comunes dentro de un diccionario formal pero se puede encontrar un equivalente.
Generación del conjunto de candidatas: Para cada palabra OOV se genera un conjunto de palabras estándar basado en la distancia léxica (lexical edit distance) y la distancia fonética (fonetic edit distance). Para empezar la repetición de 3 o más letras se reduce a 2. Se indica un umbral (threshold) para decidir si una palabra se considera candidata.
Selección de candidata: Se utiliza tanto la similitud de la palabra como la inferencia del contexto para la elección de que palabra entre el conjunto de candidatas es la más adecuada. Para el cálculo de la similitud de la palabra se emplea la distancia léxica, distancia fonética, sub-secuenca de prefijo, sub-secuencia de sufijo y LCS (Longest Common Sequence). Para la inferencia del contexto se emplean los siguientes métodos:
1. Dependency-based frequency feature: Se remplaza la palabra OOV por la candidata y se calcula la dependencia de frecuencia basada en un banco de dependencias generado a partir del New York Times.
2. Language Model: De nuevo se cambia la palabra OOV por la candidata y se calcula la similitud basada en la cuenta de tri-gramas recolectadas del Web 1T 5-gram Corpus.

La parte que más tomó tiempo fue la del modelo del lenguaje que consumió hasta varios segundos para una sola elección.

Para determinar si una consulta tiene relevancia respecto al tiempo se analizó la distribución temporal de los resultados de la consulta. Se determinó que si más de la mitad de los n mensajes recuperados son de un mismo día, la consulta se determina con sensibilidad temporal.

Los resultados de las pruebas se muestran en la siguiente tabla:

En general el uso de la normalización mejora el desempeño del sistema y la parte temporal, ayuda aunque no resulta tan determinante. La normalización es una versión reducida o sencilla de otro artículo pero sin embargo logra mejorar el desempeño del sistema.

Wei, Z., Gao, W., Zhou, L., Li, B., & Wong13, K. (2011). Exploring Tweets Normalization and Query Time Sensitivity for Twitter Search. trec.nist.gov. Retrieved from http://trec.nist.gov/pubs/trec20/papers/SEEM_CUHK.microblog.update.pdf

Thursday, October 4, 2012

Unsupervised Mining of Lexical Variants from Noisy Text

Últimamente y debido al auge de las redes sociales, se han buscado maneras de lidiar con los errores ortográficos para poder aprovechar por completo la información contenida en los mensajes. Una de las líneas de investigación comúnmente utilizada se basa en el uso de aprendizaje supervisado, sin embargo, se requiere contar con un conjunto de datos de entrenamiento tanto de entradas ruidosas (con errores) como de entradas limpias. Otra desventaja consiste en requerir una manera de etiquetar cada uno de los datos del conjunto de entrenamiento.

Las palabras fuera del vocabulario (OOV – Out Of Vocabulary) ruidosas, se forman por un proceso semi-determinístico lo que las vuelve no completamente indiscernibles a un nivel léxico de la palabra original. A este tipo de palabras se les denomina variantes léxicas de la palabra limpia dentro del vocabulario (IV – In Vocabulary). Como ejemplo se brinda 2morrow, 2morow y 2mrw que de alguna forma mantienen una remembranza léxica con tomorrow debido a que sus variaciones son resultado de una transliteración fonética.

El sistema propuesto busca obtener de un gran cuerpo de texto con ruido, una serie de pares de variantes léxicas (variante – palabra limpia) de un dominio específico. El sistema requiere como entrada un texto grande en inglés común y un cuerpo grande del dominio en específico (datos de Twitter por ejemplo). Con estos dos elementos, el sistema obtiene de manera no supervisada las variantes léxicas.

Existen las siguientes condiciones que se consideraron:

Las variantes deben encontrarse semánticamente relacionadas entre sí.
Los pares formados por palabras con similitud léxica pero sin relación semántica quedan fuera del alcance debido a que pueden ser encontradas de manera trivial utilizando técnicas de edición basadas en distancia.
Las variantes deben ser específicas de un dominio.
Las variantes que capturan variaciones léxicas comunes en el inglés (running y run por ejemplo) se pueden capturar mediante el uso de procedimientos estándar de normalización como stemming. En cambio se buscan variantes del tipo de dominio específico (u por you en SMS y mensjaes en Twitter) que no son manejadas fácilmente por los métodos actuales.
Las variantes deben ser similares de forma léxica.

Tomando como base tanto técnicas de procesamiento de lenguaje natural como minería en textos de gran tamaño, establecieron su proceso en tres pasos: identificar pares semánticamente similares, filtrar variantes comunes del idioma inglés y volver a calificar la lista de resultados basado en la similitud léxica. El proceso se muestra en la siguiente figura:

Para la búsqueda de la relación semántica se emplea una distribución de similitud como medida. Sin embargo, al estar basados en un aprendizaje sin supervisión, no se tiene un conocimiento a priori de que pares pueden estar relacionados con otros por lo que se debe de calcular la similitud semántica entre todos los posibles pares de términos. La forma en que se calcula la similitud y distribución semántica es independiente al framework presentado. El proceso se aplica tanto al cuerpo de inglés común como al específico del dominio de tal forma que se tengan dos conjuntos de pares que serán utilizados para extraer las variantes léxicas no supervisadas.

El proceso para eliminar las variantes asociadas comúnmente al inglés se basa en eliminar del conjunto de pares específicos del dominio a los pares encontrados dentro de las variantes comunes del inglés. Cualquier cuerpo de gran tamaño de inglés común puede ser empleado pero se verifica que el uso de artículos de noticias funciona bien.

Por último para cada par restante del dominio se calculan una calificación similitud semántica y otra léxica. La calificación final es el producto de ambas calificaciones. Para la parte semántica se utiliza la calificación de similitud de coseno (cosine similarity score). Por otra parte, para la similitud léxica se emplea una función de similitud de sub-secuencias que logra capturar la similitud entre las letras que no cambian entre la variante léxica y la palabra original de la que se derivó.

El resultado del proceso completo es una lista con calificaciones de pares de palabras que se encuentran semánticamente relacionadas, son específicas de un dominio y son similares de forma léxica. Se tratan a estos pares como pseudo datos de entrenamiento obtenidos de manera no supervisada que puedan ser aprovechados para uso en técnicas de procesamiento de lenguaje natural.

Para los experimentos emplearon 2GB de artículos noticiosos y aproximadamente 500 millones de mensajes de Twitter. El proceso arrojó en el primer paso una lista de 3.3 millones de posibles pares. En el segundo paso se redujo a 314 mil pares. A continuación se presenta una imagen como ejemplo del proceso completo y como varían las listas de pares:

Probando el conjunto generado en una aplicación de normalización de texto contra el método Naive y uno más complejo por parte de IBM logran obtener mejores resultados disminuyendo el error al normalizar. La construcción del diccionario de excepciones para identificar los tokens OOV es en si lo que mejora el desempeño de la normalización. Los resultados aparecen en la siguiente imagen:

Gouws, S., Hovy, D., & Metzler, D. (2011). Unsupervised mining of lexical variants from noisy text. EMNLP ’11 Proceedings of the First Workshop on Unsupervised Learning in NLP, 82–90. Retrieved from http://dl.acm.org/citation.cfm?id=2140468

Improving Twitter Retrieval by Exploiting Structural Information

Tradicionalmente se trata a la información contenida en los tuits como documentos de texto plano. Debido a las diversas partes que puede presentar, se propone asumir cada mensaje como un documento estructurado construido a partir de bloques. Se utilizan los bloques para inducir una estructura que permita una mejor obtención de información personalizada. Los bloques se denominan Twitter Building Blocks (TBB).

La obtención de documentos estructurados intenta explotar la información estructural al recuperar documentos basándose en la estructura y la información del contenido.

Existen tres acciones que ocurren de manera frecuente en los mensajes de Twitter: tagging (se incluyen tags al mensaje para indicar el tema del contenido), retweeting (volver a compartir el mensaje de otro usuario) y mentioning (mencionar directamente a otro usuario). Se agregaron otras tres divisiones al contenido de los mensajes: compartir información a través de enlaces, comentarios y mensajes normales. Por lo tanto se toman en cuenta los siguientes seis TBB:

TAG – combinación de hastag (#) y palabras clave.
MET – indica a otro usuario como recipiente del mensaje.
RWT – indica el copiado y reproducción del mensaje de otro usuario.
URL – enlaces a contenidos externos.
COM – comentarios usados para describir los sentimientos de las personas.
MSG – mensaje contenido en el tuit.

La siguiente figura muestra dos mensajes de ejemplo y los bloques (TBB) identificados en la conversación:

Se tomaron 2000 mensajes aleatorios de los cuales se obtuvieron sus partes utilizando un tokenizer y luego manualmente se escribieron las partes de su estructura y se dio como resultado lo presentado en la siguiente figura:

Debido a que anotar de manera manual las TBB de cada mensaje se vuelve una tarea casi imposible, se desarrolló un sistema que lo hace de manera automática. El proceso se compone de dos partes: la primera identifica el tipo de TBB y la segunda busca los límites del TBB identificado. El proceso es similar al reconocimiento de entidades (Named Entity Recognition). Los resultados del sistema se presentan en la siguiente figura:

Dadas las estructuras encontradas se pueden agrupar los mensajes en lo siguiente:

Public Broadcast: Tuits producidos por el grupo de noticias de la BBC tienen de manera convencional la forma MSG URL TAG y TAG MSG URL. Normalmente los mensajes tienen un texto introductorio seguido de un enlace.
Private Broadcast: Tuits mandados por usuarios ordinarios con un pequeño número de seguidores tienen típicamente la forma COM URL y MET MSG URL. El número de personas al que le es relevante este tipo de mensajes es menor que al de la clasificación anterior.
High Quality News: La forma más común encontrada es RWT MSG URL.
Messy: Aquí se agrupan mensajes con estructuras poco comunes.

Buscando mejorar las consultas realizadas en las búsquedas de Twitter, se incorporan los siguientes elementos en la evaluación de resultados de la búsqueda:

Tipo de estructura TBB: Se usan las 14 estructuras más comunes obtenidas de los 2000 mensajes de prueba.
Posición del TBB en la consulta: Se busca en que parte de la estructura TBB se encuentra el término buscado.
Tipo TBB del vecino: Se busca la información contextual del TBB. Se busca el tipo del TBB precedente y sucesor.
Conteo de TBB: Mientras más TBB contengan los términos buscados, mayor se apegara el resultado a los intereses del usuario.
Longitud del TBB: Mientras más palabras tenga un TBB que contiene el término buscado, mayor información se estará proporcionando sobre el tema.
TBB’s OOV: Proporción de palabras en el TBB que contiene la consulta y que se encuentran fuera del diccionario.
Lenguaje del TBB: Indica si el TBB que contiene al término esta escrito en inglés.

Para la evaluación de resultados se tomó en cuenta una serie de parámetros definidos como SM_RANK y Baseline que se muestran en la siguiente figura:

Utilizando MAP (Mean Average Precision) se evaluaron las distintas métricas dando como resultado lo siguiente:

Se tienen mejoras incorporando las estructuras TBB definidas.

Luo, Z., Osborne, M., Petrovic, S., & Wang, T. (2012). Improving Twitter Retrieval by Exploiting Structural Information. Twenty-Sixth AAAI Conference on …, 648–654. Retrieved from http://www.aaai.org/ocs/index.php/AAAI/AAAI12/paper/download/4913/5252