Tesis Doctoral Aram: Identifying Content for Planned Events Across Social Media Sites

La información correspondiente a eventos brindada por los usuarios se congrega en gran cantidad. Las redes sociales permiten brindar descripciones textuales, fotografías y videos relacionados a un evento que bien pueden ocurrir antes, durante o después de dicho evento.

El principal problema radica en poder consolidar la información existente sobre un solo evento, aun cuando se utilizan sitios que publican información de ellos pueden existir fallas. Como ejemplo se menciona el encontrar contenido con títulos genéricos que puedan referirse a un evento u a otro, descripciones faltantes e información insuficiente. Por otra parte, se puede encontrar gran información en las redes sociales pero puede que exista ambigüedad en la forma que se titulan o incluso en casos textuales como Twitter en el que se introduzcan abreviaturas que no dejen totalmente en claro el tema del que se habla.

Una forma en que se ha tratado este problema consiste en tener una serie de términos relacionados a los eventos buscados y tomando en cuenta las aportaciones de usuarios que los contengan. Sin embargo, para un ambiente genérico es muy difícil que esto pueda funcionar ya que se pueden presentar palabras que no estaban incluidas en los términos previstos.

En el caso expuesto, se parte de una serie de características previamente dadas como el título, descripción, lugar, fecha y hora para generar queries que lleven a cabo la búsqueda en múltiples redes sociales. La obtención de la información se lleva a cabo en dos etapas. Primero se obtienen respuestas en base a los queries hechos con las características conocidas. Como segunda fase, se utilizan las respuestas de los primeros queries y en base a técnicas de procesamiento de texto como extracción de términos y análisis de frecuencia, se construyen queries adicionales que puedan aportar mayor información a la búsqueda.

La estructura general del sistema se ilustra en la siguiente figura:

Al subir a los sitios las aportaciones tomadas en cuenta para cada evento, el tiempo en que se hizo dicho proceso puede afectar al sistema. Debido a que existen situaciones en que las fotos y videos no son inmediatamente compartidas (por el hecho de no contar con tiempo o una computadora al instante), no se aconseja tener una ventana de tiempo muy restrictiva.

Debido a la posible ambigüedad que se puede presentar al buscar el título del evento, no se puede llevar a cabo una búsqueda exacta ya que se puede dar el caso de no encontrar resultados. Por ello, se utilizaron combinaciones con las palabras del título, combinaciones con el lugar, búsquedas con palabras clave y otro tipo de queries. Un ejemplo se muestra en la siguiente figura:

Las técnicas para llevar a cabo la segunda fase de queries son las siguientes:

Frequency Analysis: Se buscan las palabras que se repiten con mayor frecuencia y se eliminan los términos irrelevantes (los más utilizados en ingles, aquellos que no aportan información substancial). Otra eliminación se lleva a cabo descartando los términos que aparecen en la lista de las 100,000 palabras más comunes que aparecen en los resultados de Bing.
Term Extraction: Esta técnica consiste en encontrar los términos relacionados al evento que tengan mayor relevancia. Se utiliza un extractor de términos que crea un diccionario que es utilizado para encontrar, mediante análisis estadístico y lingüístico, una lista de términos relevantes.

El uso de estas dos técnicas puede crear una cantidad innecesaria de queries ya que es susceptible al ruido de su entrada. Debido a ello se plantean las siguientes técnicas que permiten elegir los mejores queries para la situación:

Specificity: Se asegura que se traten de usar los queries más grandes y específicos sobre los más cortos y genéricos. El uso de más términos para la búsqueda tiende a asegurar que la información y contenido obtenidos sean más propensos a ser parte del evento buscado. Se debe cuidar no ser demasiado específico o no se encontrarán resultados.
Temporal Profile: Se utiliza un perfil histórico temporal para la elección de queries. Que exista un pico en el número de respuestas recibidas por el querie en el tiempo en que se desarrolla el evento puede ser un indicativo de la precisión del query y que esta obteniendo resultados relevantes. Sin embargo, mientras que en medios como Twitter es un buen indicativo, se puede volver confuso en sitios como YouTube en el que los videos no son subidos al momento en que son tomados.

Para las pruebas, se evaluaron los queries dados por el sistema con los siguientes parámetros:

MS n-gram Score (MS): Puntaje n-gram dado por el sitio web de Microsoft
Time Ratio (TR): Proporción entre el número de documentos creados 48 antes y después del evento sobre el número de documentos creados la semana anterior y posterior al evento.
Restricted Time Ratio (RTR): Proporción entre el número de documentos creados 24 antes y después del evento sobre el número de documentos creados la semana anterior y posterior al evento.
MS n-gram Score and Time Ratio (MS-TR): Resultado del MS n-gram Score multiplicado por el TR.
MS n-gram Score and Restricted Time Ratio (MS-RTR): Resultado del MS n-gram Score multiplicado por el RTR.

En la primera medición se probaron los queries generados contra los generados por usuarios humanos mediante el coeficiente de Jaccard dando como resultado que eran muy poco similares como muestra la siguiente figura:

La segunda medición consiste en la calificación por parte de un humano sobre los resultados arrojados por los queries dando como resultado lo siguiente:

Por último se midió la relevancia de los resultados de los queries contra el evento del que se buscaba información con los siguientes resultados:

En general se consideró a esta aportación como un buen paso en la clasificación de documentos con procedencia de redes sociales. Se demostró la utilidad de los documentos de los sitios para complementar y diversificar la información sobre eventos.

Becker, H., Iter, D., Naaman, M., & Gravano, L. (2012). Identifying content for planned events across social media sites. Proceedings of the fifth ACM international conference on Web search and data mining - WSDM ’12 (p. 533). New York, New York, USA: ACM Press. doi:10.1145/2124295.2124360

Tesis Doctoral Aram

Thursday, August 9, 2012

Identifying Content for Planned Events Across Social Media Sites

No comments:

Post a Comment