Tesis Doctoral Aram: August 2012

Thursday, August 30, 2012

Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors

Se habla de las características de Twitter como un sitio microblogging, el uso que se le da para reportar eventos como tormentas, incendios, congestionamiento de tráfico, revueltas, etc. A diferencia de los blogs personales que son actualizados pocas veces por semana, los usuarios de Twitter tienden a hacer posts varias veces al día.

Se dice que debido a su naturaleza, encontrar información en tiempo real de un desastre o evento como un terremoto sucederá primero en esta red social que en medios tradicionales y antes que el reporte de las autoridades.

El uso de palabras clave para detectar eventos es importante, sin embargo se debe tomar en cuenta el contexto de las oraciones para no malinterpretarlo ya que las mismas palabras se pueden encontrar en mensajes que quieran transmitir mensajes completamente distintos.

Los eventos los definen con las siguientes características:

Son a gran escala (una gran cantidad de usuarios experimentan el evento).
Influyen de manera particular en la vida diaria de los usuarios (debido a ello, se ven impulsados a mandar tweets relacionados al evento).
Están definidos por una región tanto temporal como espacial (así la estimación del lugar en tiempo real puede ser llevada a cabo).

Por estas características, los eventos no se encuentran reducidos a un tipo y pueden incluir eventos sociales, deportivos, políticos, accidentes, desastres naturales, etc.

Para clasificar los tweets en cuanto a su contenido, se hace uso de Support Vector Machines (SVM) definiendo 3 características:

El número de palabras en un tweet y la posición de la palabra clave en el mensaje.
Las palabras en un tweet.
Las palabras encontradas antes y después de la palabra clave.

Se considera a cada usuario como un posible sensor y a sus mensajes como lecturas del sensor. Por ejemplo, si se esta buscando información correspondiente a un terremoto, si un usuario difunde un mensaje refiriéndose al tema, ese usuario como sensor de terremoto devuelve un valor positivo. Se clasifican a los usuarios como sensores de eventos en específico porque pueden existir eventos en los que no participen o no puedan hacerlo por lo que no debe considerárseles en dichos casos. Se asume lo siguiente:

Se considera a cada usuario de Twitter como un sensor. Un sensor detecta un evento y lleva a cabo un reporte probabilístico.
Cada tweet se encuentra asociado a un tiempo y lugar.

Los mensajes difundidos sobre un evento se incrementan de manera considerable durante la duración del mismo y hasta un tiempo después de ocurrido debido a que en ocasiones las personas que están viviendo el evento no pueden comunicarlo de manera inmediata. Un ejemplo se puede apreciar en la siguiente figura:

La clasificación se probó con las palabras “earthquake” y “shaking” dando como resultado que usando su primer criterio o todos juntos dieron el mejor desempeño. La siguiente figura muestra los resultados:

Se hizo un mapeo de la red de difusión de los mensajes respecto a los eventos. Este mapeo permite seguir de cierta forma la manera en que la información se difunde por la red. Un ejemplo de la prueba que hicieron con un evento de terremoto se presenta en la siguiente figura:

Otra característica que probaron fue la estimación del lugar en que sucedieron los eventos. Por ejemplo en el terremoto utilizaron los datos de espacio de cada mensaje. El ejemplo del terremoto se ilustra en la siguiente figura:

Queda mostrada como una herramienta interesante y planteado como trabajo a futuro el utilizarlo en otro tipo de eventos y ver su efectividad. Se usó Kalman filtering y particle filtering para llevar a cabo las estimaciones de las posiciones de la trayectoria del tifón y para el epicentro del terremoto. También queda planteada la necesidad de mejorar los queries con los que obtienen la información relevante de los tweets.

Sakaki, T., Okazaki, M., & Matsuo, Y. (2010). Earthquake shakes Twitter users. Proceedings of the 19th international conference on World wide web - WWW ’10 (p. 851). New York, New York, USA: ACM Press. doi:10.1145/1772690.1772777

Using Social Media to Enhance Emergency Situation Awareness

Se menciona la definición del conocimiento de una situación como la percepción de elementos en un ambiente dentro de un volumen de tiempo y espacio, la comprensión de su significado y la proyección de su estado en un futuro cercano. Siendo así, se concluye que se divide en tres fases o actividades: Percepción, Comprensión y Proyección.

La naturaleza de redes sociales como Twitter, permite que en caso de un siniestro, se tenga acceso a esta red a través de las distintas conexiones a internet que se pueden tener en un sitio. La rápida distribución de los datos permite están informando en tiempo real así como tener un gran alcance. Existe un aumento en el número de mensajes que se publican en el tiempo en que ocurre un desastre como se muestra en la siguiente figura:

Debido a las características de los mensajes (conteniendo ruido y otros factores), resulta muy difícil aplicar directamente técnicas de procesamiento de lenguaje natural. Para lidiar con los problemas presentados, se creó un conjunto de componentes capaz de extraer elementos del conocimiento de la situación mediante el uso de técnicas de minería de datos como burst detection, clasificación de texto, online clustering y geo-tagging. Las técnicas fueron adaptadas de tal forma que puedan responder en tiempo real a grandes cantidades de texto.

El sistema intenta ayudar al CCC (Crisis Coordination Centre) de Australia en la tarea de identificar las posibles situaciones de emergencia que pueden surgir y ser reportadas por medio sociales. La arquitectura del sistema se muestra en la siguiente figura:

En el periodo de Marzo de 2010 hasta la escritura del artículo, se recopilaron alrededor de 66 millones de tweets de aproximadamente 2.51 millones de usuarios distintos que cubrieron reportes de desastres naturales e incidentes de seguridad.

Para identificar los incidentes inesperados, crearon un modulo llamado Bursting Detection que monitorea continuamente el flujo de información recibido y dispara una alerta cuando detecta un incidente no previsto. Para determinar que existe un evento inesperado, se toma la probabilidad de que una o varias palabras aparezcan en una ventana de tiempo actual contra la probabilidad de que aparezcan en una ventana de tiempo aleatoria. Si la probabilidad es relativamente grande, puede indicar que se presenta un incidente. Se logró un porcentaje de detección del 72.13% en los experimentos realizados y un 1.40% de falsos positivos.

Para poder reaccionar debidamente, fue encargado un método para poder identificar el impacto del evento. Se construyeron clasificadores estadísticos que automáticamente detectan tweets que contienen información del estado de la infraestructura (edificios, carreteras, puentes, etc.). Se experimentaron con Naive Bayes y Support Vector Machines que dieron como resultado una precisión del 86.2% y 87.5% respectivamente.

Para descubrir los temas relevantes en Twitter, se creó un algoritmo de clustering incremental en línea que automáticamente agrupa tweets similares en clusters de temas de tal forma que cada cluster represente un evento. El algoritmo debe ser capaz de manejar un gran volumen de información y no requerir conocimiento a priori del número de clusters debido a la constante evolución del contenido de los tweets.

El funcionamiento básico del clustering en línea hace que cada que se recibe un nuevo dato, se compara con los clusters existentes (si no hay, se crea uno para el mensaje) en base a una función de similitud. La similitud con el cluster con el que más se asemeja se compara contra un umbral (threshold empíricamente definido) y si no es lo suficientemente similar, se crea un nuevo cluster. Si en cambio se agregó el dato a un cluster existente, se debe recalcular el centroide de dicho cluster.

Se tiene una lista de clusters activos que se van manteniendo según llega la información. Si pasa cierto tiempo sin que se utilice un cluster (no se agregan nuevos datos), este se descarta y deja de ser un candidato para que los nuevos tweets sean agrupados. Para evitar que el número de clusters crezca desmesuradamente, solo se utilizan los tweets con candidatos a presentar un evento inesperado arrojados por el Bursting Detection. Las medidas de similitud empleadas fueron la similitud de Jaccard y la similitud de coseno dando resultados de 0.42 y 0.34 en el marcador Silhuoette.

Otra forma de reducir el campo de los tweets analizados se basa en la ubicación geográfica de la persona que escribió el mensaje. Si se tiene habilitada la opción de posicionamiento en Twitter, se usa la latitud y longitud, de otra forma se trata de utilizar la información del perfil para determinar su posible ubicación. Un ejemplo de esta función se muestra en la siguiente figura:

Finalmente se creó una herramienta de visualización que permite captar eventos en Twitter si se da un tiempo especificado. Se presentan las palabras clave y los tweets relacionados con el evento. La interfaz se muestra en la siguiente figura:

Yin, J., Lampert, A., Cameron, M., Robinson, B., & Power, R. (2012). Using Social Media to Enhance Emergency Situation Awareness. IEEE Intelligent Systems, 1, 1–7. doi:10.1109/MIS.2012.6

Identifying Themes in Social Media and Detecting Sentiments

Los blogs, foros y medios sociales se han convertido en un espacio de opinión que refleja los pensamientos de la gente sobre ciertos productos. El poder explorar la información depositada en dichos sitios, se convierte en una tarea que difícilmente se puede llevar a cabo de forma manual.

En específico, en este artículo se busca las opiniones de los compradores y usuarios de impresoras y las discusiones encontradas incluyen marcas como HP, Canon, Epson, Xerox, Brother y Lexmark. En total se recopilaron 850 entradas de blogs de sitios de Australia.

Debido a que los comentarios normalmente contienen una gran cantidad de palabras irrelevantes para el análisis planteado, se debe llevar a cabo un parseo del texto antes de cualquier análisis cuantitativo. Primero se toma al texto entero como un string gigante para ser organizado conforme a una serie de palabras clave. Se utiliza a herramienta llamada SAS Text Miner y se sigue el siguiente proceso:

Palabras con la misma raíz se tratan como la misma palabra (worked, working viene como ejemplo).
Categoría, grupos de sustantivos, nombres de productos, nombres de lugares y nombres de organizaciones se tratan como categorías distintas.
Palabras que aportan poca información como los artículos son eliminadas.
Los sinónimos son agrupados con una misma palabra.

Al final del proceso, se tiene una lista de palabras claves asociadas a los documentos, se hizo una revisión manual para separar y eliminar a los términos que no estuviesen relacionados con el objetivo de la investigación (palabras no relacionadas con impresoras y sentimientos). Se crea una matriz (term-document matrix) que contiene la frecuencia de cada palabra en cada documento. El proceso hasta el momento es desplegado en la siguiente figura:

Se utilizan múltiples clasificadores (uno por cada tema) debido a que una misma entrada puede contener información y por tanto pertenecer a uno o más temas. Las palabras clave tienen gran injerencia en este punto, dependiendo del tema que se esté tratando, ciertas palabras adquieren mayor relevancia que otras. Las palabras clave se clasifican según su capacidad para permitir distinguir un tema de otro como se muestra en la siguiente figura:

Para la creación de las reglas, se toma en cuenta que se debe minimizar el error de pasar por alto algún tema que este ahí sobre el clasificar erróneamente un documento en un tema que no le corresponda.

Para identificar los sentimientos, se toma el conjunto de entrenamiento y se clasifican las entradas de manera manual como positivas, negativas, neutrales y mixtas. El objetivo de esto es poder predecir alguna de estas clases en una nueva entrada del blog.

El reflejo de los sentimientos no se logra llevar a cabo por la simple frecuencia de las palabras sino por la relación que existe entre los términos. Sin embargo, el usar las combinaciones de términos ocasionaría que la dimensión crezca demasiado por lo que en lugar de usar directamente la frecuencia en que aparecen, se emplea una función de entropía con pesos.

Las validaciones fueron hechas de manera manual con el 12% de los datos. Algunos temas pueden ser identificados de manera más fácil que otros debido a la poca cantidad de veces que aparece el tema en los datos utilizados. La siguiente figura muestra los resultados de la identificación de los temas:

Por su parte, la detección de sentimientos se complica en la categoría mixta debido a que no se presenta con regularidad y no es fácilmente identificable aun para los humanos debido a su ambigüedad. La siguiente figura muestra los resultados:

La principal ventaja sobre el método presentado, es que resulta ser más sencillo de implementar que otros como Naive Bayes, redes neuronales, modelos vector-espacio, etc. La escalabilidad de la solución en los medios sociales presentada es otra de las características del método.

Pal, J., & Saha, A. (2010). Identifying Themes in Social Media and Detecting Sentiments. 2010 International Conference on Advances in Social Networks Analysis and Mining, 452–457. doi:10.1109/ASONAM.2010.25

Thursday, August 23, 2012

Apuntes de Exposición en Cátedra Sistemas Inteligentes

El proceso general como fue inicialmente planteado es similar a lo que tiene Ricardo Cuevas. Varía principalmente en los nombres y algunos detalles pero se busca llegar a un resultado similar.

Se debe plantear el objetivo (problema particular) sobre el que deben girar todos los componentes del sistema e investigación. Miguel González propuso modificar el proceso general para que quede más claro que se busca el seguir el objetivo en particular, su propuesta fue la siguiente:

Por otra parte dependiendo de lo que se quiera después de los indicadores se dieron algunas sugerencias:

Se debería buscar las necesidades actuales de empresas o del gobierno para plantear el objetivo y atacarlo, entre los ejemplos se mencionó a DHL, Unilever, etc.
Un juego serio puede conllevar demasiada carga (experiencia previa armando un simulador por parte de miembro de la cátedra) y puede que se llegue a desviar un poco del objetivo (dependiendo de cual sea).
Para la programación de rutas, existen dos tesistas trabajando en el tema y se podría contar con su apoyo o al menos con su modelo para ser reimplementado.
Para la parte de redes sociales, Rogelio trabajó en un módulo que permite llevar a cabo la recolección de datos por lo que sería prudente verlo.
Se debe buscar en detalle el área sobre la que se quiere hacer la aportación.

Social Media on the Road: Mobile Technologies and Future Traffic Research

Este artículo presenta una reflexión sobre las posibles tecnologías que podrían implementarse y explotarse aprovechando el éxito reciente de las redes sociales en ambientes de tráfico urbano. Se toma como un área de oportunidad debido a la capacidad de los dispositivos actuales y al desaprovechamiento de los encuentros que se tienen mientras se conduce un vehículo que mientras son cortos podrían utilizarse para otros fines y no volverlos monótonos.

El artículo es presentado por un grupo de investigación en el Interactive Institute and the Mobile Life VinnExcellence Centre (www.mobilelifecentre.org) ubicado en la ciudad de Estocolmo.

Tratando de acercar los medios sociales a los automóviles se plantea una aplicación desarrollada por ellos en la que en un reproductor de MP3 puedes escuchar tus canciones pero también puedes escuchar las de otros vehículos. La siguiente figura da un ejemplo en la que el conductor del vehículo va escuchando su propia lista pero cuando pasa cerca del otro vehículo, adquiere de inmediato su lista y comienza a sonar su música. Se tratan de listas colaborativas de música.

Otro proyecto que mencionan se basa en los motociclistas. Según plantean, es del agrado de esta comunidad llevar a cabo reuniones entre sus miembros y en general juntan personas con un mismo interés. Entonces, se plantea colocar un dispositivo que permita reconocer y avisar sobre una conglomeración de otros dispositivos (que indican que existe una reunión de motociclistas) cercanos para poder llevar a cabo las reuniones o de cierta forma darlas a conocer a posibles conductores que pasen por el lugar. El ejemplo de la detección de motociclistas se muestra en la siguiente figura:

La última aplicación presentada consiste en brindar un entorno atractivo a los viajeros. Se menciona que en lugar de tener iglesias, puentes y otros lugares tradicionales, estos pueden ser desplegados como lugares de fantasía para mantener entretenidos a los niños que viajan en el automóvil convirtiendo el viaje en un juego. Teniendo algún dispositivo que interactúe con los elementos desplegados, se podría usar para defenderse de pandillas, dragones u otros seres que rodeen o “ataquen” al vehículo. Un ejemplo se presenta en la siguiente figura:

Juhlin, O. (2011). Social Media on the Road: Mobile Technologies and Future Traffic Research. IEEE Multimedia, 18(1), 8–10. doi:10.1109/MMUL.2011.16

Predicting the Future With Social Media

La información en gran cantidad y variada que se presenta en los medios sociales que se propaga a través de las comunidades presentes en la red, presentan una oportunidad de aprovechar tal cantidad de datos para conseguir predicciones sin tener que usar mecanismos de marketing tradicionales.

En el caso de este artículo, se ha decido mostrar la capacidad de llevar a cabo predicciones sobre las ventas en taquilla de películas empleando las charlas encontradas en Twitter. El entorno de prueba fue elegido debido a que el tema de las películas se considera de interés en las redes sociales, caracterizándose por tener una gran cantidad de usuarios discutiendo el tema con opiniones variadas. El segundo punto tomado en cuenta para la elección radica en que es fácil obtener el valor total de las ventas en taquilla una vez exhibida la película.

Para las pruebas, utilizando el API de Twitter, se extrajeron los mensajes conteniendo el timestamp, autor y su texto. En total se extrajeron 2.89 millones de mensajes (de 1.2 millones de usuarios) para 24 películas distintas que se estrenaron en un periodo de 3 meses.

Los tiempos tomados en cuenta para cada película inician desde una semana antes del estreno, en el punto en que las campañas de marketing se encuentran a tope promocionándola, hasta dos semanas después de su estreno cuando su popularidad se desvanece y las opiniones de las personas ya fueron esparcidas. En la siguiente figura se muestran las películas empleadas para el artículo:

La relación entre la cantidad de mensajes por hora sobre cierta película, aumenta claramente en el fin de semana en que se estrenó e inevitablemente se va reduciendo con el tiempo. En la siguiente figura se muestra esta relación:

Para medir la atención y popularidad en el lapso de tiempo indicado se buscó dividirlo en los siguientes puntos:

Efecto del material promocional (URLs y Retweets): En la semana previa al estreno de una película, las campañas promocionales y la información generada en Twitter se caracteriza por ser referencias URL (fotos, cortos, etc.), mientras que los retweets, sirven como otro medio para difundir información sobre la película. Al momento de sacar la correlación del éxito en taquilla contra la cantidad de URLs y retweets, se concluyó que no tenían un gran impacto en las cifras como se muestra en la siguiente figura:

Razón de menciones en tweets: Se observa que la cantidad de menciones en tweets cambia radicalmente dependiendo de la película que se habla. En promedio, la correlación dio una cifra positiva del 0.90 en las 24 películas. El número de menciones muestra la atención que los posibles espectadores brindan a cada película, por ejemplo Transylmania tuvo la menor cantidad de presencia en su semana crítica y también fue la que menor dinero recaudo a diferencia de otras como Avatar.

Los resultados arrojados fueron puestos a prueba contra el índice HSX (Hollywood Stock Exchange). El sitio www.hsx.com tiende a predecir de manera precisa el resultado final de la recaudación en taquillas. La siguiente figura contiene los resultados que como se puede apreciar son muy aproximados a lo predicho por el índice HSX:

Comparándolo contra otro trabajo que buscaba hacer las predicciones de las ventas en taquilla en base a lo proyectado en los medios, su precisión era mucho menor con una razón de 0.788.

Ya demostrado el impacto que puede tener las menciones en las redes sociales, se propusieron a analizar la influencia de los sentimientos que puede provocar una película en particular. Utilizando el paquete de análisis lingüístico LingPipe. Se emplearon trabajadores del Amazon Mechanical Turk para que manualmente clasificaran los mensajes de Twitter para entrenar el clasificador empleado. Al final, quedaron tres clasificaciones: positiva, negativa y neutral.

Se esperaba que los mensajes contaran con una mayor subjetividad (tendiesen a ser positivos o negativos) no en la semana critica sino en las posteriores al estreno. Se calculó la subjetividad como la razón de los mensajes negativos y positivos sobre los neutrales. Los valores comprobaron la hipótesis planteada y los resultados se encuentran plasmados en la siguiente figura:

Por otra parte se calculó lo que se denominó polaridad. Esta es la razón entre los mensajes positivos sobre los negativos. Mientras que el número de menciones positivas supera en todos los casos a las negativas, la variación en la razón de polaridad muestra la variación en ventas que va teniendo cada filme. Por ejemplo se plantea la película Blind Side con un índice inicial de 5.02 y que pasó a 9.65 después de su estreno y esto se vio reflejado en sus ventas contando con 34 millones en su estreno pero recaudando 40.1 en su siguiente semana. La figura que muestra esta razón se presenta a continuación:

En conclusión se pudo mostrar como la cantidad de datos (casi 3 millones) considerados fueron suficientes para lograr predecir las ventas en taquilla de las películas. Mientras que el número de menciones influye directamente en las ventas iniciales, la polaridad muestra el cambio que pueden tener cuando gente que ha visto los filmes opina sobre ellos y su influencia sobre sus seguidores.

Asur, S., & Huberman, B. a. (2010). Predicting the Future with Social Media. 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 492–499. doi:10.1109/WI-IAT.2010.63

Wednesday, August 15, 2012

Rumor Analysis Framework in Social Media

Mientras que el uso de redes sociales puede ser productivo y completamente útil en situaciones como los desastres naturales (en el artículo se utiliza el terremoto del 11 de marzo de 2011 en Japón como ejemplo), existe también el riesgo de provocar situaciones adversas si la información es falsa y solo contribuye al terror y la incertidumbre en el momento.

Ante este posible resultado, resulta deseable y necesario, contar con un mecanismo que permita medir de cierta manera la confiabilidad de la información circulando en las redes sociales.

Para iniciar se define a los rumores como lo siguiente:

El rumor se encuentra relacionado a problemas como la influenza, desastres naturales, etc.
La información del rumor se esparce de forma rápida.
No existen fuentes confiables (noticieros, periódicos, etc.) con información al respecto antes del surgimiento del rumor.
La información del rumor puede afectar el comportamiento de las personas (escapar a otro sitio, escases de recursos, etc.)

El mismo ejemplo del desastre ocurrido en Fukushima contó con varios de estos efectos al producirse escases de alimentos, movilizaciones por el pánico y otras situaciones causadas por rumores surgidos en las redes sociales.

El sistema general consiste de los siguientes pasos:

Crawling
- Esta parte del sistema se encarga de conseguir los mensajes correspondientes a cierto tema (el terremoto del 11 de marzo de 2011 en este caso). Un ejemplo de los mensajes recolectados en este paso se muestra en la siguiente figura:
Language Processing
- Utilizando los mensajes obtenidos en el paso previo como entrada, aquí mediante un análisis morfológico se obtienen las palabras claves divididas en sustantivos, verbos, adjetivos y adverbios. Después se calcula el valor de cada palabra clave empleando RIDF (Residual IDF), LSA (Latent Semantic Analysis) y tf-idf (Team Frequency-Inverse Document Frecuency). Según sus resultados, RIDF parece ser el método adecuado. La siguiente figura muestra un ejemplo del resultado de este paso:
Graph Transformation
- Este paso construye un grafo dirigido que muestra la estructura de la información del rumor. El grafo muestra relaciones de relevancia de hiperónimos de las palabras claves de cada documento. Para crear un grafo de concepto, los documentos son extraídos de acuerdo a ciertas palabras claves y luego las palabras relacionadas son extraídas. Las relaciones de hiperónimos de las palabras relacionadas son obtenidas usando frecuencias de co-ocurrencia. Un ejemplo se muestra en la siguiente figura:
Visualization
- Es la visualización del grafo generado en el paso anterior. Se pueden llevar a cabo determinaciones como resultado de la información mostrada, en este caso que existe un gran grupo de personas discutiendo sobre gasolina, posiblemente la falta de gasolina. Otra sección muestra interés en Okinawa (zona al sur de Japón), un posible lugar para huir del desastre. Por último se da el ejemplo de los teléfonos móviles que resultan ser la herramienta más útil en un siniestro como el acontecido.
Graph Edit Distance Calculation
- Para detectar la información de rumor se utiliza la distancia basada en la topología del grafo para medir el cambio en la topología a través del tiempo. La distancia de edición es el costo de las operaciones de edición para transformar un grafo en otro.
Rumor Information Detection
- De acuerdo a la definición de rumor dada anteriormente, el proceso de extracción de información del rumor consiste en los siguientes pasos:
  - Detectar cambios mayores en la estructura del grafo de concepto. Cuando la estructura del grafo crece, se muestra la rápida diseminación de un tema. Dicho tema se convierte en candidato a ser un rumor.
  - Se busca en medios confiables la existencia de información de cada posible rumor. Se calcula la posibilidad de que la información sea parte de un rumor.
  - Para medir el impacto en el mercado, se examinan los datos como el volumen de cargamentos para los productos apropiados.

El sistema parte de un trabajo previo de los mismos autores basado en marketing y se puede observar la estructura general en la siguiente figura:

Queda como trabajo a futuro comprobar la capacidad del framework para detectar rumores en otras situaciones. También se propone el investigar un método que permita identificar subgrafos para extraer de manera automática los rumores.

Hashimoto, T., Kuboyama, T., & Shirota, Y. (2011). Rumor analysis framework in social media. TENCON 2011 - 2011 IEEE Region 10 Conference, 133–137. doi:10.1109/TENCON.2011.6129078

Thursday, August 9, 2012

Identifying Content for Planned Events Across Social Media Sites

La información correspondiente a eventos brindada por los usuarios se congrega en gran cantidad. Las redes sociales permiten brindar descripciones textuales, fotografías y videos relacionados a un evento que bien pueden ocurrir antes, durante o después de dicho evento.

El principal problema radica en poder consolidar la información existente sobre un solo evento, aun cuando se utilizan sitios que publican información de ellos pueden existir fallas. Como ejemplo se menciona el encontrar contenido con títulos genéricos que puedan referirse a un evento u a otro, descripciones faltantes e información insuficiente. Por otra parte, se puede encontrar gran información en las redes sociales pero puede que exista ambigüedad en la forma que se titulan o incluso en casos textuales como Twitter en el que se introduzcan abreviaturas que no dejen totalmente en claro el tema del que se habla.

Una forma en que se ha tratado este problema consiste en tener una serie de términos relacionados a los eventos buscados y tomando en cuenta las aportaciones de usuarios que los contengan. Sin embargo, para un ambiente genérico es muy difícil que esto pueda funcionar ya que se pueden presentar palabras que no estaban incluidas en los términos previstos.

En el caso expuesto, se parte de una serie de características previamente dadas como el título, descripción, lugar, fecha y hora para generar queries que lleven a cabo la búsqueda en múltiples redes sociales. La obtención de la información se lleva a cabo en dos etapas. Primero se obtienen respuestas en base a los queries hechos con las características conocidas. Como segunda fase, se utilizan las respuestas de los primeros queries y en base a técnicas de procesamiento de texto como extracción de términos y análisis de frecuencia, se construyen queries adicionales que puedan aportar mayor información a la búsqueda.

La estructura general del sistema se ilustra en la siguiente figura:

Al subir a los sitios las aportaciones tomadas en cuenta para cada evento, el tiempo en que se hizo dicho proceso puede afectar al sistema. Debido a que existen situaciones en que las fotos y videos no son inmediatamente compartidas (por el hecho de no contar con tiempo o una computadora al instante), no se aconseja tener una ventana de tiempo muy restrictiva.

Debido a la posible ambigüedad que se puede presentar al buscar el título del evento, no se puede llevar a cabo una búsqueda exacta ya que se puede dar el caso de no encontrar resultados. Por ello, se utilizaron combinaciones con las palabras del título, combinaciones con el lugar, búsquedas con palabras clave y otro tipo de queries. Un ejemplo se muestra en la siguiente figura:

Las técnicas para llevar a cabo la segunda fase de queries son las siguientes:

Frequency Analysis: Se buscan las palabras que se repiten con mayor frecuencia y se eliminan los términos irrelevantes (los más utilizados en ingles, aquellos que no aportan información substancial). Otra eliminación se lleva a cabo descartando los términos que aparecen en la lista de las 100,000 palabras más comunes que aparecen en los resultados de Bing.
Term Extraction: Esta técnica consiste en encontrar los términos relacionados al evento que tengan mayor relevancia. Se utiliza un extractor de términos que crea un diccionario que es utilizado para encontrar, mediante análisis estadístico y lingüístico, una lista de términos relevantes.

El uso de estas dos técnicas puede crear una cantidad innecesaria de queries ya que es susceptible al ruido de su entrada. Debido a ello se plantean las siguientes técnicas que permiten elegir los mejores queries para la situación:

Specificity: Se asegura que se traten de usar los queries más grandes y específicos sobre los más cortos y genéricos. El uso de más términos para la búsqueda tiende a asegurar que la información y contenido obtenidos sean más propensos a ser parte del evento buscado. Se debe cuidar no ser demasiado específico o no se encontrarán resultados.
Temporal Profile: Se utiliza un perfil histórico temporal para la elección de queries. Que exista un pico en el número de respuestas recibidas por el querie en el tiempo en que se desarrolla el evento puede ser un indicativo de la precisión del query y que esta obteniendo resultados relevantes. Sin embargo, mientras que en medios como Twitter es un buen indicativo, se puede volver confuso en sitios como YouTube en el que los videos no son subidos al momento en que son tomados.

Para las pruebas, se evaluaron los queries dados por el sistema con los siguientes parámetros:

MS n-gram Score (MS): Puntaje n-gram dado por el sitio web de Microsoft
Time Ratio (TR): Proporción entre el número de documentos creados 48 antes y después del evento sobre el número de documentos creados la semana anterior y posterior al evento.
Restricted Time Ratio (RTR): Proporción entre el número de documentos creados 24 antes y después del evento sobre el número de documentos creados la semana anterior y posterior al evento.
MS n-gram Score and Time Ratio (MS-TR): Resultado del MS n-gram Score multiplicado por el TR.
MS n-gram Score and Restricted Time Ratio (MS-RTR): Resultado del MS n-gram Score multiplicado por el RTR.

En la primera medición se probaron los queries generados contra los generados por usuarios humanos mediante el coeficiente de Jaccard dando como resultado que eran muy poco similares como muestra la siguiente figura:

La segunda medición consiste en la calificación por parte de un humano sobre los resultados arrojados por los queries dando como resultado lo siguiente:

Por último se midió la relevancia de los resultados de los queries contra el evento del que se buscaba información con los siguientes resultados:

En general se consideró a esta aportación como un buen paso en la clasificación de documentos con procedencia de redes sociales. Se demostró la utilidad de los documentos de los sitios para complementar y diversificar la información sobre eventos.

Becker, H., Iter, D., Naaman, M., & Gravano, L. (2012). Identifying content for planned events across social media sites. Proceedings of the fifth ACM international conference on Web search and data mining - WSDM ’12 (p. 533). New York, New York, USA: ACM Press. doi:10.1145/2124295.2124360

Using Social Media to Identify Events

Las capacidades de los dispositivos móviles como celulares y la existencia de diversas aplicaciones de contenido social (social media) permiten el intercambio de contenido de tipo variado. Una forma de lograr dar cierta estructura a este tipo de mensajes es agrupándolos en eventos. Cada evento tiene ciertas características como lo son lugar, tiempo y participación.

Existen sitios que publican información sobre eventos previamente programados como Last.fm, Eventful y Upcoming. Sin embargo, la información en dichos sitios puede estar equivocada o incompleta. Otro problema que enfrentan es que se sobreponen los eventos que cubren y fallan al mostrar la experiencia de los usuarios aunque si contienen fotos y videos de dichos eventos de los cuales podría ser extraída dicha información.

Se utiliza a EventMedia para las pruebas. El sitio contiene alrededor de 1.7 millones de fotografías asociadas de forma explícita a más de 110 mil eventos. Las descripciones de los eventos son representadas en base a la ontología LODE que permite almacenar las propiedades más útiles de dichas descripciones. Se centra en cuatro preguntas que pueden ser respondidas y que son: ¿Qué sucedió?, ¿Dónde sucedió?, ¿Cuándo sucedió?, y ¿Quiénes estuvieron involucrados? Por otra parte, se utiliza la ontología de la W3C (W3C for Media Resources) para los recursos. A continuación un ejemplo de un concierto descrito por ambas ontologías:

Gracias a que algunas de las aplicaciones en dispositivos actuales incluyen información sobre la posición geográfica en la que se encuentra al momento de hacer la aportación al sitio. Se puede crear de cierta forma los límites físicos del evento tomando en cuenta como fronteras las locaciones de cada aportación. Un ejemplo se muestra en la siguiente figura:

El indicador azul presenta el lugar en el que se supone el evento fue llevado a cabo, los indicadores rojos muestran los lugares en los que se tomaron fotos en eventos pasados. Se descarta de manera automática los indicadores que se encuentren totalmente alejados de la zona real del evento.

Para detectar los eventos básicamente miden los siguientes elementos:

Número de fotos en línea para una locación en una fecha específica.
La dimensión social del evento determinada por el número de usuarios que suben las fotos.
Ponderación entre el número de fotos y la cantidad de usuarios que las subieron.

Para determinar que un evento esta sucediendo, el número de fotos que se encuentran deben ser superiores a una cantidad fija. Sin embargo, es difícil poder dar una cantidad general que se ajuste a todos los sitios probados.

Mientras que los resultados varían dependiendo del threshold brindado, en forma general fueron aceptables y se lograron detectar alrededor de 10% más eventos que los anunciados oficialmente en Last.fm y que en realidad si existieron.

Liu, X., Troncy, R., & Huet, B. (2011). Using social media to identify events. Proceedings of the 3rd ACM SIGMM international workshop on Social media - WSM ’11 (p. 3). New York, New York, USA: ACM Press. doi:10.1145/2072609.2072613

Wednesday, August 1, 2012

Proceso Propuesto

Recopilación de datos geográficos

Google Maps API: https://developers.google.com/maps/
Microsoft Maps API: http://www.microsoft.com/maps/developers/web.aspx
Nokia Ovi Maps API: http://api.maps.ovi.com/
CloudMade: http://developers.cloudmade.com/projects
MapQuest: http://developer.mapquest.com/
OpenStreetMap API: http://wiki.openstreetmap.org/wiki/Main_Page
Mobile Maps: https://labs.ericsson.com/apis/mobile-maps/
Osmdroid: http://wiki.openstreetmap.org/wiki/Osmdroid
TinyGeoCoder: http://tinygeocoder.com/blog/about/
Route-Me: http://code.google.com/p/route-me/

Recopilación de datos de tráfico

INRIX: http://www.inrix.com/
Speed Camera Database: http://www.scdb.info/en/
PhotoEnforced:
http://www.photoenforced.com/
Speed Camera Database:
http://www.speedcameradatabase.co.uk/
Redes Sociales:

Preparación de datos de tráfico

Dependiente del origen de los datos

Procesamiento de datos

Creación de patrones
Depende completamente de los objetivos requeridos

Objetivos

Programación de rutas
Predicción del comportamiento del tráfico
Ajustes en tiempo real

Visualización

Se pueden utilizar las fuentes de datos geográficos expuestas para visualizar
Se puede generar un entorno en tercera dimensión
Se puede implementar algo con realidad aumentada

Más aplicaciones de navegación GPS y Live Maps

Beat the traffic
- Información de tráfico en vivo
  - Velocidad del tráfico
  - Cámaras
  - Reportes de incidentes
- Rutas personalizadas
- Planeación a varios días
- Usado por ABC, Fox News y CBS
- http://www.beatthetraffic.com/
GLOB
- Información de tráfico global
- Datos obtenidos de dispositivos con la aplicación instalada y Speed Cams
- Permite exportar los datos de viajes a formato KML (archivo que reconoce Google Earth)
- http://g-lob.com/
TOMTOM
- Información de tráfico
  - Fuentes “estándar” e información anónima de teléfonos móviles
- Crea rutas basadas en su información
  - Si en el camino obtiene una mejor ruta, la despliega
- Actualización de datos cada 2 minutos
- http://www.tomtom.com/en_gb/services/live/hd-traffic/
Mobile Millenium
- Colaboración entre California Center for Innovative Transportation (CCIT), the Nokia Research Center (NRC), NAVTEQ y University of California (UC) en Berkeley
- Fuentes de tráfico:
  - GPS de teléfonos celulares
  - GPS de los taxis de San Francisco
  - Radares
  - Loop detectors
  - Bases de datos históricas
- http://traffic.berkeley.edu/
CALTRANS
- Información de tráfico en California
  - Sensores en los caminos
  - Cámaras en vivo
  - Informes de zonas en mantenimiento
- Página del gobierno de California
- http://quickmap.dot.ca.gov/
SIGALERT
- Datos de California obtenidos de CALTRANS
- Datos de Los Ángeles obtenidos de Regional Integration of Intelligent Transportation Systems (RIITS)
- Datos de San Francisco obtenidos de SpeedInfo
- Brinda rutas
- http://www.sigalert.com
TELENAV
- Navegación GPS
- Entre varios socios (o clientes) que tiene aparece Telcel
- Información obtenida de INRIX
- http://www.telenav.com/products/tn/
MAGELLAN
- Navegación GPS dirigida a vehículos grandes como RVers
- Datos de tráfico obtenidos de NAVTEQ
- http://www.magellangps.com/
Route66
- Navegación GPS
- Creación de rutas
- Permite agregar atajos
- Simulación de rutas
- Realidad aumentada para visualización de la ruta
- Cobertura en: Austria, Bélgica, Canadá, Croacia, China, República Checa, Dinamarca, Francia, Alemania, Hungría, Italia, Luxemburgo, Países Bajos, Noruega, Eslovenia, España, Suecia, Suiza, Reino Unido, Estados Unidos
- http://www.66.com/