Twitter es una herramienta de comunicación que surgió con el propósito de responder a la pregunta ¿qué te encuentras haciendo?, sin embargo, la actualidad presenta que los mensajes contenidos en esta red social, varían de la pregunta original mezclando los términos publicados entre actualizaciones de las accione de los usuarios, esparcimiento de noticias y hasta búsqueda de ayuda en tiempos de crisis.
Twitter tiene un indicador que presenta los temas sobre los que se encuentran hablando sus usuarios. Este indicador se representa por una serie de términos denominados trending topics. El objetivo del artículo es el análisis de la anatomía de los trending topics para determinar que los vuelve populares.
Las siguientes imágenes muestran los 4 trending topics elegidos para la prueba y los 2 temas de control.
Se recolectaron 7215 tuits de todos los términos buscados debido a que se utilizó el Search API que permite solo tomar alrededor de 1500 mensajes en cada consulta y con una vigencia de aproximadamente 2 semanas.
También se incluyeron los datos de los usuarios que publicaron los mensajes correspondientes a los temas analizados. Se tomó en cuenta una muestra representativa (13% de la población de cada tema) se obtienen los siguientes datos:
- Cliente y dispositivo utilizado: Un código incluido en la estructura del mensaje permite conocerlo.
- Género: Se determina por la forma de escribir del usuario (como ejemplo se usa una frase posible “username misses his/her friends”). Se tiene otro grupo sin género para grupos de trabajo u organizaciones.
- Patrón primario de uso: Basado en la información en la página del perfil del usuario se cataloga en lo siguiente:
- Personal: La mayoría de sus mensajes son de carácter personal como conversaciones con amigos o información de sus actividades.
- Group: Un grupo con intereses comunes de fines no monetarios con grupos de investigación, club de fans de artistas, etc.
- Agregator: predominantemente se dedican a difundir información como su trabajo. Se incluyen a agencias de noticias, políticos, cuentas ligadas a fuentes RSS y que presentan poco o nulo contenido personal.
- Satire: Cuentas creadas con un fin humorístico, satírico o para parodiar.
-
- Marketing: Perfiles creados para promover un producto, la mayoría en este grupo se les considera como spam.
País: Tomado de campos del perfil como una clave de ciudad, una serie de coordenadas o en otros casos en la descripción del usuario en su perfil.
Para el análisis de los picos de información generados por los temas, utilizaron como variable el UID (identificador que Twitter asigna automáticamente a los mensajes) en lugar del tiempo como se hace en otras investigaciones. La frecuencia de UID (determinada por la razón del rango de datos y la diferencia entre el primer y último mensaje en cada uno de los 6 casos de estudio, obteniendo el promedio) es aproximadamente 111 UIDs por segundo.
Se clasificaron los casos de estudio en 3 grupos:
- Long-term topics: Temas que rara vez son discutidos debido a su falta de popularidad. Si llegan a tener algún pico en cuanto a su presencia, tiende a desaparecer de manera rápida.
- Medium-term topics: Son basados en términos genéricos que son comúnmente discutidos pero que no garantizan un número grande de tuits. Normalmente se presentan en un día aunque pueden abarcar varios.
- Short-term topics: Temas que debido a su naturaleza de gran volumen, no exhiben picos debido a su constancia o a que la consulta hecha por el Search API se presentó al momento de ocurrir un pico por lo que no se registran cambios.
La relación con el país o región en que se originaron los tuits permite llegar a algunas conclusiones a partir de la siguiente figura:
- El café es mencionado principalmente por residentes de Estados Unidos y del Reino Unido debido a que se coincidió con la hora del desayuno.
- Grey’s Anatomy y Revolverheld se mencionan en Estados Unidos y Alemania respectivamente debido a que son parte del entretenimiento local.
- Nizar es un político de Malasia por lo que la mayoría de los mensajes provienen de usuarios de dicho país.
- H1N1 es un asunto con alcances globales y esto se muestra en la distribución de los mensajes.
- Los mensajes de TwitHit son en su mayoría retuits y se pueden considerar como spam, debido a que la mayoría provienen de Estados Unidos es muy probable que ahí se haya iniciado el tema.
Empleando como parámetros y consideraciones los datos de los usuarios y los mensajes, se entrenó SOMine para generar una serie de SOMs(Self-Organized Maps) para llevar a cabo clustering. Se generaron 29 SOMs para las palabras estudiadas.
Algunos ejemplos de los resultados son:
El primer mapa muestra el resultado del término Revolverheld en el que el grupo mayoritario consta de mujeres en Alemania cuyos mensajes tienen un carácter principalmente personal. El grupo rojo es de hombres u organizaciones alemanas que propagan noticias sobre el grupo Revolverheld usando clientes de medios sociales. El último sector (amarillo) es una serie de usuarios anónimos que no proporcionan datos sobre sus identidades.
En el segundo caso (Nizar), el grupo mayoritario (azul) consta de usuarios (hombres y mujeres) ubicados en Malasia y cuyos mensajes son de carácter personal. El segundo grupo (rojo) consiste de varones de otros países que utilizan Twitter como herramienta de “periodismo ciudadano” para publicar noticias. El tercer grupo se encuentra formado por cuentas empleadas para llevar a cabo una campaña de marketing agresivo respecto y que suelen estar enlazadas a una fuente RSS.
Este mismo proceso se recrea en los medium-term y short-term topics dando una clasificación similar de las características de los grupos. Se expone como trabajo a futuro el poder utilizar estos resultados para campañas de marketing, business intelligence, detecciones de epidemias y otros campos relacionados.
Cheong, M., & Lee, V. (2009). Integrating web-based intelligence retrieval and decision-making from the twitter trends knowledge base. Proceeding of the 2nd ACM workshop on Social web search and mining - SWSM ’09, 1. doi:10.1145/1651437.1651439
No comments:
Post a Comment