Thursday, August 30, 2012

Identifying Themes in Social Media and Detecting Sentiments

Los blogs, foros y medios sociales se han convertido en un espacio de opinión que refleja los pensamientos de la gente sobre ciertos productos. El poder explorar la información depositada en dichos sitios, se convierte en una tarea que difícilmente se puede llevar a cabo de forma manual.

En específico, en este artículo se busca las opiniones de los compradores y usuarios de impresoras y las discusiones encontradas incluyen marcas como HP, Canon, Epson, Xerox, Brother y Lexmark. En total se recopilaron 850 entradas de blogs de sitios de Australia.

Debido a que los comentarios normalmente contienen una gran cantidad de palabras irrelevantes para el análisis planteado, se debe llevar a cabo un parseo del texto antes de cualquier análisis cuantitativo. Primero se toma al texto entero como un string gigante para ser organizado conforme a una serie de palabras clave. Se utiliza a herramienta llamada SAS Text Miner y se sigue el siguiente proceso:

  • Palabras con la misma raíz se tratan como la misma palabra (worked, working viene como ejemplo).
  • Categoría, grupos de sustantivos, nombres de productos, nombres de lugares y nombres de organizaciones se tratan como categorías distintas.
  • Palabras que aportan poca información como los artículos son eliminadas.
  • Los sinónimos son agrupados con una misma palabra.

Al final del proceso, se tiene una lista de palabras claves asociadas a los documentos, se hizo una revisión manual para separar y eliminar a los términos que no estuviesen relacionados con el objetivo de la investigación (palabras no relacionadas con impresoras y sentimientos). Se crea una matriz (term-document matrix) que contiene la frecuencia de cada palabra en cada documento. El proceso hasta el momento es desplegado en la siguiente figura:

image

Se utilizan múltiples clasificadores (uno por cada tema) debido a que una misma entrada puede contener información y por tanto pertenecer a uno o más temas. Las palabras clave tienen gran injerencia en este punto, dependiendo del tema que se esté tratando, ciertas palabras adquieren mayor relevancia que otras. Las palabras clave se clasifican según su capacidad para permitir distinguir un tema de otro como se muestra en la siguiente figura:

image

Para la creación de las reglas, se toma en cuenta que se debe minimizar el error de pasar por alto algún tema que este ahí sobre el clasificar erróneamente un documento en un tema que no le corresponda.

Para identificar los sentimientos, se toma el conjunto de entrenamiento y se clasifican las entradas de manera manual como positivas, negativas, neutrales y mixtas. El objetivo de esto es poder predecir alguna de estas clases en una nueva entrada del blog.

El reflejo de los sentimientos no se logra llevar a cabo por la simple frecuencia de las palabras sino por la relación que existe entre los términos. Sin embargo, el usar las combinaciones de términos ocasionaría que la dimensión crezca demasiado por lo que en lugar de usar directamente la frecuencia en que aparecen, se emplea una función de entropía con pesos.

Las validaciones fueron hechas de manera manual con el 12% de los datos. Algunos temas pueden ser identificados de manera más fácil que otros debido a la poca cantidad de veces que aparece el tema en los datos utilizados. La siguiente figura muestra los resultados de la identificación de los temas:

image

Por su parte, la detección de sentimientos se complica en la categoría mixta debido a que no se presenta con regularidad y no es fácilmente identificable aun para los humanos debido a su ambigüedad. La siguiente figura muestra los resultados:

image

La principal ventaja sobre el método presentado, es que resulta ser más sencillo de implementar que otros como Naive Bayes, redes neuronales, modelos vector-espacio, etc. La escalabilidad de la solución en los medios sociales presentada es otra de las características del método.

Pal, J., & Saha, A. (2010). Identifying Themes in Social Media and Detecting Sentiments. 2010 International Conference on Advances in Social Networks Analysis and Mining, 452–457. doi:10.1109/ASONAM.2010.25

No comments:

Post a Comment