En este artículo se presenta el análisis de opinión a nivel de cláusulas para facilitar el procesamiento de múltiples aspectos presentados en una sola oración.
Dividen a las oraciones en inglés en oraciones simples (una sola cláusula independiente), compuestas (dos o más cláusulas independientes) y compuestas (al menos una cláusula independiente y una cláusula dependiente). Las cláusulas a su vez son divididas en sujeto y predicado (siendo el predicado la combinación de verbo, objeto, complemento y adverbio).
El proceso en general es mostrado en la siguiente figura:
Algunos títulos de películas contienen palabras que expresan sentimientos (como ejemplo se mencionan “beautiful mind” y “fantastic four”), sin embargo, estas palabras no deberían ser tomadas en cuenta para analizar el sentido de la oración. La anotación semántica ayuda a identificar las partes de la oración que proporcionen información sobre la película, director, elenco y los nombres de los personajes para que sean ignorados en el momento de calificar la opinión. Se tiene una lista complementaria de palabras que deben tomarse en cuenta como: directing, animation, scene, music y sound effects. La anotación se lleva a cabo tomando siempre como prioridad los resultados de mayor tamaño que encajen.
Los marcadores de opinión o sentimiento se obtienen de una base de datos pública (SentiWordNet) que brinda un número en el rango de -1 a 1 como valor a cada palabra. Se complementan con una serie de valores dependientes del contexto (en este caso las películas).
Empleando la librería de lenguaje natural de Stanford, se procesan las relaciones gramaticales entre las palabras. Las relaciones se definen como dependencias binarias pudiendo ser un gobernador o un dependiente. Se crea un árbol que contiene la oración completa y que posteriormente se convierte en cláusulas (sub-árboles) mediante división o multiplicación dependiendo del tipo de oración. La división se presenta cuando en la oración existen dos o más cláusulas independientes como en la oración “I love Tom but hate the movie” y se divide como se muestra a continuación:
Por su parte, la multiplicación se presenta en los casos en que la oración contiene predicados u objetos compuestos como en la oración “I love the music but not the story” y como resultado se obtiene lo expuesto en la siguiente figura:
El cálculo de opinión contextual se calcula atravesando y procesando cada uno de los nodos basado en las relaciones gramaticales entre padres e hijos y su información POS (Part of Speech). El algoritmo es recursivo y se detiene hasta que se llegan a todas las hojas. Las fórmulas para cada tipo y relación varían.
Se llevaron a cabo experimentos sobre 370 oraciones (185 positivas y 185 negativas). La siguiente figura muestra la precisión del sistema comparada contra una calificación manual de las oraciones.
Por su parte la siguiente figura muestra otro tipo de resultados para el análisis de la herramienta:
Existen peculiaridades con los resultados obtenidos, lugares en los que las palabras pueden tomar un sentido positivo en la base de datos pero en la oración toman uno negativo (aunque no exista una palabra de negación) o viceversa. Por otra parte, existen fallas con la categorización del POS que no logra identificar correctamente todas las partes de las oraciones.
Thet, T. T., Na, J.-C., Khoo, C. S. G., & Shakthikumar, S. (2009). Sentiment analysis of movie reviews on discussion boards using a linguistic approach. Proceeding of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion - TSA ’09, 81. doi:10.1145/1651461.1651476
No comments:
Post a Comment