Tesis Doctoral Aram: Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques

Este artículo busca encontrar el análisis de opinión de documentos pero tomando en cuenta las partes que lo componen y no solo dando una calificación general. Las principales características son: extracción de características específicas de un tema, extracción de opinión de cada frase que contenga una opinión expresada y creación de una asociación entre temas o características y su opinión correspondiente.

Primero se extraen los términos que indican una característica de lo que se habla. Para validarlo debe cumplir con alguna de las siguientes relaciones: ser una parte del tema dado, ser un atributo del tema o ser un atributo de una característica conocida del tema. En la siguiente figura, se remarcan en negritas los términos que se pretenden extraer:

Al revisar las características que se desean analizar, se dieron cuenta que todas corresponden a sustantivos por lo que definieron una serie de reglas que permitan elegirlos detalladamente. Primero se toman en cuenta sustantivos y adjetivos que deben cumplir con las siguientes formas: NN, NN NN, JJ NN, NN NN NN, JJ NN NN, JJ JJ NN en donde NN corresponde a un sustantivo y JJ a un adjetivo, estas formas las denominan como BNP (Base Noun Phrase). Después se considera el uso de las dBNP (Definite Base Noun Phrase) que son fragmentos que cumplen el formato de las BNP pero que van precedidas del artículo definitivo “the”. Debido a que en el texto se está hablando de un tema en particular, los dBNP no requieren mayor información contextual por lo que se puede conocer gracias a fragmentos como “the battery” que se está hablando de la batería de una cámara digital. Por último se definieron a los bBNP (Beginning Definite Base Noun Phrase) que son un dBNP al inicio de una oración y seguidos de un verbo. Esta heurística permite determinar el cambio de enfoque del objeto de un sustantivo a otro.

Para seleccionar las características emplearon dos modelos:

Mixture Language Model: Se considera el modelo del lenguaje como una mezcla de un lenguaje general de la web y un modelo de lenguaje específico.
Likelihood Ratio: Se calcula la probabilidad de un término a pertenecer a un conjunto de documentos de un tema y la probabilidad de pertenercer a un conjunto de documentos que no son de dicho tema.

Las pruebas se hicieron en el dominio de las reseñas de cámaras digitales y de música. El conjunto D+ habla del tema mientras que el conjunto D- habla de cosas específicamente que no corresponden al tema. La siguiente figura muestra la composición del dataset empleado:

Los resultados de la extracción se muestran a continuación:

Para el análisis de opinión, extrajeron 3000 términos que incluyen 2500 adjetivos y 500 sustantivos. El análisis de opinión lo basan en la desviación del estado neutral, ya sea positivo o negativo. La base creada tiene el formato: <lexical_entry> <POS> <sent_category> y un ejemplo de un registro es: "excellent" JJ +.

Por otro lado, se definieron patrones de opinión que describen el sentimiento reflejado en la oración en un formato único que consiste en lo siguiente: <predicate> <sent_category> <target> donde predicate es normalmente un verbo, sent_category es +|- (~ para negación) y su fuente (SP|OP|CP|PP – sujeto, objeto, complemento (o adjetivo) y frases preposicionales) y por último target (SP|OP|CP) es sobre quien recae la opinión. Algunos verbos no tienen una connotación positiva ni negativa. La siguiente figura muestra algunos ejemplos de estos patrones:

La primera prueba que se realizó fue basada en las reseñas de cámaras y música y se comparó contra un algoritmo estadístico de análisis de opinión llamado ReviewSeer y se obtuvieron los siguientes resultados:

La segunda lleva a cabo una comparación con el algoritmo ReviewSeer pero basado en documentos en general encontrados en la web dando como resultado lo siguiente:

Yi, J., Nasukawa, T., Bunescu, R., & Niblack, W. (2003). Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques. Third IEEE International Conference on Data Mining, 427–434. doi:10.1109/ICDM.2003.1250949

Tesis Doctoral Aram

Friday, January 25, 2013

Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques

No comments:

Post a Comment