Tesis Doctoral Aram: A survey of opinion mining and sentiment analysis

Se trata de un artículo que habla de los aspectos fundamentales y más recientes de opinion mining y sentiment analysis. Para empezar, se trata la definición de una entidad. Una entidad e es un producto, servicio, persona, organización o tema. Se asocia a un par, e : (T,W), donde T es una jerarquía de componentes o partes y subcomponentes, mientras que W es el conjunto de atributos de e. Cada componente o subcomponente tiene un conjunto de atributos propio.

Basados en la definición de una entidad, esta es representada como un árbol o una jerarquía, la raíz es el nombre de la entidad, cada nodo que no es raíz es un componente o subcomponente de la entidad. Cada enlace representa una relación del tipo “parte de”. Cada nodo tiene un conjunto de atributos asociado. Una opinión puede ser expresada sobre cualquier nodo o atributo de un nodo. Para simplificar, se tiende a reducir a sólo dos niveles el árbol, juntando a componentes y atributos en un solo término: aspectos.

Se tienen dos tipos de opiniones: regulares (o normales) y comparativas. Las opiniones normales son frecuentemente referidas como opiniones, hablan sobre una entidad. Las opiniones comparativas expresan la relación de similitudes o diferencias entre dos o más entidades y/o la preferencia del autor de la opinión basado en alguna de los aspectos compartidos entre las entidades.

Para fines prácticos, si sólo se habla de opiniones, se refieren a opiniones regulares a menos que se indique explícitamente que son comparativas. Una opinión es un sentimiento, actitud, emoción o valoración positiva o negativa sobre una entidad o un aspecto de una entidad por parte de un autor de opinión. Las orientaciones de las opiniones (polaridades) pueden ser positivas, negativas o neutrales.

Una opinión es una quíntupla (ei, aij, ooijkl, hk, tl) donde ei es la entidad, aij es un aspecto de la entidad ei, ooijkl, es la orientación de la opinión sobre el aspecto aij de la entidad ei, hk es el autor de la opinión y tl es el tiempo cuando la opinión fue expresada por hk. La orientación ooijkl puede ser positiva, negativa o neutral, o ser expresada en niveles de fuerza o intensidad. Cuando una opinión es expresada sobre la entidad como un todo, el aspecto queda denominado como GENERAL.

Dependiendo de la aplicación, es posible no requerir de los cinco elementos. Por ejemplo, si se requiere analizar y resumir las opiniones de una gran cantidad de personas, el conocer el autor de cada opinión puede no ser necesario. Por otra parte, se pueden agregar datos complementarios dependiendo del enfoque del estudio.

Para descubrir las opiniones en un conjunto de documentos D, se llevan a cabo las siguientes tareas:

Extraer todas las expresiones de entidades en D y agrupar las que sean similares en clusters de entidades. Cada cluster refleja una entidad única.
Extraer todas las expresiones de aspectos de las entidades y agruparlos en clusters. Cada cluster representa un aspecto único de una entidad.
Extraer los datos sobre el autor de la opinión y el tiempo en que fue expresada.
Determinar la polaridad de cada opinión (positiva, negativa o neutral).
Producir las quíntuplas correspondientes a cada documento en D con la información obtenida de los pasos anteriores.

Debido a que la mayoría de aplicaciones requieren el análisis de una gran cantidad de opiniones, es provechoso obtener un resumen de opiniones. El resumen se puede crear a partir de las quíntuplas obtenidas y puede tener un enfoque cuantitativo o cualitativo. Un ejemplo se muestra en la siguiente figura:

Se mencionan las áreas de estudio más prominentes tanto de opinion mining como de sentiment analysis.

Document Sentiment Classification

Se trata de la clasificación de un documento de opinión como una opinión o sentimiento positiva o negativa. Se considera a todo el documento como unidad básica de información. Siguiendo la definición propuesta de quíntuplas, se debe determinar la orientación oo del documento en el aspecto GENERAL quedando algo del estilo (e, GENERAL, oo, h, t) donde e, h y t pueden considerarse como conocidas o irrelevantes.

En este tipo de clasificación, se asume que el documento exhibe una opinión sobre una sola entidad y que viene de un mismo autor. Este tipo de documentos se encuentran en reseñas debido a que hablan sobre un producto (entidad) en particular y normalmente son escritas por la misma persona. El enfoque falla en otros medios como blogs o foros porque los autores tienden a expresar opiniones sobre múltiples productos y frecuentemente los comparan entre sí. La mayoría de métodos existentes se basan en aprendizaje supervisado aunque también existen enfoques no supervisados.

Para empezar, la clasificación utilizando aprendizaje supervisado se da de manera natural ya que se tienen previamente las tres clases que se utilizan (negativa, positiva y neutral). Se menciona que todos los métodos de aprendizaje supervisado pueden ser utilizados y por ejemplo se pone a la clasificación con naive Bayes y SVM.

Algunas de las características importantes obtenidas mediante la aplicación de estas técnicas son:

Términos y su frecuencia: Se emplean palabras individuales o n-grams y la frecuencia en que se presentan. En algunos casos se toma en cuenta también la posición que ocupa la palabra en la oración. En otros casos, se han introducido técnicas como TF-IDF.
Part of Speech (POS): En varias investigaciones se han identificado a los adjetivos como indicadores importantes de las opiniones por lo que se tratan como un rasgo especial.
Palabras y frases de opinión: Son palabras que son frecuentemente empleadas para expresar una opinión. Aunque muchas palabras son adjetivos y adverbios, se encuentran también sustantivos (rubbish, junk, crap) y verbos (hate, like) que también indican una opinión. Aparte de las palabras, se encuentran frases completas (cost someone an arm and a leg).
Negaciones: Las palabras que expresan una negación pueden cambiar por completo el sentido de una opinión pero se deben cuidar ya que dependiendo del contexto pueden no alterar el sentido original de lo expresado.
Dependencia sintáctica: Se han intentado tomar la dependencia entre palabras generadas por el análisis sintáctico (parsing) o por árboles de dependencia.

Otra área mencionada es la transferencia de aprendizaje o adaptación de dominio debido a que se ha demostrado que la clasificación de sentimientos es altamente dependiente al dominio de donde se extrajeron los datos de entrenamiento. Los clasificadores entrenados en un dominio suelen tener malos resultados cuando son probados con documentos de otro distinto. Esto es debido a que las palabras e incluso el lenguaje que rodea a un dominio puede ser completamente distinto (y a veces opuesto) al de otro. Los avances actuales han intentado usar datos etiquetados de un dominio, datos sin etiquetar de otro y palabras genéricas de opinión para proveer cierta adaptación.

Siendo que las palabras de opinión y sus frases respectivas de cierta forma dominan el estudio de la clasificación de sentimientos, también se ha tratado de emplear un enfoque no supervisado sobre estas características.

En resumen, la clasificación de sentimiento a nivel de documento brinda una opinión prevaleciente sobre una entidad, tema o evento. La principal desventaja es que no da detalles sobre lo que la gente le gustó o disgustó y no es aplicable a todos los textos sobre todo si contienen opiniones comparativas.

Sentence Subjetivity and Sentiment Classification

Esta es la aplicación de la clasificación de sentimiento (similar a la de nivel de documento) aplicada a oraciones individuales. El clasificar una oración como objetiva o subjetiva se le llama clasificación de subjetividad (subjetivity classification). Las oraciones subjetivas resultantes se clasifican como positivas o negativas según la opinión que expresan y a esto se le denomina clasificación de sentimiento a nivel de oración (sentence-level sentiment classification). Debido a que son problemas de clasificación, nuevamente se han empleado comúnmente técnicas de aprendizaje supervisado para ambas partes del problema.

El estudio de este nivel se basa tanto en la clasificación de subjetividad como en el de sentimiento. La principal suposición que se encuentra en este tipo de clasificación es que una oración expresa una sola opinión y proviene de un solo autor. Esta suposición se apega a las oraciones sencillas pero en otras de tipo compuesto, donde se presentan varias ideas u opiniones, entra en un conflicto.

Otro problema que se toca en uno de los artículos citados en el texto, indica que no sólo se pueden encontrar múltiples opiniones en una oración sino que también una mezcla entre cláusulas subjetivas y factuales. Uno de los estudios incluyó la fuerza de las opiniones empleando cuatro niveles (neutral, low, medium, high). La fuerza neutral indica la ausencia de una opinión o de subjetividad. Este tipo de clasificación también ayuda a evitar el paso previo (distinguir entre oraciones objetivas y subjetivas). También se menciona que identificar cláusulas no siempre es suficiente ya que hay ocasiones en que las opiniones pueden venir dentro de frases como: “Apple is doing very well in this terrible economy”, en donde Apple tiene una opinión positiva y la economía una negativa.

Los estudios se han basado en oraciones encontradas en reseñas y discusiones en foros, correos y grupos de noticias. En las discusiones, no sólo se plantea una opinión sino que se interactúa con otros usuarios por lo que se pueden producir varios argumentos altamente emocionales. Un caso tomó en cuenta este asunto y trató de diferenciar las opiniones que realmente iban dirigidas a una entidad y otras que eran influenciadas por la discusión (oraciones que sólo se presentaban por atacar a otro usuario).

Para finalizar este punto, se menciona que se debe tener en cuenta que no todas las oraciones subjetivas contienen opiniones y que este tipo de oraciones es sólo un subconjunto del universo de oraciones que expresan una opinión. Muchas de las oraciones objetivas llevan una opinión implícita por lo que se deben tomar en cuenta los dos tipos de oraciones.

Generación del léxico de opinión

El léxico de opinión es el conjunto de palabras y frases que permiten identificar una opinión y su polaridad. La generación de este conjunto se lleva comúnmente a cabo de manera previa a las clasificaciones. Para formar este conjunto se tienen dos tendencias:

§ Basado en diccionarios: se comienza con un conjunto semilla de palabras de opinión escritas manualmente y se busca en diccionarios en línea por sinónimos y antónimos. Se vuelve un proceso iterativo que se detiene cuando no se encuentran nuevos términos. Sin embargo, este proceso no toma en cuenta palabras con dominio y una orientación de contexto específica.

§ Basado en corpus y consistencia de sentimiento: Los métodos basados en corpus dependen de patrones sintácticos o de co-ocurrencia, también inician con un conjunto semilla de palabras de opinión que son usadas para encontrar otras en el corpus. La consistencia de sentimiento se encarga, en base a restricciones lingüísticas y convenciones en términos conectores, de determinar si los adjetivos y palabras de opinión tienen la misma o distinta orientación. Existen casos en que la consistencia de sentimiento se ve afectada dentro de un mismo dominio siendo que una palabra puede tomar ambas connotaciones (como ejemplo se pone en las cámaras la palabra “long” y las oraciones: “The battery life is long” y “The time taken to focus is long”). Uno de los métodos propuestos asocia la palabra de opinión al aspecto para intentar lidiar con este problema. El principal problema de emplear este enfoque basado en corpus radica en que es difícil conjuntar un cuerpo de texto que acumule todas las palabras que se puedan presentar.

Aspect-Based Sentiment Analysis

La clasificación de opiniones a nivel de documento o de oraciones no siempre es lo que se requiere para aplicaciones en específico. En muchas ocasiones, se desea obtener la opinión de una entidad y todos sus aspectos correspondientes, algo que las clasificaciones anteriores no permiten llevar a cabo. Para llevar a cabo un análisis basado en aspectos, los estudios se centran en dos partes de la construcción del modelo de la quíntupla: la extracción de aspectos y la clasificación de sentimiento del aspecto.

Aspect Sentiment Classification

En principio, muchos de los métodos usados en la clasificación a nivel de oraciones pueden ser empleados aquí. Sin embargo, recordando los problemas que presentan en oraciones compuestas conllevan a que se requiera un análisis más a detalle. El análisis a nivel de cláusulas requiere además un mecanismo de identificación de cláusulas que por sí mismo conlleva un reto debido al carácter informal del texto analizado y a que está lleno de errores gramaticales.

Uno de los estudios que mejores resultados ha arrojado se encuentra basado en el léxico. El proceso que lleva a cabo es el siguiente (se asume que las entidades y los aspectos son conocidos):

Marcar frases y palabras de opinión
Identificar cambiadores de orientación o sentido (negaciones, sarcasmo)
Manejo de cláusulas con pero (but-clauses)
Agregación de opiniones

El principal problema con este algoritmo es que no cubre todos los tipos de expresiones que expresan o implican una opinión. Se presentan una serie de reglas para identificar las opiniones pero se señala que no son suficientes.

Aspect Extraction

Los aportes sobre la extracción de aspectos se basan principalmente en las reseñas encontradas en línea. Se emplean métodos no supervisados y se mencionan algunos sencillos como el primero que solo emplea dos pasos:

Encontrar sustantivos y frases nominales frecuentes: Al examinar varios textos que hablan sobre una entidad, el vocabulario que se emplea tiende a converger por lo que los sustantivos encontrados son frecuentemente aspectos genuinos de la entidad.
Encontrar aspectos poco frecuentes al explotar las relaciones entre los aspectos y las palabras de opinión: Se sigue el entendimiento que una misma palabra de opinión puede ser empleada para describir o modificar distintos aspectos. Entonces, si una palabra se encuentra modificando un aspecto común, es posible que se pueda encontrar también afectando a uno poco frecuente.

Se mencionan (sólo por nombre) otros métodos que incluyen CRF (Conditional Random Fields), HMM (Hidden Markov Models) y Sequential Rule Mining para llevar a cabo este proceso.

Otros métodos proponen la extracción simultánea del léxico de opinión y los aspectos de las entidades al explotar las relaciones sintácticas que existen entre ellos. Este tipo de enfoque requiere de nuevo un conjunto semilla de palabras de opinión pero nada en cuanto a aspectos. El proceso básico que se lleva a cabo es el siguiente:

Extracción de aspectos usando palabras de opinión
Extracción de aspectos usando los aspectos extraídos
Extracción de palabras de opinión usando los aspectos extraídos
Extracción de palabras de opinión usando las palabras de opinión dadas en inicio y las extraídas.

Mining Comparative Opinions

Las comparaciones entre entidades son una manera de expresar una opinión (sea positiva o negativa) de manera distinta a una expresión directa. Se agrupan las relaciones de comparación en los siguientes tipos:

Non-equal gradable comparisons: Comparaciones del tipo mayor que y menor que, respecto a un aspecto compartido entre dos entidades.
Equative comparisons: Comparaciones del tipo igual que, en aspectos compartidos por dos entidades.
Superlative comparisons: Comparaciones de mayor que o menor que, respecto al resto de entidades existentes (mejor que todos, peor que todos).
Non-gradable comparisons: Comparaciones entre dos o más entidades sin una calificación (la Coca sabe distinta a la Pepsi).

El principal aporte de este tipo de comparaciones es el conocer la entidad preferida por el autor al comparar las características compartidas por las entidades en cuestión.

Otros problemas

Se mencionan la siguiente serie de dificultades que se pueden presentar en el proceso de llevar a cabo la minería de opinión.

Extracción de entidades, autor de la opinión y el tiempo en que fue expresada la opinión: La extracción de entidades es la que supone un mayor problema debido a que no siempre se escriben de la misma manera las entidades aunque se haga referencia a una misma (por ejemplo Motorola se llega a escribir como Moto o como Mot).
Implicación de sentimientos en expresiones objetivas: La mayor parte de las investigaciones se basan en la parte subjetiva de los textos debido a que se cree que llevan casi todas las opiniones, sin embargo, hay una gran cantidad de documentos y oraciones que expresan aspectos de una entidad con alguna connotación (positiva o negativa) de forma objetiva. Por ejemplo, se menciona una oración que dice: “Después de un mes, se formó un hueco a la mitad del colchón”. Mientras que es una oración objetiva, el hueco indica la calidad del colchón e implica una opinión negativa. Este tipo de situaciones es muy difícil de identificar ya que muchas expresiones requieren de uso del sentido común o un conocimiento profundo del mundo del dominio.
Agrupamiento de las expresiones de aspectos que hablan sobre un mismo aspecto: Existen muchas ocasiones en que las personas emplean distintas palabras para hablar sobre un mismo aspecto. Por ejemplo se menciona que foto e imagen se pueden referir a lo mismo en el contexto de las reseñas de cámaras digitales.
Mapeo de expresiones implícitas de aspectos: Algunas expresiones pueden referirse a un aspecto si no se presentan con un contexto pero eso no implica que siempre se refieran al mismo. Se pone como ejemplo pesado, normalmente se refiere a peso pero si se encuentra en una oración como: el tráfico está pesado, entonces no se describe el aspecto correspondiente al peso del tráfico.
Resolución de co-referencia: Se plantean dos ejemplos para este problema. El primero es el siguiente: “La cámara de Sony es mejor que la cámara de Canon. También es barata.” Se debe identificar que se la segunda oración se refiere a la cámara de Sony debido a que la opinión expresada es positiva y dado que en la primer oración se refiere a la cámara de Sony con una connotación similar, por consistencia así debe ser. El segundo ejemplo dice algo como: “La calidad de imagen en la cámara Canon es muy buena. Tampoco es cara”. Se debe ser capaz de inferir que la segunda oración debe referirse a la cámara Canon y no a la calidad de imagen (ya que no tendría sentido) por lo que el sistema debe conocer que palabras de opinión están usualmente asociadas a las entidades y/o aspectos.
Cross lingual opinion mining: Este tipo de investigación o problema se refiere a llevar a cabo la minería de opinión en cuerpos de lenguas distintas. Esto se lleva a cabo debido a que para ciertos idiomas no es posible (debido a que muchas veces no existe) encontrar un corpus suficientemente grande sobre un tema para llevar a cabo la minería.

Opinion Spam Detection

Para muchas personas, el encontrar y revisar opiniones en línea se ha vuelto una costumbre para varios propósitos. Las empresas pueden obtener grandes pérdidas o ganancias si los consumidores basan sus decisiones de compra en las reseñas encontradas en línea.

Es debido a esto que una de las vertientes de estas investigaciones se encuentra dirigida a la identificación de spam entre las opiniones encontradas en línea.

Se utilizan técnicas de aprendizaje supervisado, análisis de comportamiento anormal o algoritmos de detección de grupos dedicados a estas actividades. La principal diferencia con los temas previamente mencionados es que el patrón que se busca no consiste en evaluar las opiniones por su polaridad sino detectar un posible fraude o amañamiento de las reseñas en línea de las cuales se pueda sacar un provecho que no sea ético.

Utility of Reviews

Otra vertiente que se ha seguido en años recientes es determinar la utilidad para el usuario de una reseña. Mientras que muchos sitios lo llevan a cabo de manera manual al preguntar directamente a los usuarios si la reseña les fue útil, el determinarlo automáticamente puede ayudar a reseñas que tengan poca o nula retroalimentación.

Se menciona que los datos empleados para este tipo de investigaciones son los mismos proporcionados por los usuarios y normalmente se trata como un problema de regresión.

En conclusión el artículo muestra una buena introducción a minería de opinión y cuenta con una buena cantidad de referencias que ayudan para lograr encontrar las mayores áreas de oportunidad en este rubro.

Liu, B., & Zhang, L. (2012). A Survey of Opinion Mining and Sentiment Analysis. Mining Text Data (pp. 415–463). doi:10.1007/978-1-4614-3223-4_13

Tesis Doctoral Aram

Friday, February 1, 2013

A survey of opinion mining and sentiment analysis

No comments:

Post a Comment