La extracción de información como detección de eventos y minería de opiniones en sitios de micro-blogging como Twitter han tomado gran interés.
Existe contenido semántico incluido en los mensajes publicados en este tipo de sitios, como ejemplo se menciona el siguiente tuit: “Just went to obamas speech in berlin. awesome”. Se pueden encontrar como entidades al presidente Obama, el discurso que pronunció y la ciudad de Berlin. Mientras tanto el sentimiento positivo expresado por la palabra “awesome” es una anotación semántica de la información. Extraer este tipo de información puede ayudar a conocer las respuestas a los eventos políticos.
Debido a las características de los mensajes en Twitter (abreviaciones, oraciones incompletas, emoticons, slangs, etc.) se vuelve una tarea más difícil el llevar a cabo el procesamiento lingüístico por lo que se requiere hacer una normalización previa.
El proceso se centra en herramientas y técnicas de procesamiento de lenguaje natural que incluyen: normalización del texto en los tuits, POS Tagging, reconocimiento de las entidades mencionadas, extracción y análisis de anotaciones y finalmente la transformación de la información en un formato de base de datos reusable.
Se debe tener en cuenta que es necesario contar con una forma de separar los datos de las opiniones, la información irrelevante, spam e información irrelevante de forma que puedan ser excluidas ya que no representan ningún aporte al contenido semántico.
Se forman parejas entre entidades y anotaciones para transferir la información a un formato semántico. Se emplea DBpedia como ontología.
El artículo no muestra mayor detalle en el sistema propuesto.
Narr, S., De Luca, E. W., & Albayrak, S. (2011). Extracting semantic annotations from twitter. Proceedings of the fourth workshop on Exploiting semantic annotations in information retrieval - ESAIR ’11 (p. 15). New York, New York, USA: ACM Press. doi:10.1145/2064713.2064723
No comments:
Post a Comment