Se menciona la definición del conocimiento de una situación como la percepción de elementos en un ambiente dentro de un volumen de tiempo y espacio, la comprensión de su significado y la proyección de su estado en un futuro cercano. Siendo así, se concluye que se divide en tres fases o actividades: Percepción, Comprensión y Proyección.
La naturaleza de redes sociales como Twitter, permite que en caso de un siniestro, se tenga acceso a esta red a través de las distintas conexiones a internet que se pueden tener en un sitio. La rápida distribución de los datos permite están informando en tiempo real así como tener un gran alcance. Existe un aumento en el número de mensajes que se publican en el tiempo en que ocurre un desastre como se muestra en la siguiente figura:
Debido a las características de los mensajes (conteniendo ruido y otros factores), resulta muy difícil aplicar directamente técnicas de procesamiento de lenguaje natural. Para lidiar con los problemas presentados, se creó un conjunto de componentes capaz de extraer elementos del conocimiento de la situación mediante el uso de técnicas de minería de datos como burst detection, clasificación de texto, online clustering y geo-tagging. Las técnicas fueron adaptadas de tal forma que puedan responder en tiempo real a grandes cantidades de texto.
El sistema intenta ayudar al CCC (Crisis Coordination Centre) de Australia en la tarea de identificar las posibles situaciones de emergencia que pueden surgir y ser reportadas por medio sociales. La arquitectura del sistema se muestra en la siguiente figura:
En el periodo de Marzo de 2010 hasta la escritura del artículo, se recopilaron alrededor de 66 millones de tweets de aproximadamente 2.51 millones de usuarios distintos que cubrieron reportes de desastres naturales e incidentes de seguridad.
Para identificar los incidentes inesperados, crearon un modulo llamado Bursting Detection que monitorea continuamente el flujo de información recibido y dispara una alerta cuando detecta un incidente no previsto. Para determinar que existe un evento inesperado, se toma la probabilidad de que una o varias palabras aparezcan en una ventana de tiempo actual contra la probabilidad de que aparezcan en una ventana de tiempo aleatoria. Si la probabilidad es relativamente grande, puede indicar que se presenta un incidente. Se logró un porcentaje de detección del 72.13% en los experimentos realizados y un 1.40% de falsos positivos.
Para poder reaccionar debidamente, fue encargado un método para poder identificar el impacto del evento. Se construyeron clasificadores estadísticos que automáticamente detectan tweets que contienen información del estado de la infraestructura (edificios, carreteras, puentes, etc.). Se experimentaron con Naive Bayes y Support Vector Machines que dieron como resultado una precisión del 86.2% y 87.5% respectivamente.
Para descubrir los temas relevantes en Twitter, se creó un algoritmo de clustering incremental en línea que automáticamente agrupa tweets similares en clusters de temas de tal forma que cada cluster represente un evento. El algoritmo debe ser capaz de manejar un gran volumen de información y no requerir conocimiento a priori del número de clusters debido a la constante evolución del contenido de los tweets.
El funcionamiento básico del clustering en línea hace que cada que se recibe un nuevo dato, se compara con los clusters existentes (si no hay, se crea uno para el mensaje) en base a una función de similitud. La similitud con el cluster con el que más se asemeja se compara contra un umbral (threshold empíricamente definido) y si no es lo suficientemente similar, se crea un nuevo cluster. Si en cambio se agregó el dato a un cluster existente, se debe recalcular el centroide de dicho cluster.
Se tiene una lista de clusters activos que se van manteniendo según llega la información. Si pasa cierto tiempo sin que se utilice un cluster (no se agregan nuevos datos), este se descarta y deja de ser un candidato para que los nuevos tweets sean agrupados. Para evitar que el número de clusters crezca desmesuradamente, solo se utilizan los tweets con candidatos a presentar un evento inesperado arrojados por el Bursting Detection. Las medidas de similitud empleadas fueron la similitud de Jaccard y la similitud de coseno dando resultados de 0.42 y 0.34 en el marcador Silhuoette.
Otra forma de reducir el campo de los tweets analizados se basa en la ubicación geográfica de la persona que escribió el mensaje. Si se tiene habilitada la opción de posicionamiento en Twitter, se usa la latitud y longitud, de otra forma se trata de utilizar la información del perfil para determinar su posible ubicación. Un ejemplo de esta función se muestra en la siguiente figura:
Finalmente se creó una herramienta de visualización que permite captar eventos en Twitter si se da un tiempo especificado. Se presentan las palabras clave y los tweets relacionados con el evento. La interfaz se muestra en la siguiente figura:
Yin, J., Lampert, A., Cameron, M., Robinson, B., & Power, R. (2012). Using Social Media to Enhance Emergency Situation Awareness. IEEE Intelligent Systems, 1, 1–7. doi:10.1109/MIS.2012.6
No comments:
Post a Comment