Tesis Doctoral Aram: Document Classification and Recurrent Neural Networks

Se habla sobre un sistema de clasificación automática de documentos llamado NeuroClass. Es una herramienta de clasificación sobre texto en lenguaje natural basado en redes neuronales recurrentes.

Los documentos empleados para entrenamiento fueron cinco tipos de veintiocho posibles de la sección de aeropuertos de Transport Canada. Se emplearon aproximadamente 1000 documentos en la construcción del sistema. Las clases son las siguientes:

5151 Establishment & Operations – General
5157 Marketing
5158 Construction & Maintenance – Airside
5160 Emergency Services & Rescue
5164 Light & Power

De los 1000 documentos, 400 fueron empleados en la construcción de un diccionario que contiene aproximadamente 14000 palabras. El diccionario contiene las palabras más empleadas en los documentos junto a la información requerida para convertir a los documentos en secuencias de vectores de probabilidad correspondientes a las palabras. Se guardan las palabras, su frecuencia en todos los documentos y la frecuencia en cada documento.

La primera codificación de los documentos se basó en el uso de los valores ASCII de las letras. Cada palabra era convertida en un vector de números reales en el rango [0,1]. Cada vector era normalizado al dividir cada componente entre 255. Sin embargo, surgió un problema al clasificar las palabras ya que sucedía que en palabras con una longitud similar, con letras cercanas (en valores), no lograban diferenciarse lo suficiente.

La representación corregida consiste en leer los documentos mediante una rutina, palabra por palabra. Cada palabra es buscada dentro del diccionario, al encontrarse se convierte a la palabra en un vector de probabilidades pi al dividir la frecuencia de la frecuencia en cada clase fi entre la frecuencia total de la palabra ftot. Si no se encuentra la palabra dentro del diccionario, se hace uso de una probabilidad de 1/n donde n=5 ya que es el número de clases consideradas para las pruebas.

La primera arquitectura propuesta consistía en dos redes. La primera se encargaba de obtener las palabras claves de cada documento mientras que la segunda llevaba a cabo la clasificación del mismo. Los resultados con esta arquitectura no fueron los deseados y se decidió utilizar una sola red entrenada con las secuencias de vectores de probabilidad que representan las palabras contenidas en el documento. El paradigma de Elman fue elegido en base a experimentos.

El progreso de eficiencia de clasificación fue avanzando gradualmente. Con 500,000 iteraciones, solo se pudo clasificar la clase 5160 al 100%. Con 1,000,000 de iteraciones, sólo la clase 5158 fue propiamente identificada. Después de 1,500,000 iteraciones se empezó a diferenciar entre clases y no fue sino hasta las 3,000,000 de iteraciones que todas empezaron a obtener un 100% de precisión.

Se creó una herramienta de validación estadística para medir la confiabilidad del sistema. Después de asignar una clase a un documento, se calcula un nivel de confianza C(x, y) mediante la siguiente fórmula:

En la fórmula, X representa el total del número de palabras en un documento en que pi ≥ 0.55 y Y es el número total de palabras en el documento. Los experimentos que realizaron mostraron que los casos en que C(x, y) ≥ 0.30, la mayoría de los documentos fueron correctamente clasificados mientras que en el caso C(x, y) < 0.30 eran incorrectamente clasificados. La siguiente gráfica muestra los resultados finales:

En general, el sistema puede asegurar la correcta clasificación al alcanzar los 3,500,000 ciclos de entrenamiento.

Farkas, J. (1995). Document classification and recurrent neural networks. Proceeding CASCON ’95 Proceedings of the 1995 conference of the Centre for Advanced Studies on Collaborative research. Retrieved from http://dl.acm.org/citation.cfm?id=781936

Tesis Doctoral Aram

Thursday, November 15, 2012

Document Classification and Recurrent Neural Networks

No comments:

Post a Comment