Thursday, November 15, 2012

Neural Network Approaches for Text Document Categorization

Para este artículo se emplea un perceptrón multicapa como componente base para la categorización de documentos de texto en una gran cantidad de documentos con una gran cantidad de categorías. Se exploran dos arquitecturas, una categórica y otra jerárquica.

Una categorización multinivel de documentos consiste en una estructura jerárquica que contiene enlaces y nodos para representar la relación entre los conceptos de la categoría del documento cubiertos por la clasificación. La primera tope esta conformada por el concepto en general del dominio del documento. Se puede definir a dicha categoría como un conjunto de subcategorías (C1, C2, … Cn) que forman al primer nivel (L1) dentro del sistema. La composición de subcategorías se muestra en la siguiente figura:

image

La red tradicional fue entrenada una metodología de todos contra todos debido al gran número de clases y al gran tamaño del conjunto de entrenamiento. Esta red fue entrenada para comparar sus resultados con los dos enfoques presentados dentro del artículo.

En el modelo categórico, se entrenó a una red neuronal por cada categoría de nivel 1. Cada red tiene distintas salidas incluyendo la posibilidad que un tema no pertenezca a la categoría. Al final, todo se conjunta en un módulo de decisión que se encarga de asignar una categoría en base a un umbral que puede ser modificado. Esta arquitectura se puede paralelizar fácilmente y las estructuras de cada una de las redes neuronales son independientes entre sí así como sus parámetros. También el espacio necesario para esta representación es menor al de una sola red. La arquitectura se presenta en la siguiente figura:

image

El modelo jerárquico consiste en una primera red neuronal para el nivel 1. Esta red comparte un solo espacio y las salidas son binarias (pertenece o no pertenece). Se procede a un segundo conjunto de redes en las que cada una tiene un espacio más específico para la categoría que busca. El entrenamiento del primer nivel se hace de manera rápida y eficiente debido a la salida binaria mientras que para las redes del siguiente nivel se pueden paralelizar y al contar con espacios personalizados, requieren menos recursos que el uso de una sola red. La arquitectura se muestra a continuación:

image

Se utilizaron datos de diagnóstico de la industria automotriz para los experimentos. Se tienen 7 categorías de nivel 1 y cada una tiene un número distinto de datos siendo la segunda la más grande con 911. La siguiente figura presenta una descripción de los datos:

image

Uno de los principales motivos para realizar estas comparaciones consistió en el tiempo requerido para ejecutar los pasos. Los resultados se muestran en la siguiente figura:

image

Por otro lado, se debió llevar a cabo una medición de la confiabilidad de clasificación entre los tres modelos. Los resultados se presentan a continuación:

image

Murphey, Y. L. (2006). Neural Network Approaches for Text Document Categorization. The 2006 IEEE International Joint Conference on Neural Network Proceedings (pp. 1054–1060). IEEE. doi:10.1109/IJCNN.2006.246805

No comments:

Post a Comment