La clasificación de texto puede ser considerada como el proceso automático de asignación de una o más categorías predefinidas a un documento de texto. El trabajo realizado en este artículo se centra en las capacidades de los modelos simples de redes neuronales recurrentes para clasificar títulos de noticias del Reuters-Corpus.
Las características de una red neuronal recurrente simple (SRN) permite procesar información secuencial, teniendo en cuenta las reglas gramaticales y el contexto de las palabras. Este tipo de consideraciones puede ser valioso ya que el orden de las palabras puede aportar información relevante para la clasificación de la red neuronal. Otra característica del modelo consiste en la habilidad de procesar secuencias con tamaños arbitrarios.
La arquitectura general contiene dos capas de contexto asociadas a dos capas ocultas que extienden la memoria sobre estados previos a través del tiempo. La recurrencia parcial en las capas de contexto es controlada por una función de histéresis. La siguiente figura muestra una visualización de la arquitectura:
La entrada de una capa oculta Hn en la red, es afectada por la capa Hn-1 y por la capa de contexto incremental Cn.
Para que el texto pueda ser procesado por algún clasificador, se debe llevar a cabo un mapeo para poder representar las características o rasgos en una forma apropiada.
Se menciona al Vector Space Model (VSM) como la técnica mayormente usada y establecida para llevar a cabo este proceso dentro de Information Retrieval (IR). VSM se encarga de codificar un conjunto de palabras sin tomar en cuenta el orden secuencial.
Por otra parte, la medida estadística más comúnmente usada dentro de IR y minería de texto es TFIDF (Term Frequency-Inverse Document Frequency). TFIDF indica la relevancia de una palabra respecto a un documento.
Se empleó una variación de VSM conocida como vectores semánticos para representar los títulos de las noticias y reducir la dimensión de los datos. Los rasgos son transformados en representaciones vectoriales con pesos para cada palabra de tal forma que el número de dimensiones para cada vector de palabras está en función del número total de clases dentro del corpus. A cada palabra se le asigna un número único decimal en el rango de 0 a 1 que la asocia a una clase en particular, mientras más alto es el valor, mayor es la asociación y mientras menor sea el valor, de igual forma la asociación es menor. Esto se calcula con las siguientes fórmulas:
La frecuencia de aparición normalizada de una palabra w en una categoría semántica ci es dada por el valor de v(w,ci), para cada elemento del vector semántico, dividido por la frecuencia de aparición normalizada de la palabra w en el corpus. C indica el número total de clases.
El corpus empleado consiste de 10,733 títulos que están relacionados al menos a un tema. El conjunto de entrenamiento consistió de 1,040 títulos (los primeros 130 de cada una de las 8 categorías). Los 9,693 títulos restantes se emplearon para probar las capacidades de generalización de la red entrenada. Los resultados se presentan a continuación:
Los resultados muestran que las redes de este tipo son una buena opción para la clasificación de texto. Según los resultados obtenidos, el orden de las palabras no resultó importante y hasta se llegó a obtener mejores resultados al mezclar las palabras.
Arevian, G. (2007). Recurrent Neural Networks for Robust Real-World Text Classification. IEEE/WIC/ACM International Conference on Web Intelligence (WI’07), (2), 326–329. doi:10.1109/WI.2007.126
No comments:
Post a Comment