Este artículo busca hacer una clasificación del texto contenido dentro de los correos electrónicos para determinar si son correos basura (spam). El flujo del procesamiento de mensajes se muestra en la siguiente figura:
El conjunto de reglas indicado se refiere a una serie de indicadores propuestos por spamassassin. Mediante el proceso de la figura anterior, se genera una matriz con los correos usados y las reglas que se aplican a ellos, este proceso se emplea principalmente para reducir la dimensión del conjunto de reglas.
El modelo de red neuronal empleado fue el de retropropagación siguiendo el modelo clásico mostrado en la siguiente figura:
Para las pruebas se empleó el corpus de Spamassassin del que fueron seleccionados 2,501 correos marcados como interesantes y 500 etiquetados como spam. Procesando los datos con el conjunto de reglas predefinido, se obtuvo una matriz de 568 correos y 328 rasgos de los que se escogieron de manera aleatoria 464 para entrenamiento, dejando los 104 restantes para pruebas.
Los resultados se muestran a continuación:
El artículo terminó estando más enfocado a la manipulación de los parámetros de la red de retropropagación que al proceso que sigue.
Ma, Q., Qin, Z., Zhang, F., & Liu, Q. (2010). Text spam neural network classification algorithm. 2010 International Conference on Communications, Circuits and Systems (ICCCAS), 466–469. doi:10.1109/ICCCAS.2010.5581954
No comments:
Post a Comment