Debido a la nula habilidad para lidiar con sinónimos y polisemias, k-vecinos más cercanos, Naive Bayes y las Máquinas de Soporte Vectorial, presentan problemas con el tamaño de las dimensiones en la clasificación de textos. Además, al presentarse formas de grandes dimensiones, los vectores empleados se esparcen y las medidas de distancia tradicionales como la euclidiana o el coseno pueden no proporcionar información relevante.
El concepto de coocurrencias de alto orden se presenta como una medida de la relación semántica entre palabras bajo la analogía que menciona que los humanos no necesariamente utilizan el mismo vocabulario al referirse a un tema.
El algoritmo que emplean se conoce con el nombre de X-Sim y está creado para aprendizaje no supervisado pero fue adaptado para problemas de clasificación en un entorno supervisado. El algoritmo consta de una matriz de datos con r filas (documentos) por c columnas (palabras). Dos matrices de similitud SR y SC (contienen la similitud de un documento con todos los demás y la similitud de una palabra respecto a todas las demás). La similitud de dos documentos es dada por la suma de las similitudes de las palabras que ambos contienen. Para las palabras, proponen no sólo tomar en cuenta las palabras que ocurren en ambos casos sino utilizar todos los posibles pares que puedan ser formados. Se hace lo mismo con los documentos para explotar la dualidad que dice que dos documentos son similares cuando se expresan por palabras similares mientras que dos palabras son similares cuando se expresan en documentos similares. La complejidad del algoritmo se mantiene en el orden de O(tn^3). La siguiente figura muestra cómo se van formando las coocurrencias:
Como el objetivo para que se vuelva útil a problemas de clasificación consiste en acercar a las palabras según los temas que expresan, se pueden tomar varios caminos. El primer método consiste en alterar las matrices iniciales de similitud dado un conocimiento previo de los temas a los que está relacionado. El segundo consiste en agregar una palabra extra (dummy word) a las matrices de similitud de palabras que de cierta forma incorpore la categoría a la que pertenece como se muestra en la siguiente figura:
Esto provoca que las matrices de similitud de documentos se agrupen según las palabras extra que se han agregado como se muestra en la siguiente figura:
Sin embargo, existen palabras que trascienden a los límites trazados por las categorías por lo que debieron hacer un mecanismo para disminuir el efecto de este fenómeno. El mecanismo consiste en multiplicaciones por un factor que determina el factor de las categorías en las coocurrencias de alto orden. El efecto de alterar el factor se muestra en la siguiente figura:
Se hicieron varias pruebas según 3 corpus que se emplean popularmente (20-Newsgroup, Reuters y LINGSPAM). En la siguiente tabla se muestra la comparación de resultados entre su algoritmo y otros que presentan pruebas similares:
El problema para clasificar los documentos determinados como jerárquicos radica en que los temas se encuentran compuestos de varios subárboles pero cuando se manejan sólo dos, obtuvieron el siguiente resultado:
Por otra parte se midieron los tiempos que tardó cada prueba en llevarse a cabo dando como resultado los siguientes datos:
Hussain, S., & Bisson, G. (2010). Text categorization using word similarities based on higher order co-occurrences. SIAM International Conference on Data Mining, 1–12. Retrieved from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.165.7002&rep=rep1&type=pdf