Документы представляются в виде nBOW (нормализованные частоты), т.е. вектор размером со словарь.
Векторное представление слов позволяет ввести расстояние между отдельными словами.
Пусть есть два документа d и d'. Тогда можно ввести матрицу T_ij > 0, показывающую, сколько слова d_i перемещается в d'_j. Чтобы d полностью перешло в d' необходимо, чтобы сумма по слову равнялась d_i, и d_j. Итоговая стоимость преобразования d в d' считается как sum(T_ij * c(i,j))