From Word Embeddings To Document Distances

Формализация
Документы представляются в виде nBOW (нормализованные частоты), т.е. вектор размером со словарь.
Векторное представление слов позволяет ввести расстояние между отдельными словами.
Пусть есть два документа d и d'. Тогда можно ввести матрицу T_ij > 0, показывающую, сколько слова d_i перемещается в d'_j. Чтобы d полностью перешло в d' необходимо, чтобы сумма по слову равнялась d_i, и d_j. Итоговая стоимость преобразования d в d' считается как sum(T_ij * c(i,j))
Что?
Введение метрики, позволяющей сравнивать документы, в которых слова представлены векторами

Модель

Решение
Для поиска расстояние между двумя предложениями решают транспортную задачу с ограничениями - Word Mover Distance

Обучение

Обучение
Процедуры обучения как таковой нет, задача решается с помощью известных алгоритмов
   Login to remove ads X
Feedback | How-To