Matching Networks for One Shot Learning

Что?
Обучение на маленькой выборке для глубоких сетей с помощью хитрой модели и процедуры обучения, основанной на непараметрическом подходе
Как?
Учим сеть, которая отображает новый пример x и маленькое множество доступных примеров (x_i, y_i) в метку

Модель

Составляющие
S (Support set) - изначальное множество примеров x -> y;
c_s (Classifier) - функция классификация новых примеров
a(x_i, x_j) (attention mechanism ) - функция на [0,1]
f(x^, S) = attLSTM(f'(x), g(S), K)
Общая идея
Модель представляется как p(y^ | x, S), т.е. классификатор учится определять метку для нового объекта на основе явно задаваемого множества правильных пар. Если мы захотим классифицировать новые примеры, то можно будет передать новую выборку S' и классифицировать на ней.
Формализация
Модель задается в форме y^ = sum [ a(x^, x_i) *  y_i], т.е. линейная комбинация меток, входящих в S. a можно определить в виде softmax над косинусными расстояниями между представлениями x^ и x_i. Представления можно получить из существующих предобученных сетей
Модификация описания
В исходной формулировке представление f(x^) не зависит от остальных элементов в S. Но в идеале, контекст должен влиять на итоговое представление, т.е. функция должна быть f(x^, S). Поэтому вводится LSTM, которая "встраивает" x^ с учетом множества S

Процедура обучения

Функция ошибки
Статья
https://arxiv.org/pdf/1606.04080.pdf
Обучение
Из распределения всех возможных меток T семплируем подмножество S

Вывод

Вывод
Неясная процедура семплирования L, вопрос в устройстве и применимости LSTM к обработке множеств
   Login to remove ads X
Feedback | How-To