Matching Networks

Matching Networks for One Shot Learning

Что?

Обучение на маленькой выборке для глубоких сетей с помощью хитрой модели и процедуры обучения, основанной на непараметрическом подходе

Как?

Учим сеть, которая отображает новый пример x и маленькое множество доступных примеров (x_i, y_i) в метку

Модель

Составляющие

S (Support set) - изначальное множество примеров x -> y;

c_s (Classifier) - функция классификация новых примеров

a(x_i, x_j) (attention mechanism ) - функция на [0,1]

f(x^, S) = attLSTM(f'(x), g(S), K)

Общая идея

Модель представляется как p(y^ | x, S), т.е. классификатор учится определять метку для нового объекта на основе явно задаваемого множества правильных пар. Если мы захотим классифицировать новые примеры, то можно будет передать новую выборку S' и классифицировать на ней.

Формализация

Модель задается в форме y^ = sum [ a(x^, x_i) * y_i], т.е. линейная комбинация меток, входящих в S. a можно определить в виде softmax над косинусными расстояниями между представлениями x^ и x_i. Представления можно получить из существующих предобученных сетей

Модификация описания

В исходной формулировке представление f(x^) не зависит от остальных элементов в S. Но в идеале, контекст должен влиять на итоговое представление, т.е. функция должна быть f(x^, S). Поэтому вводится LSTM, которая "встраивает" x^ с учетом множества S

Процедура обучения

Функция ошибки

Статья

https://arxiv.org/pdf/1606.04080.pdf

Обучение

Из распределения всех возможных меток T семплируем подмножество S

Вывод

Неясная процедура семплирования L, вопрос в устройстве и применимости LSTM к обработке множеств