Основано на книге «Внимание — это все, что вам нужно», Васвани и др., 2017 г.

Обзор

Вопрос. Как создать эффективную модель НЛП, учитывающую предыдущие слова при прогнозировании новых?

Что они сделали, чтобы ответить на вопрос. Авторы разработали «Трансформатор» (Vaswani et al., 2), нейронную сеть, которая использует только механизмы внимания для построения глобальных зависимостей между вводом и выводом. Затем они обучили и протестировали модель на различных задачах перевода.

Мотивация/обоснование. Некоторые из лучших предыдущих моделей, которые учитывают предыдущие слова при прогнозировании новых, основаны либо на RNN, либо на CNN. RNN неэффективны, потому что они используют последовательную обработку. CNN выполняют параллельную обработку, которая более эффективна, но у них очень ограниченная память. Если бы вместо этого использовалось внимание к себе, то мы могли бы эффективно просмотреть многие предыдущие слова в нашей модели и привлечь внимание к наиболее важным из них.

Вывод. Модель получила более высокие баллы за задачи перевода и с более низкой скоростью обучения, чем предыдущие модели.

Интерпретация.Модели Transformer работают лучше, чем предыдущие модели, лучше распараллеливаются и требуют гораздо меньше времени для обучения. Трансформеры также хорошо подходят для других задач с большими и ограниченными обучающими данными.

Важные понятия

Для чего используются механизмы внимания?

«Механизмы внимания стали неотъемлемой частью убедительного моделирования последовательностей и моделей преобразования в различных задачах, позволяя моделировать зависимости независимо от их расстояния во входных или выходных последовательностях [2, 19]». (Васвани и др., 2).

Обсуждены основные рекуррентные нейронные сети, использующие механизмы внимания

Долгая кратковременная память и закрытые рекуррентные нейронные сети

LSTM: сосредоточьтесь на наиболее важных предыдущих словах (например, исключите такие слова, как этот и сосредоточьтесь на таких словах, как замечательный, для анализа настроений). Используйте вентили, чтобы довести значения до 0 или 1, чтобы некоторые из них стали очень важными, а некоторые — нет.

GRU: аналогично LSTM, но со скрытым состоянием вместо состояния ячейки.

Самостоятельное внимание

Тип сети, в которой рассматривается контекст текста.

Если вам нравится более подробное математическое описание, посмотрите это замечательное видео в курсе Модели последовательности НЛП Coursera от deeplearning.ai.

Модели последовательности и преобразования

Задания, в которых мы смотрим на предыдущие слова/последовательности, чтобы предсказать новые.

Функция Софтмакс

Функция, которая принимает входной вектор и нормализует его таким образом, что каждый элемент становится значением от 0 до 1: отлично подходит для вероятностей!

Адам Оптимизатор

Форма стохастического градиентного спуска.

Сглаживание меток

Сделать метки более «умеренными», чтобы вместо 0 и 1 они были близки к 1 и близки к 0 (например, 0+(ɛ/3) и 1-(ɛ/3)).