Трансформер: основные выводы

Основано на книге «Внимание — это все, что вам нужно», Васвани и др., 2017 г.

Обзор

Вопрос. Как создать эффективную модель НЛП, учитывающую предыдущие слова при прогнозировании новых?

Что они сделали, чтобы ответить на вопрос. Авторы разработали «Трансформатор» (Vaswani et al., 2), нейронную сеть, которая использует только механизмы внимания для построения глобальных зависимостей между вводом и выводом. Затем они обучили и протестировали модель на различных задачах перевода.

Мотивация/обоснование. Некоторые из лучших предыдущих моделей, которые учитывают предыдущие слова при прогнозировании новых, основаны либо на RNN, либо на CNN. RNN неэффективны, потому что они используют последовательную обработку. CNN выполняют параллельную обработку, которая более эффективна, но у них очень ограниченная память. Если бы вместо этого использовалось внимание к себе, то мы могли бы эффективно просмотреть многие предыдущие слова в нашей модели и привлечь внимание к наиболее важным из них.

Вывод. Модель получила более высокие баллы за задачи перевода и с более низкой скоростью обучения, чем предыдущие модели.

Интерпретация.Модели Transformer работают лучше, чем предыдущие модели, лучше распараллеливаются и требуют гораздо меньше времени для обучения. Трансформеры также хорошо подходят для других задач с большими и ограниченными обучающими данными.

Важные понятия

Для чего используются механизмы внимания?

«Механизмы внимания стали неотъемлемой частью убедительного моделирования последовательностей и моделей преобразования в различных задачах, позволяя моделировать зависимости независимо от их расстояния во входных или выходных последовательностях [2, 19]». (Васвани и др., 2).

Обсуждены основные рекуррентные нейронные сети, использующие механизмы внимания

Долгая кратковременная память и закрытые рекуррентные нейронные сети

LSTM: сосредоточьтесь на наиболее важных предыдущих словах (например, исключите такие слова, как этот и сосредоточьтесь на таких словах, как замечательный, для анализа настроений). Используйте вентили, чтобы довести значения до 0 или 1, чтобы некоторые из них стали очень важными, а некоторые — нет.

GRU: аналогично LSTM, но со скрытым состоянием вместо состояния ячейки.

Самостоятельное внимание

Тип сети, в которой рассматривается контекст текста.

Если вам нравится более подробное математическое описание, посмотрите это замечательное видео в курсе Модели последовательности НЛП Coursera от deeplearning.ai.

Модели последовательности и преобразования

Задания, в которых мы смотрим на предыдущие слова/последовательности, чтобы предсказать новые.

Функция Софтмакс

Функция, которая принимает входной вектор и нормализует его таким образом, что каждый элемент становится значением от 0 до 1: отлично подходит для вероятностей!

Адам Оптимизатор

Форма стохастического градиентного спуска.

Сглаживание меток

Сделать метки более «умеренными», чтобы вместо 0 и 1 они были близки к 1 и близки к 0 (например, 0+(ɛ/3) и 1-(ɛ/3)).

Новые материалы

Расистский и сексистский робот, обученный в Интернете

Его ИИ основан на предвзятых данных, которые создают предрассудки. Он словно переходит из одного эпизода в другой из серии Черное зеркало , а вместо этого представляет собой хронику..

Управление состоянием в микрофронтендах

Стратегии бесперебойного сотрудничества Микро-фронтенды — это быстро растущая тенденция в сфере фронтенда, гарантирующая, что удовольствие не ограничивается исключительно бэкэнд-системами..

Декларативное и функциональное программирование в стиле LINQ с использованием JavaScript с использованием каррирования и генератора ...

LINQ - одна из лучших функций C #, которая обеспечивает элегантный способ написания кода декларативного и функционального стиля, который легко читать и понимать. Благодаря таким функциям ES6,..

Структуры данных в C ++ - Часть 1

Реализация общих структур данных в C ++ C ++ - это расширение языка программирования C, которое поддерживает создание классов, поэтому оно известно как C с классами . Он используется для..

Как я опубликовал свое первое приложение в App Store в 13 лет

Как все началось Все началось три года назад летом после моего четвертого класса в начальной школе. Для меня, четвертого класса, лето кажется бесконечным, пока оно не закончится, и мой отец..

Что в лицо

Очерк о возвращении физиогномики и о том, почему мы должны это приветствовать. История начинается со странной науки. Р. Тора Бьорнсдоттир, Николас О. Рул. Видимость социального класса по..

Почему шаблоны проектирования и почему нет?

Сложность — мать всех проблем в программировании. Программное обеспечение должно быть разработано с точки зрения того, кто его поддерживает, а не того, кто его пишет, потому что программное..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning React AI Software Engineering Nodejs Development Typescript Data Java NLP Front End Development Computer Science Algorithms Learning Programming Languages ChatGPT Tech Tutorial Reactjs Angular React Native Cybersecurity Productivity Neural Networks Python Programming Javascript Development HTML Javascript Tips Learning To Code Developer