Декодирование модели кодер-декодер от последовательности к последовательности (seq2seq)

Нейронная сеть энкодер-декодер Sequence-to-Sequence (seq2seq) представляет собой модель, состоящую из двух основных компонентов: энкодера и декодера. Эта модель особенно полезна в задачах, требующих, чтобы выходная последовательность не была напрямую связана с входной последовательностью, например, машинный перевод, распознавание речи и суммирование текста.

Давайте подробно рассмотрим, как работает эта модель, на примере перевода английского предложения «Спасибо» на испанское «Грасиас».

1. Входное представление

Первым шагом в модели seq2seq является преобразование входного предложения в подходящее представление, которое можно ввести в модель. Это делается с помощью встроенного слоя. Слой внедрения преобразует каждое слово во входном предложении в плотный вектор фиксированного размера. Эти векторы фиксируют семантические свойства слов. Например, слова «Спасибо» и «Вы» преобразуются в вектор.

например Предположим, у нас есть английский словарь из 5000 слов, и каждое слово представлено в виде 300-мерного вектора. Слова «Спасибо» и «Вы» преобразуются в 300-мерный вектор с использованием слоя внедрения. Эти векторы являются входными данными для кодировщика.

2. Энкодер

Кодер представляет собой рекуррентную нейронную сеть (RNN), которая принимает последовательность вложенных векторов в качестве входных данных и обрабатывает их по одному за раз. В нашем случае мы будем использовать для кодировщика долговременную кратковременную память (LSTM).

LSTM обрабатывает входную последовательность шаг за шагом, поддерживая внутреннее состояние, которое инкапсулирует информацию, которую он видел до сих пор. Для предложения «Спасибо» LSTM сначала обрабатывает слово «Спасибо», а затем обновляет свое внутреннее состояние. Далее он обрабатывает слово «вы» и снова обновляет свое состояние. Конечное состояние LSTM, часто называемое вектором контекста, служит выходом кодировщика. Этот вектор контекста является плотным вектором, представляющим все входное предложение.

3. Декодер

Декодер — это еще один LSTM, который генерирует переведенное предложение. Он принимает вектор контекста, созданный кодировщиком, в качестве своего начального состояния. Задача декодера состоит в том, чтобы сгенерировать выходную последовательность слово за словом.

Декодер также использует слой внедрения для представления выходных слов. Однако этот уровень внедрения отделен от того, который используется в кодировщике, поскольку он должен отражать семантику испанского языка.

Декодер начинает с подачи специального маркера начала последовательности (SOS) на уровень внедрения. Результирующий вектор вместе с вектором контекста подается в LSTM. LSTM обрабатывает этот ввод и обновляет его состояние. Выход LSTM на этом шаге представляет собой первое слово выходной последовательности.

например Предположим, у нас есть словарь испанского языка из 6000 слов, и каждое слово представлено в виде 300-мерного вектора. Токен SOS преобразуется в 300-мерный вектор с использованием испанского слоя внедрения.

4. Полностью подключенный слой и Softmax

Выходные данные LSTM на каждом этапе затем проходят через полносвязный (плотный) слой, который преобразует его в вектор того же размера, что и словарь испанского языка. Затем этот вектор проходит через функцию softmax, которая превращает его в распределение вероятностей. Функция softmax гарантирует, что все значения в выходном векторе находятся в диапазоне от 0 до 1 и в сумме дают 1, что позволяет нам интерпретировать их как вероятности.

Индекс самого высокого значения в выходном векторе после функции softmax принимается за индекс предсказанного слова в словаре испанского языка. Затем это слово добавляется к выходной последовательности.

т. е. выходные данные LSTM на этом этапе проходят через полносвязный слой, который преобразует его в 6000-мерный вектор (размер испанского словаря). Затем этот вектор проходит через функцию softmax, которая превращает его в распределение вероятностей. Предположим, что наибольшее значение в выходном векторе соответствует слову «Gracias» в испанском словаре. Затем это слово добавляется к выходной последовательности.

5. Генерация последовательности

Декодер продолжает генерировать выходную последовательность слово за словом. После генерации первого слова он передает это слово (во встроенной форме) обратно в LSTM вместе с обновленным состоянием для генерации следующего слова. Этот процесс продолжается до тех пор, пока декодер не сгенерирует токен конца последовательности (EOS), сигнализирующий о завершении трансляции.

6. Обучение

Во время обучения модель seq2seq использует метод, называемый принуждением учителя. Вместо того, чтобы передавать свои собственные прогнозы обратно в LSTM, он передает фактические целевые слова из обучающих данных. Это помогает модели обучаться более эффективно, поскольку предотвращает накопление ошибок с течением времени.

7. Вывод

Во время вывода (т. Е. Когда модель используется для перевода новых предложений) декодер отправляет свои собственные прогнозы обратно в LSTM, поскольку фактические целевые слова неизвестны.

Таким образом, модель seq2seq переводит предложения, кодируя входное предложение в вектор контекста с использованием LSTM, а затем декодируя этот вектор в выходное предложение, также используя LSTM. Модель обучена минимизировать разницу между ее выводом и фактическим целевым предложением. LSTM-кодировщик и декодер, а также слои внедрения и полносвязный слой обучаются совместно для достижения этой цели.

Важно отметить, что описанная здесь архитектура представляет собой упрощенную версию модели seq2seq, предназначенную для иллюстрации основной концепции. В реальном приложении модель seq2seq может быть намного сложнее. Например, он может использовать несколько уровней LSTM или другой тип RNN, такой как Gated Recurrent Unit (GRU). Он также может использовать механизмы внимания, которые позволяют модели фокусироваться на разных частях входной последовательности на каждом этапе генерации выходной последовательности, улучшая качество перевода.

Для тех, кто нашел эту статью познавательной и хочет еще больше углубить свое понимание модели кодирования-декодера Sequence-to-Sequence (seq2seq), я настоятельно рекомендую этот подробный видеоурок от StatQuest с Джошем Стармером. Его ясное и увлекательное объяснение действительно помогает понять сложности нейронных сетей seq2seq. Проверьте это здесь: https://youtu.be/L8HKweZIOmg.

Новые материалы

Расистский и сексистский робот, обученный в Интернете

Его ИИ основан на предвзятых данных, которые создают предрассудки. Он словно переходит из одного эпизода в другой из серии Черное зеркало , а вместо этого представляет собой хронику..

Управление состоянием в микрофронтендах

Стратегии бесперебойного сотрудничества Микро-фронтенды — это быстро растущая тенденция в сфере фронтенда, гарантирующая, что удовольствие не ограничивается исключительно бэкэнд-системами..

Декларативное и функциональное программирование в стиле LINQ с использованием JavaScript с использованием каррирования и генератора ...

LINQ - одна из лучших функций C #, которая обеспечивает элегантный способ написания кода декларативного и функционального стиля, который легко читать и понимать. Благодаря таким функциям ES6,..

Структуры данных в C ++ - Часть 1

Реализация общих структур данных в C ++ C ++ - это расширение языка программирования C, которое поддерживает создание классов, поэтому оно известно как C с классами . Он используется для..

Как я опубликовал свое первое приложение в App Store в 13 лет

Как все началось Все началось три года назад летом после моего четвертого класса в начальной школе. Для меня, четвертого класса, лето кажется бесконечным, пока оно не закончится, и мой отец..

Что в лицо

Очерк о возвращении физиогномики и о том, почему мы должны это приветствовать. История начинается со странной науки. Р. Тора Бьорнсдоттир, Николас О. Рул. Видимость социального класса по..

Почему шаблоны проектирования и почему нет?

Сложность — мать всех проблем в программировании. Программное обеспечение должно быть разработано с точки зрения того, кто его поддерживает, а не того, кто его пишет, потому что программное..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning React AI Software Engineering Nodejs Development Typescript Data Java NLP Front End Development Computer Science Algorithms Learning Programming Languages ChatGPT Tech Tutorial Reactjs Angular React Native Cybersecurity Productivity Neural Networks Python Programming Javascript Development HTML Javascript Tips Learning To Code Developer