LSTM (долговременная кратковременная память)

Близкий к LSTM метод RNN (рекуррентная нейронная сеть), используемый для хранения исторической информации с информацией в виде строки. Однако в долгосрочных последовательностях RNN теряют способность сохранять историческую информацию из-за проблемы «исчезающего градиента».
Проблема исчезающего градиента возникает в случае невозможности изучения зависимость мультипликативного градиента от количества слоев. Могут быть предоставлены практические решения, такие как отсечение градиента, ограничение максимального значения.

В качестве другого определения, это сходимость результатов, полученных функциями активации, к нулю, умноженных, при использовании алгоритма обратного распространения, если они находятся в диапазоне [-1,1]. Как видно из прямого распространения сетях алгоритм LSTM используется, когда алгоритму трудно обучиться по мере добавления слоев.

LSTM поддерживает множество временных шагов, добавляя историческую информацию, например, ремень заводской автоматизации. Он содержит необходимую информацию об этом ремне для использования в будущем. Это может решить градиентные потери в RNN.

"Он запоминает в долгосрочной перспективе и решает ее в краткосрочной перспективе".

Входная информация (X) будет введена в сигмовидную функцию вместе со значением смещения и весом. В то же время историческая информация о состоянии (Alpha(t)) будет введена в сигмовидную функцию со значением веса. Здесь, пока значения сигмовидной функции находятся между 0 и 1, ситуация, близкая к 1, означает, что информация будет запомнена, а ситуация, близкая к 0, означает, что информация будет забыта. Это разветвление называется «Забыть ворота».

При передаче i(t) через функцию sigmoid делается новое обновление о том, какую информацию можно и нельзя быть сохранены. Затем он умножается на Tanh, и состояние ячейки обновляется. Именно здесь раскрывается задача функции ReLU, которую мы будем использовать при создании модели. Теперь давайте поговорим об этом подробнее.

В частности, Sigmoid используется в качестве функции шлюза для 3 портов (обновление, выход, забвение) в LSTM, поскольку он дает значение от 0 до 1, он может не разрешать или разрешать полный поток информации через шлюзы.
Решение проблемы исчезающего градиента для LSTM отличается от глубокой сетки с прямой связью. В lstm проблема решается сетевой структурой LSTM, в частности несколькими вентилями и ячейкой памяти.
Для глубоких сеток с прямой связью проблема исчезающего градиента решается с использованием другой функции активации, выпрямленных линейных единиц. Эти устройства лучше справляются с общей проблемой насыщения активации при использовании Sigmoid или Tanh в глубоких сетях; это делает фоновый градиент практически нулевым, когда прямой переход насыщен. Единицы «relu» не имеют этой проблемы, они также менее сложны в вычислительном отношении (нет экспоненциальных функций, таких как Sigmoid или Tanh) и, следовательно, немного быстрее вычисляются.

Давайте сделаем краткий обзор в разделе «Врата памяти». Информация о забывании, которая приходит с f(t), добавляется к поясу автоматизации, о котором мы упоминали ранее, и взаимодействует с входными данными. i(t) и исторические данные о состоянии c(t), создавая процесс обновления c(t) историческая информация.

Для выходного состояния входное выражение o(t), которое теперь исправлено с помощью функции Tanh, преобразуется в (t), которое является новым выходом, запоминается как следующий вход ячейки, включается в ячейку, беря некоторое эффективные воспоминания с ним, и процесс начинается снова.

Я не хотел утомлять вас уравнениями, но, конечно, уравнения — это естественный процесс в этом деле. Я буду использовать свою следующую статью, чтобы понять области, в которых используется алгоритм LSTM, и математику работы.
Желаю вам приятно провести время…

Новые материалы

Поиск сигнала в стоге сена

Авторы Сабрина Герольд и Артем Чакиров в Том Капитал АГ Стремление к неизвестному в поисках чего-то нового может быть вызвано шутливыми экспериментами с тем, что есть под рукой, или..

Практическое применение Yellowbrick в науке о данных

Визуализация данных играет решающую роль в понимании и интерпретации моделей машинного обучения. Yellowbrick — это библиотека Python, предоставляющая высокоуровневый интерфейс для создания..

Предпочитайте программное обеспечение для кибербезопасности, чтобы устранить риск угроз безопасности

Предпочитайте программное обеспечение для кибербезопасности, чтобы устранить риск угроз безопасности В цифровом мире кажется, что все управляется интеллектуальными устройствами, сетями,..

Очень полезные методы JavaScript для упрощения проверки вашего API-теста

Использование методов .map (), .reduce (), .filter (), .some () и .find (), чтобы сделать ваш тестовый код более чистым и гибким. В этой статье я постараюсь охватить наиболее полезные методы..

Ошибки не будут всплывать, если вы не вернете их вручную, и это станет ненужным беспорядком с вашей стороны…

Ошибки не будут всплывать, если вы не вернете их вручную, и это станет ненужным беспорядком, если вы попытаетесь сделать это вручную везде. Ошибки не остановят выполнение функции, если только вы..

В чем разница между JIT-компилируемыми языками и компилируемыми и интерпретируемыми языками?

В предыдущей статье мы говорили о разнице между компилируемыми и интерпретируемыми языками программирования. Сегодня мы поговорим о JIT-компилируемых языках. Компиляция JIT (Just-In-Time) — это..

Не удается прочитать свойства неопределенного: понимание и устранение ошибок JavaScript

Что вызывает ошибку? Ошибка «Не удается прочитать свойства неопределенного» возникает, когда вы пытаетесь получить доступ к свойству или вызвать метод для объекта, который имеет значение null или..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Development Data Java NLP Typescript Computer Science Learning Front End Development Algorithms Tutorial Productivity Tech Angular ChatGPT Programming Languages Javascript Development CSS Neural Networks Python Programming React Native Developer Cybersecurity Data Visualization Science HTML