Близкий к LSTM метод RNN (рекуррентная нейронная сеть), используемый для хранения исторической информации с информацией в виде строки. Однако в долгосрочных последовательностях RNN теряют способность сохранять историческую информацию из-за проблемы «исчезающего градиента».
Проблема исчезающего градиента возникает в случае невозможности изучения зависимость мультипликативного градиента от количества слоев. Могут быть предоставлены практические решения, такие как отсечение градиента, ограничение максимального значения.

В качестве другого определения, это сходимость результатов, полученных функциями активации, к нулю, умноженных, при использовании алгоритма обратного распространения, если они находятся в диапазоне [-1,1]. Как видно из прямого распространения сетях алгоритм LSTM используется, когда алгоритму трудно обучиться по мере добавления слоев.

LSTM поддерживает множество временных шагов, добавляя историческую информацию, например, ремень заводской автоматизации. Он содержит необходимую информацию об этом ремне для использования в будущем. Это может решить градиентные потери в RNN.

"Он запоминает в долгосрочной перспективе и решает ее в краткосрочной перспективе".

Входная информация (X) будет введена в сигмовидную функцию вместе со значением смещения и весом. В то же время историческая информация о состоянии (Alpha(t)) будет введена в сигмовидную функцию со значением веса. Здесь, пока значения сигмовидной функции находятся между 0 и 1, ситуация, близкая к 1, означает, что информация будет запомнена, а ситуация, близкая к 0, означает, что информация будет забыта. Это разветвление называется «Забыть ворота».

При передаче i(t) через функцию sigmoid делается новое обновление о том, какую информацию можно и нельзя быть сохранены. Затем он умножается на Tanh, и состояние ячейки обновляется. Именно здесь раскрывается задача функции ReLU, которую мы будем использовать при создании модели. Теперь давайте поговорим об этом подробнее.

В частности, Sigmoid используется в качестве функции шлюза для 3 портов (обновление, выход, забвение) в LSTM, поскольку он дает значение от 0 до 1, он может не разрешать или разрешать полный поток информации через шлюзы.
Решение проблемы исчезающего градиента для LSTM отличается от глубокой сетки с прямой связью. В lstm проблема решается сетевой структурой LSTM, в частности несколькими вентилями и ячейкой памяти.
Для глубоких сеток с прямой связью проблема исчезающего градиента решается с использованием другой функции активации, выпрямленных линейных единиц. Эти устройства лучше справляются с общей проблемой насыщения активации при использовании Sigmoid или Tanh в глубоких сетях; это делает фоновый градиент практически нулевым, когда прямой переход насыщен. Единицы «relu» не имеют этой проблемы, они также менее сложны в вычислительном отношении (нет экспоненциальных функций, таких как Sigmoid или Tanh) и, следовательно, немного быстрее вычисляются.

Давайте сделаем краткий обзор в разделе «Врата памяти». Информация о забывании, которая приходит с f(t), добавляется к поясу автоматизации, о котором мы упоминали ранее, и взаимодействует с входными данными. i(t) и исторические данные о состоянии c(t), создавая процесс обновления c(t) историческая информация.

Для выходного состояния входное выражение o(t), которое теперь исправлено с помощью функции Tanh, преобразуется в (t), которое является новым выходом, запоминается как следующий вход ячейки, включается в ячейку, беря некоторое эффективные воспоминания с ним, и процесс начинается снова.

Я не хотел утомлять вас уравнениями, но, конечно, уравнения — это естественный процесс в этом деле. Я буду использовать свою следующую статью, чтобы понять области, в которых используется алгоритм LSTM, и математику работы.
Желаю вам приятно провести время…