Нейронные сети: логистическая регрессия

Обучение одной нейронной сети для логистической регрессии

В этой статье дается обзор обучения нейронной сети с одним нейроном (также известной как восприятие) для решения задачи логистической регрессии.

Набор данных:

Набор данных состоит из входных данных X, содержащих m выборок, каждая выборка имеет n признаков, и выходной/целевой переменной y, которая представляет собой вектор-столбец размера (m, 1) со значениями 0 или 1, как показано

У нас есть проблема бинарной классификации, где при заданном X нам нужно предсказать, будет ли y = 1 или 0. Мы сформулируем это в виде следующего уравнения:

ŷ = σ(wX+b)

где :

ŷ - прогнозируемый вектор в форме (m, 1) для заданного входа X

w - весовой вектор формы (m, 1) и

b - это точка пересечения, которая является скалярным значением

𝜎 — функция активации. Мы используем сигмовидную функцию в качестве нашей функции активации в случае задачи бинарной классификации 0–1, поскольку она легко отображает любой ввод в вывод между 0 и 1.

Функция потерь для логистической регрессии задается (векторизованная форма):

Loss, L = -(y*log(ŷ) + (1-y)*(log(1-ŷ))∕m

где y - вектор истинных меток

и ŷ - прогнозируемые значения, рассчитанные выше.

Наша цель в логистической регрессии — найти оптимальные w и b, которые минимизируют потери L. Или, другими словами, найти такие w и b, что

∂L∕∂w = 0 and ∂L/∂b = 0

Мы будем использовать нейронную сеть с одним нейроном, чтобы найти оптимальные w и b. Структура нейронной сети будет такой, как показано на рисунке:

Шаги прямого распространения:

Инициализируйте весовой вектор w формы (n,1) с 0 (используйте np.zeros).
Инициализировать перехват b = 0.0
Вычислите z = w*x+b .
Вычислите a = 𝜎(z). {где 𝜎 — сигмовидная функция}
Рассчитайте потери, используя:

L = (y*log(a) + (1-y)*(log(1-a))

Теперь нам нужно использовать обратное распространение, чтобы вычислить градиенты ∂L ∕ ∂w и ∂L ∕ ∂b и обновить веса ‘w’ и перехватить ‘b’ с помощью уравнений

Используя цепное правило дифференцирования, мы можем написать

Вычисляя каждый термин отдельно:

мы получаем

Подставляя все в формулу цепного правила, получаем,

Точно так же мы можем получить

Кроме того, мы можем показать, что

что подразумевает

Обычно, поскольку мы берем производную функции потерь по w, b и z, соглашение состоит в том, чтобы представлять их как «dw», «db» и «dz». Таким образом, приведенные выше уравнения становятся:

Шаг обратного распространения включает в себя вычисление вышеуказанных градиентов, как только мы получим значение «а» после прямого распространения.

Мы продолжаем вычислять градиенты для каждой из выборок и добавлять их кумулятивно, чтобы, наконец, получить градиенты за один проход по всем данным. Затем мы используем эти градиенты для обновления w и b, используя уравнения обновления, определенные выше.

Векторизация

Вместо того, чтобы повторять этот процесс «m» раз, мы можем использовать векторизацию, чтобы избежать использования дорогостоящих в вычислительном отношении циклов for для вычисления градиентов.

Затем формулы станут (используя numpy для операции векторизации)

Z = wᵀ.X +b

= np.dot(wᵀ, X) +b

A = 𝜎(Z)

dZ = A-Y

dw = np.dot(X,dZᵀ)/м

db = np.sum(dZ, axis=1,keepdims=True)/м

w := w-𝛼dw

b := b-𝛼db

где 𝛼 — скорость обучения.

Нам все равно придется пройти через несколько итераций, чтобы потери сошлись, приведенная выше векторизация позволяет нам избежать повторения количества выборок.

Это была простая демонстрация того, как прямое и обратное распространение работают в нейронной сети. Для более крупных нейронных сетей вычисления могут стать сложными из-за изменения размера и количества скрытых слоев, но процесс остается тем же для вычисления градиентов, используя прямое распространение для вычисления прогнозов, а затем используя обратное распространение ошибки для получения градиентов. «dw» и «db» и использовать его для обновления весов «w» и перехватов «b» и повторять весь процесс до тех пор, пока потери не будут минимизированы.

Все идеи взяты из DeepLearning.AI. Здесь я попытался воспроизвести то, что узнал, своими словами.

Спасибо, что прочитали. Поделитесь своими впечатлениями, предложениями или вопросами, если таковые имеются.

Новые материалы

Доверительные интервалы и как их найти

Учитывая выборку, скажем, рост 10 человек в городе, вы хотите оценить средний рост всех взрослых в городе. Вы можете сделать это, взяв среднее значение высот вашей выборки, но ни в коем случае..

Советы и рекомендации по JavaScript: использование мощных функций с массивом объектов

Пишите меньше и делайте больше с этими функциями Учиться всему чему-то Предисловие Сколько различных операций мы можем выполнить, используя только один массив объектов? Эти решения,..

«HELLO WORLD» на 10 языках программирования: веселое путешествие

Ах, классическая программа «HELLO WORLD» — обряд посвящения для каждого программиста. Но что, если мы скажем вам, что это не просто строки кода; это путешествие по необычным мирам языков..

Рубиновый еженедельник, выпуск 17

Добро пожаловать в 17-й выпуск Ruby Weekly, бесплатного еженедельного сборника новостей и статей о Ruby, который рассылается по электронной почте. Ruby для..

Ruby on Rails — День 1: Зацикливание

Сколько способов зациклиться в Ruby? Вопрос: распечатайте «Я люблю Ruby!» 10 раз Решения: Использование .times 10.times {print «Я люблю Ruby!» 2. Использование for in для я в..

Мониторинг и оповещение 101

Основы мониторинга и оповещения объясняются профессиональным инженером-программистом Мониторинг — это процесс осознания состояния системы. Существует 2 типа мониторинга: проактивный и..

5 не делайте этого и 5 делайте для новичков перед тем, как приступить к исследовательским проектам в области машинного обучения

В предыдущем сообщении: 10 основных причин неудач проектов машинного обучения я перечисляю несколько подводных камней, связанных с слепыми пятнами для специалистов по данным, когда они работают..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI Software Engineering React Nodejs Development Java Data NLP Typescript Learning Front End Development Tutorial Computer Science Productivity Algorithms ChatGPT Angular Javascript Development Tech Programming Languages Python Programming CSS Neural Networks Developer Self Improvement React Native ES6 Science Cybersecurity