Линейная регрессия — это часть математики, которая используется для выяснения взаимосвязи между двумя полями. Этот метод является одним из основных методов, которые можно использовать для прогнозирования моделей в машинном обучении.

Но почему это называется простой линейной регрессией? Ответ на этот вопрос заключается в том, что у нас просто есть два поля; один зависимый, а другой независимый. Итак, чтобы предсказать зависимое поле, мы обучаем модель с одним независимым полем. Однако этот метод используется при следующих двух предположениях:

  1. Целевое поле должно быть непрерывного типа и
  2. Между этими двумя полями должна быть линейная связь.

Для лучшего понимания позвольте мне проиллюстрировать это на примере для всех вас. Предположим, вы работаете в фирме и сталкиваетесь с записями о количестве лет опыта людей и их зарплате. Очевидно, известно, что заработная плата увеличивается с увеличением количества лет стажа. Вы хотите узнать, сколько вы заработаете через 2,5 года. (Для этого можно использовать любую версию MS Excel)

Мы назовем независимую переменную, т. е. YearsExperience, буквой «x», а зависимую переменную, т. е. зарплату, как «y».

Шаг 1. Определите x² и xy.

Возведите в квадрат столбец x, умножьте x и y на два новых столбца и найдите общее и среднее значение всех столбцов.

Шаг 2. Определите сумму квадратов

Сумма квадратов x² и xy определяется по формуле:

Где SSxx = сумма квадратов каждого наблюдения x, SSxy = сумма квадратов x и y, Σx² = суммирование x², Σ(x)² = суммирование x и возведение в квадрат, n = количество наблюдений, Σxy = суммирование xy, Σx= суммирование x и Σy= суммирование y

Шаг 3. Определите коэффициент регрессии и точку пересечения.

Обозначение линейной линии: ŷ=b1*x+bo (где ŷ=прогнозируемая зарплата, b1=коэффициент регрессии, x= количество лет и bo=отрезок). b1 и bo определяются формулами:

Таким образом, уравнение получается как ŷ=b1+bo, соответствующие значения помещаются в новый столбец, и график выглядит следующим образом:

Шаг 4. Определите невязку и сумму квадратов.

Остаток=y-ŷ

SST= Сумма квадратов всего= (y-ş)²

SSR = регрессия суммы квадратов = (ŷ-ş)²

SSE=Ошибка суммы квадратов= (y-ŷ)² , где=ş=среднее значение y

Шаг 5. Определите стандартную невязку ошибки (SER).

Шаг 6. Определите верхний и нижний предел прогнозируемой зарплаты.

Для аналитика данных очень важно и деликатно не называть точную цифру, поскольку могут быть и другие факторы, от которых зависит зарплата. Эти факторы невозможно объяснить с помощью простой линейной регрессии. Таким образом, мы заканчиваем определение диапазона прогнозируемого значения. При доверительном интервале 95% нормальное распределение выглядит примерно так, как показано ниже, где наш прогнозируемый диапазон попадает в область, где α =0,5-0,05/2=0,475 для нижнего предела и 0,475 для верхнего предела.

Используя Z-таблицу, мы получаем значение z для 0,475, равное 1,96, что является не чем иным, как критическим значением z для 95% доверительного интервала.

Верхний предел зарплаты = ŷ+(критическое значение z для уровня достоверности 95 % * SER)

Нижний предел зарплаты = ŷ-(критическое значение z для уровня достоверности 95 % * SER)

Шаг 7: Заключение

Таким образом, на основе процесса простой линейной регрессии прогнозируется, что зарплата в конце 2,5 лет будет находиться в диапазоне от 62 632,26 до 38 746,5 фунтов стерлингов с уровнем достоверности 95%.

Следовательно, простая линейная регрессия в конце концов оказывается простой!

Примечание: количество упомянутых выше записей не равно фактическому количеству записей. Уменьшенные записи показаны для понятного изображения.

Источник: https://www.kaggle.com/datasets/rsadiq/salary