Регрессия — это контролируемый процесс обучения, в котором зависимая переменная является непрерывной переменной, а независимая переменная может быть либо непрерывной, либо категориальной.

Существует два типа регрессионных моделей ML: параметрические и непараметрические.

Для параметрической модели мы разрабатываем метрику качества, которая оценивает эффективность подбора. Решив метрику качества, мы получим наилучшую подогнанную модель, а также коэффициенты для независимых переменных.

Параметрические модели

1. Обобщенная линейная регрессия (ANOVA)

В следующем примере предположим, что независимая переменная x имеет два уровня — 0 и 1.

2. Простая линейная регрессия

3. Множественная линейная регрессия

4. Регрессия хребта (регуляризация L2)

5. Лассо-регрессия (регуляризация L1)

Все параметрические линейные модели должны соответствовать предположениям, таким как ошибка (остаток) является нормальной, независимость между ошибкой и признаками, равная дисперсия ошибки. Они не допускают гибкой локальной структуры. Для этого нам потребуется использовать непараметрические линейные модели.

Непараметрический

1. Один ближайший сосед (1NN)

2. K ближайший сосед (KNN)

3. Взвешенный KNN

4. Регрессия ядра

5. Машина с градиентным усилением

Непараметрические регрессионные модели могут быть полезны, когда данные не следуют определенному распределению, а допущения линейной регрессии не могут быть достигнуты. Однако есть и недостатки. Подходы к ближайшим соседям могут стать очень сложными по мере роста N. Когда N очень велико, параметрическая модель обычно лучше, чем метод ближайшего соседа, если допущения линейной регрессии верны. У Gradient Boost есть несколько гиперпараметров для настройки — количество деревьев, количество листьев, скорость обучения, которые могут потреблять много вычислительных ресурсов и легко перенастраиваются, когда количество деревьев или листьев слишком велико. И, как и все градиентные подходы, он чувствителен к выбросам.

Регрессия в реальной мировой практике может быть очень сложной. Прежде чем создавать регрессионную модель, я думаю, что есть несколько хороших практик:

  1. Убедитесь, что нулевая/альтернативная гипотеза понятна. На основе плана эксперимента и цели эксперимента определить чистую гипотезу. Это поможет вам в процессе построения модели.
  2. Постройте диаграммы рассеяния и гистограммы для всех независимых и зависимых переменных, чтобы проверить выбросы и линейность между x и y. Гистограммы также могут показать распределение признаков и возможность применения преобразования, если распределение не является нормальным.
  3. Разделите поезд и тестовый набор, тестовый набор имеет решающее значение, когда вы пытаетесь выяснить, какой режим лучше. Если набор данных небольшой, необходима перекрестная проверка. Если набор данных очень мал, то для теста можно использовать исключение одного.
  4. Если есть необходимость настройки гиперпараметра, то разделите данные на поезд — проверка — тест. Примените поиск по сетке + перекрестную проверку, чтобы найти лучший гиперпараметр. Используйте тестовый набор для оценки модели.

Это все для поста.

Надеюсь, вам понравилось читать :)