Каковы шаги в машинном обучении

  1. Определение проблемы
  2. Генерация гипотез
  3. Извлечение данных
  4. Исследование данных
  5. Прогнозное моделирование
  6. Развертывание модели

Зачем нам ЭДА?

Идентификация переменной

Поведение переменных

Отношения ч/б Переменные

Все данные присутствуют

Отсутствующие значения

Выбросы

Идеи для разработки функций

Типы машинного обучения

Контролируемое обучение

Размеченные данные, прямая обратная связь, прогнозирование результата/будущего

Неконтролируемое обучение

Без меток, без обратной связи, поиск скрытых структур в данных

Обучение с подкреплением

Процесс принятия решений, система вознаграждений, обучение серии действий

В машинном обучении с учителем изучите модель на основе обучающих данных и предскажите результат для невидимых или будущих данных. Входы и желаемый результат уже известны.

Обучение с учителем — это задача классификации, т. е. классификация — это подкатегория обучения с учителем, когда конечной целью является прогнозирование новых случаев на основе прошлых наблюдений.

Другой подкатегорией контролируемого обучения является регрессия, когда результат имеет непрерывную ценность. В регрессии мы пытаемся найти взаимосвязь между переменными и предсказать результат.

Другой важной концепцией является Dimension Reduction, подполе неконтролируемого обучения. Это метод удаления шума (предварительная обработка признаков) из данных, который может повлиять на производительность алгоритмов, и сжатия данных в другое пространство с сохранением большей части релевантной информации.

Какова роль статистики в EDA?

Статистика — это понятия для анализа и того, как интерпретировать данные.

Давайте разберемся с несколькими понятиями

Одномерный: распределение и разброс данных, основные тенденции

Двумерный: взаимосвязь ч/б переменных , проверка гипотез

Эксперименты: одна выборка, две выборки, парные

Оценка населения: центральная предельная теорема

Классификация статистики

Описание: обобщение, центральная тенденция, разброс данных, взаимосвязь ч/б переменных.

Выводная статистика: аппроксимация, выборка, анализ ошибок

Типы данных

Категориальный

В категориальном есть два типа, как указано ниже.

Номинальные данные: дискретные, без определенного порядка, изменение метки не влияет на значение, например: пол (мужской/женский)

Порядковый номер: Дискретный, Определенный порядок, Метка представляют собой названия: например: Классы (A+, B+, C+)

Числовой

В числовом формате есть два типа, как указано ниже.

Дискретные данные:принимает только определенные значения,может подсчитываться, например: количество часов сна.

Непрерывные данные:могут принимать любые значения, могут быть измерены, но не подсчитаны, например: во сколько вы легли спать (22:00)

СРЕДНЕЕ, МЕДИАНА И МОДА

Среднее: сумма всех точек данных, деленная на общее количество точек данных. Среднее полезно для непрерывных точек данных.

Медиана: это среднее значение после упорядочения по возрастанию или убыванию. Это значение, которое делит данные пополам. На самом деле это 50-й процентиль. Если есть нечетные или четные точки данных, формула отличается

Значения ODD = x(n+1)/2

ЧЕТНЫЕ значения = [X(n+1) + X(n/2)]/2

СРЕДНЕЕ СРАВНЕНИЕ СРЕДНЕГО СРЕДНЕГО

В среднем каждая точка данных способствует расчету и является хорошим индикатором центральной тенденции для непрерывных точек данных без экстремальных точек.

В медиане хороший индикатор для упорядоченных значений данных (по возрастанию или по убыванию) или непрерывных данных с крайними точками.

Аксиомы вероятности 1

Измеряет вероятность того, что событие произойдет.

P (событие) = количество результатов в событии / количество результатов в пространстве выборки

Это число от Ноль (0) до Единицы (1). P будет равен нулю или единице.

0 означает невозможное событие.

1 – определенное событие.

Итак, Событие — это подмножество выборочного пространства, а выборочное пространство — это набор всех возможных результатов (случайный эксперимент) . Случайный эксперимент можно повторять множество раз в одних и тех же условиях.

Аксиомы вероятности 2

Вероятность всего пространства выборкиP(S) = 1

Например. Вероятность потери статуса клиента-женщины по профессии

Аксиомы вероятности 3

P(AUB) = P(A) + P(B) для взаимоисключающих событий.

Два события А и В называются взаимоисключающими, если они не могут произойти вместе (не имеют общих элементов).

(P ^ B ) = 0 (^ это инвертированное U)

Взаимоисчерпывающее событие — это события, вместе составляющие все, что может произойти.