Каковы шаги в машинном обучении
- Определение проблемы
- Генерация гипотез
- Извлечение данных
- Исследование данных
- Прогнозное моделирование
- Развертывание модели
Зачем нам ЭДА?
Идентификация переменной
Поведение переменных
Отношения ч/б Переменные
Все данные присутствуют
Отсутствующие значения
Выбросы
Идеи для разработки функций
Типы машинного обучения
Контролируемое обучение
Размеченные данные, прямая обратная связь, прогнозирование результата/будущего
Неконтролируемое обучение
Без меток, без обратной связи, поиск скрытых структур в данных
Обучение с подкреплением
Процесс принятия решений, система вознаграждений, обучение серии действий
В машинном обучении с учителем изучите модель на основе обучающих данных и предскажите результат для невидимых или будущих данных. Входы и желаемый результат уже известны.
Обучение с учителем — это задача классификации, т. е. классификация — это подкатегория обучения с учителем, когда конечной целью является прогнозирование новых случаев на основе прошлых наблюдений.
Другой подкатегорией контролируемого обучения является регрессия, когда результат имеет непрерывную ценность. В регрессии мы пытаемся найти взаимосвязь между переменными и предсказать результат.
Другой важной концепцией является Dimension Reduction, подполе неконтролируемого обучения. Это метод удаления шума (предварительная обработка признаков) из данных, который может повлиять на производительность алгоритмов, и сжатия данных в другое пространство с сохранением большей части релевантной информации.
Какова роль статистики в EDA?
Статистика — это понятия для анализа и того, как интерпретировать данные.
Давайте разберемся с несколькими понятиями
Одномерный: распределение и разброс данных, основные тенденции
Двумерный: взаимосвязь ч/б переменных , проверка гипотез
Эксперименты: одна выборка, две выборки, парные
Оценка населения: центральная предельная теорема
Классификация статистики
Описание: обобщение, центральная тенденция, разброс данных, взаимосвязь ч/б переменных.
Выводная статистика: аппроксимация, выборка, анализ ошибок
Типы данных
Категориальный
В категориальном есть два типа, как указано ниже.
Номинальные данные: дискретные, без определенного порядка, изменение метки не влияет на значение, например: пол (мужской/женский)
Порядковый номер: Дискретный, Определенный порядок, Метка представляют собой названия: например: Классы (A+, B+, C+)
Числовой
В числовом формате есть два типа, как указано ниже.
Дискретные данные:принимает только определенные значения,может подсчитываться, например: количество часов сна.
Непрерывные данные:могут принимать любые значения, могут быть измерены, но не подсчитаны, например: во сколько вы легли спать (22:00)
СРЕДНЕЕ, МЕДИАНА И МОДА
Среднее: сумма всех точек данных, деленная на общее количество точек данных. Среднее полезно для непрерывных точек данных.
Медиана: это среднее значение после упорядочения по возрастанию или убыванию. Это значение, которое делит данные пополам. На самом деле это 50-й процентиль. Если есть нечетные или четные точки данных, формула отличается
Значения ODD = x(n+1)/2
ЧЕТНЫЕ значения = [X(n+1) + X(n/2)]/2
СРЕДНЕЕ СРАВНЕНИЕ СРЕДНЕГО СРЕДНЕГО
В среднем каждая точка данных способствует расчету и является хорошим индикатором центральной тенденции для непрерывных точек данных без экстремальных точек.
В медиане хороший индикатор для упорядоченных значений данных (по возрастанию или по убыванию) или непрерывных данных с крайними точками.
Аксиомы вероятности 1
Измеряет вероятность того, что событие произойдет.
P (событие) = количество результатов в событии / количество результатов в пространстве выборки
Это число от Ноль (0) до Единицы (1). P будет равен нулю или единице.
0 означает невозможное событие.
1 – определенное событие.
Итак, Событие — это подмножество выборочного пространства, а выборочное пространство — это набор всех возможных результатов (случайный эксперимент) . Случайный эксперимент можно повторять множество раз в одних и тех же условиях.
Аксиомы вероятности 2
Вероятность всего пространства выборкиP(S) = 1
Например. Вероятность потери статуса клиента-женщины по профессии
Аксиомы вероятности 3
P(AUB) = P(A) + P(B) для взаимоисключающих событий.
Два события А и В называются взаимоисключающими, если они не могут произойти вместе (не имеют общих элементов).
(P ^ B ) = 0 (^ это инвертированное U)
Взаимоисчерпывающее событие — это события, вместе составляющие все, что может произойти.