МАШИННОЕ ОБУЧЕНИЕ И EDA

Каковы шаги в машинном обучении

Определение проблемы
Генерация гипотез
Извлечение данных
Исследование данных
Прогнозное моделирование
Развертывание модели

Зачем нам ЭДА?

Идентификация переменной

Поведение переменных

Отношения ч/б Переменные

Все данные присутствуют

Отсутствующие значения

Выбросы

Идеи для разработки функций

Типы машинного обучения

Контролируемое обучение

Размеченные данные, прямая обратная связь, прогнозирование результата/будущего

Неконтролируемое обучение

Без меток, без обратной связи, поиск скрытых структур в данных

Обучение с подкреплением

Процесс принятия решений, система вознаграждений, обучение серии действий

В машинном обучении с учителем изучите модель на основе обучающих данных и предскажите результат для невидимых или будущих данных. Входы и желаемый результат уже известны.

Обучение с учителем — это задача классификации, т. е. классификация — это подкатегория обучения с учителем, когда конечной целью является прогнозирование новых случаев на основе прошлых наблюдений.

Другой подкатегорией контролируемого обучения является регрессия, когда результат имеет непрерывную ценность. В регрессии мы пытаемся найти взаимосвязь между переменными и предсказать результат.

Другой важной концепцией является Dimension Reduction, подполе неконтролируемого обучения. Это метод удаления шума (предварительная обработка признаков) из данных, который может повлиять на производительность алгоритмов, и сжатия данных в другое пространство с сохранением большей части релевантной информации.

Какова роль статистики в EDA?

Статистика — это понятия для анализа и того, как интерпретировать данные.

Давайте разберемся с несколькими понятиями

Одномерный: распределение и разброс данных, основные тенденции

Двумерный: взаимосвязь ч/б переменных , проверка гипотез

Эксперименты: одна выборка, две выборки, парные

Оценка населения: центральная предельная теорема

Классификация статистики

Описание: обобщение, центральная тенденция, разброс данных, взаимосвязь ч/б переменных.

Выводная статистика: аппроксимация, выборка, анализ ошибок

Типы данных

Категориальный

В категориальном есть два типа, как указано ниже.

Номинальные данные: дискретные, без определенного порядка, изменение метки не влияет на значение, например: пол (мужской/женский)

Порядковый номер: Дискретный, Определенный порядок, Метка представляют собой названия: например: Классы (A+, B+, C+)

Числовой

В числовом формате есть два типа, как указано ниже.

Дискретные данные:принимает только определенные значения,может подсчитываться, например: количество часов сна.

Непрерывные данные:могут принимать любые значения, могут быть измерены, но не подсчитаны, например: во сколько вы легли спать (22:00)

СРЕДНЕЕ, МЕДИАНА И МОДА

Среднее: сумма всех точек данных, деленная на общее количество точек данных. Среднее полезно для непрерывных точек данных.

Медиана: это среднее значение после упорядочения по возрастанию или убыванию. Это значение, которое делит данные пополам. На самом деле это 50-й процентиль. Если есть нечетные или четные точки данных, формула отличается

Значения ODD = x(n+1)/2

ЧЕТНЫЕ значения = [X(n+1) + X(n/2)]/2

СРЕДНЕЕ СРАВНЕНИЕ СРЕДНЕГО СРЕДНЕГО

В среднем каждая точка данных способствует расчету и является хорошим индикатором центральной тенденции для непрерывных точек данных без экстремальных точек.

В медиане хороший индикатор для упорядоченных значений данных (по возрастанию или по убыванию) или непрерывных данных с крайними точками.

Аксиомы вероятности 1

Измеряет вероятность того, что событие произойдет.

P (событие) = количество результатов в событии / количество результатов в пространстве выборки

Это число от Ноль (0) до Единицы (1). P будет равен нулю или единице.

0 означает невозможное событие.

1 – определенное событие.

Итак, Событие — это подмножество выборочного пространства, а выборочное пространство — это набор всех возможных результатов (случайный эксперимент) . Случайный эксперимент можно повторять множество раз в одних и тех же условиях.

Аксиомы вероятности 2

Вероятность всего пространства выборкиP(S) = 1

Например. Вероятность потери статуса клиента-женщины по профессии

Аксиомы вероятности 3

P(AUB) = P(A) + P(B) для взаимоисключающих событий.

Два события А и В называются взаимоисключающими, если они не могут произойти вместе (не имеют общих элементов).

(P ^ B ) = 0 (^ это инвертированное U)

Взаимоисчерпывающее событие — это события, вместе составляющие все, что может произойти.

Machine Learning Statistics

Новые материалы

Базовое руководство по переносу концепций обучения в глубокое обучение

Обзор По мере того, как машинное обучение становится все более мощным и продвинутым, модели, обеспечивающие эту расширенную возможность, становятся все больше и начинают требовать огромного..

C в C.R.U.D с использованием React-Redux

Если вы использовали React, возможно, вы знакомы с головной болью, связанной с обратным потоком данных. Передача состояния реквизитам от родительских компонентов к дочерним компонентам может..

5 обязательных элементов современного инструмента конвейера данных

В цифровом мире предприятия используют конвейеры данных для перемещения, преобразования и хранения огромных объемов данных. Эти конвейеры составляют основу бизнес-аналитики и играют..

Случай использования npm3 вместо npm2 для разработки библиотеки

Некоторое время назад я создал библиотеку на NodeJS, чтобы упростить рендеринг на стороне сервера и клиента. Он использует React и React Router для отображения соответствующего HTML на веб-сайте...

Локаджит, спасибо, что поделились этой точкой зрения.

Локаджит, спасибо, что поделились этой точкой зрения. «Вы становитесь сильными, поднимая других, а не опуская их». Мы все можем извлечь уроки из этой цитаты.

Как простая библиотека может повысить производительность вашего приложения React

Знакомство с Million.js Виртуальный DOM React не такой быстрый. Но мы не можем обойти это. Если мы хотим React, нам нужно его придерживаться, верно? Нет, есть альтернатива. Million —..

Мой процесс подачи заявки в Школе программного обеспечения и дизайна Тьюринга

Мой последний пост на Medium был в конце августа, и в нем я пообещал написать еще раз, рассказывая историю моего процесса подачи заявки в Школу программного обеспечения и дизайна Тьюринга ...

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Development Typescript Data Java Front End Development NLP Algorithms Computer Science Learning Programming Languages ChatGPT Tutorial Tech Reactjs Angular React Native Productivity Cybersecurity Python Programming Javascript Development Learning To Code Developer Neural Networks Swift Science