Деревья решений

Деревья решений — это тип машинного обучения с учителем (то есть вы объясняете, что такое вход и что такое соответствующий результат в обучающих данных), где данные непрерывно разбиваются в соответствии с определенным атрибутом. В деревьях решений каждый внутренний узел представляет собой проверка атрибута, и каждая ветвь представляет собой результат проверки, а каждый конечный узел представляет собой принятое решение.

Пример дерева решений можно объяснить с помощью приведенного выше бинарного дерева, где мы хотим предсказать, подходит ли человек, учитывая его информацию, такую как возраст, привычка в еде и физическая активность, узлами решения здесь являются такие вопросы, как «Какой возраст?», «Он занимается спортом?», «Он ест много пиццы»? И листья, которые являются результатами, такими как «подходит» или «не подходит». Это простой случай проблемы бинарной классификации.

Типы деревьев решений:

Существует два основных типа деревьев решений:

Деревья классификации (типы «Да/Нет»). То, что мы видели выше, является примером дерева классификации, где результатом была переменная, такая как «подходит» или «не подходит». Здесь переменная решения — категория.
Деревья регрессии (непрерывные типы данных): здесь решение или переменная результата являются непрерывными, например. число вроде 123.

Прежде чем мы перейдем к алгоритму построения дерева решений, следует запомнить несколько определений.

Энтропия:энтропия обозначается H(S) для конечного множества S. Ее также можно понимать как требуемую информацию (в концепции деревьев решений).

Интуитивно он говорит нам о предсказуемости определенного события. Например, рассмотрим подбрасывание монеты, при которой вероятность выпадения орла равна 0,5, а вероятность выпадения решки равна 0,5. Здесь энтропия максимально возможная, поскольку невозможно определить, каким может быть результат. В качестве альтернативы рассмотрим монету, у которой с обеих сторон есть решка. Энтропию такого события можно точно предсказать, поскольку мы заранее знаем, что она всегда будет решкой. Другими словами, это событие не имеет случайности, поэтому его энтропия равна нулю.

Прирост информации.Прирост информации простыми словами можно понимать как изменение требуемой информации (или энтропии) после разделения узла по определенному атрибуту.

где IG (S, A) — прирост информации при применении признака A. H(S) — энтропия всего набора, а второй член вычисляет энтропию после применения признака A, где P(x) — вероятность событие х.

Индекс Джини:индекс Джини измеряет примесь, раздел данных или набор кортежей следующим образом: Джини (D) = 1 — Σ(p²), Здесь p — вероятность того, что кортеж в D принадлежит класс Си. И это оценивается Ci/D. Сумма вычисляется по m классам. низкий индекс Джини всегда лучше. здесь мы разделяемся на ту функцию, где изменение индекса Джини максимально.

Алгоритм построения деревьев решений:

Алгоритм ID3. Существует множество алгоритмов построения деревьев решений, но один из лучших называется Алгоритм ID3. ID3 означает Итеративный дихотомайзер 3.

Алгоритм ID3 будет выполнять следующие задачи рекурсивно

Создайте корневой узел для дерева
Если все примеры положительны, верните конечный узел «положительным».
В противном случае, если все примеры отрицательные, верните конечный узел «отрицательный».
Рассчитать энтропию текущего состояния H(S)
Для каждого атрибута вычислите энтропию по отношению к атрибуту «x», обозначенному H (S, x)
Выберите атрибут с максимальным значением IG(S, x)
Удалите атрибут с самым высоким IG из набора атрибутов.
Повторяйте до тех пор, пока не закончатся все атрибуты или дерево решений не будет иметь все конечные узлы.

Вместо использования здесь прироста информации (IG) мы также можем использовать коэффициент усиления (простая модификация прироста информации) или показатель индекса Джини для разделения по атрибуту.

Применение деревьев решений:

Это важный метод, который широко используется в медицинских исследованиях и науке.
Используется для визуализации вероятностных бизнес-моделей, используемых в управлении взаимоотношениями с клиентами и для оценки кредитоспособности пользователей кредитных карт.
Он широко используется в сфере электронной коммерции, помогает формировать онлайн-каталог, что очень важно для успеха электронной коммерции.
Это очень полезно в промышленности для производства системы контроля качества.

Вывод:

Ниже приводится краткое изложение того, что мы изучали в этом блоге:

Энтропия, которая определяет степень случайности атрибута для задачи классификации. Минимальная энтропия означает, что атрибут близок к одному классу и имеет хорошую дискриминационную способность для классификации.
Информация Прирост к атрибуту ранга для фильтрации в заданном узле дерева.
Рекурсивный алгоритм ID3, создающий дерево решений.

Надеюсь, вы стали лучше понимать деревья решений, не стесняйтесь хлопать в ладоши.

Machine Learning Decision Tree

Новые материалы

(Почти) полнофункциональная реализация Gumbel MuZero в Джулии.

TLDR; Gumbel Muzero — это современный алгоритм обучения с подкреплением. Он достиг сверхчеловеческой производительности во многих настольных играх и даже, что более впечатляюще, в Atari..

Передача нейронного стиля в браузерах с использованием Angular и WebDNN

В последние годы глубокое обучение привлекло большое внимание из-за его безупречной производительности при обучении на обширных данных и высокой точности при выводе. Развертывание этих алгоритмов..

Шифр Цезаря в C

Шифр Цезаря — один из самых простых и широко известных методов шифрования. Он включает в себя сдвиг каждой буквы в сообщении на определенное количество позиций в алфавите. В этой статье мы..

Исследовательский анализ данных (EDA)

Что такое ЭДА? Анализ данных, который ищет закономерности в данных, известен как исследовательский анализ данных. Это похоже на беглый просмотр данных, чтобы найти наиболее важные..

1x1 Convolution: демистификация

Чтобы пролить свет на концепцию операции свертки 1x1, которая представлена в статье «Сеть в сети» Лин и др. и Google Inception Некоторое время назад я прочитал статью «Сеть в сети» (NiN),..

Лучшие расширения VS Code в 2022 году

Код ВС Лучшие расширения VS Code в 2022 году Список самых полезных расширений VS Code, которые вы можете использовать как разработчик в 2022 году Расширения находятся на рынке VS Code,..

Новый подход к изучению Python и ИИ: мой путь как CodeApprenticeAI

Будучи начинающим программистом на Python, я столкнулся со своей долей проблем при изучении языка. Кривая обучения была крутой: от борьбы со сложными объяснениями до отсутствия руководства...

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning React AI Software Engineering Nodejs Development Data Typescript Java NLP Algorithms Front End Development Computer Science Learning Programming Languages ChatGPT Tutorial Tech Reactjs React Native Cybersecurity Angular Productivity Neural Networks Python Programming Javascript Development HTML Learning To Code Javascript Tips CSS