Деревья решений — это тип машинного обучения с учителем (то есть вы объясняете, что такое вход и что такое соответствующий результат в обучающих данных), где данные непрерывно разбиваются в соответствии с определенным атрибутом. В деревьях решений каждый внутренний узел представляет собой проверка атрибута, и каждая ветвь представляет собой результат проверки, а каждый конечный узел представляет собой принятое решение.

Пример дерева решений можно объяснить с помощью приведенного выше бинарного дерева, где мы хотим предсказать, подходит ли человек, учитывая его информацию, такую ​​​​как возраст, привычка в еде и физическая активность, узлами решения здесь являются такие вопросы, как «Какой возраст?», «Он занимается спортом?», «Он ест много пиццы»? И листья, которые являются результатами, такими как «подходит» или «не подходит». Это простой случай проблемы бинарной классификации.

Типы деревьев решений:

Существует два основных типа деревьев решений:

  1. Деревья классификации (типы «Да/Нет»). То, что мы видели выше, является примером дерева классификации, где результатом была переменная, такая как «подходит» или «не подходит». Здесь переменная решения — категория.
  2. Деревья регрессии (непрерывные типы данных): здесь решение или переменная результата являются непрерывными, например. число вроде 123.

Прежде чем мы перейдем к алгоритму построения дерева решений, следует запомнить несколько определений.

Энтропия:энтропия обозначается H(S) для конечного множества S. Ее также можно понимать как требуемую информацию (в концепции деревьев решений).

Интуитивно он говорит нам о предсказуемости определенного события. Например, рассмотрим подбрасывание монеты, при которой вероятность выпадения орла равна 0,5, а вероятность выпадения решки равна 0,5. Здесь энтропия максимально возможная, поскольку невозможно определить, каким может быть результат. В качестве альтернативы рассмотрим монету, у которой с обеих сторон есть решка. Энтропию такого события можно точно предсказать, поскольку мы заранее знаем, что она всегда будет решкой. Другими словами, это событие не имеет случайности, поэтому его энтропия равна нулю.

Прирост информации.Прирост информации простыми словами можно понимать как изменение требуемой информации (или энтропии) после разделения узла по определенному атрибуту.

где IG (S, A) — прирост информации при применении признака A. H(S) — энтропия всего набора, а второй член вычисляет энтропию после применения признака A, где P(x) — вероятность событие х.

Индекс Джини:индекс Джини измеряет примесь, раздел данных или набор кортежей следующим образом: Джини (D) = 1 — Σ(p²), Здесь p — вероятность того, что кортеж в D принадлежит класс Си. И это оценивается Ci/D. Сумма вычисляется по m классам. низкий индекс Джини всегда лучше. здесь мы разделяемся на ту функцию, где изменение индекса Джини максимально.

Алгоритм построения деревьев решений:

Алгоритм ID3. Существует множество алгоритмов построения деревьев решений, но один из лучших называется Алгоритм ID3. ID3 означает Итеративный дихотомайзер 3.

Алгоритм ID3 будет выполнять следующие задачи рекурсивно

  1. Создайте корневой узел для дерева
  2. Если все примеры положительны, верните конечный узел «положительным».
  3. В противном случае, если все примеры отрицательные, верните конечный узел «отрицательный».
  4. Рассчитать энтропию текущего состояния H(S)
  5. Для каждого атрибута вычислите энтропию по отношению к атрибуту «x», обозначенному H (S, x)
  6. Выберите атрибут с максимальным значением IG(S, x)
  7. Удалите атрибут с самым высоким IG из набора атрибутов.
  8. Повторяйте до тех пор, пока не закончатся все атрибуты или дерево решений не будет иметь все конечные узлы.

Вместо использования здесь прироста информации (IG) мы также можем использовать коэффициент усиления (простая модификация прироста информации) или показатель индекса Джини для разделения по атрибуту.

Применение деревьев решений:

  1. Это важный метод, который широко используется в медицинских исследованиях и науке.
  2. Используется для визуализации вероятностных бизнес-моделей, используемых в управлении взаимоотношениями с клиентами и для оценки кредитоспособности пользователей кредитных карт.
  3. Он широко используется в сфере электронной коммерции, помогает формировать онлайн-каталог, что очень важно для успеха электронной коммерции.
  4. Это очень полезно в промышленности для производства системы контроля качества.

Вывод:

Ниже приводится краткое изложение того, что мы изучали в этом блоге:

  1. Энтропия, которая определяет степень случайности атрибута для задачи классификации. Минимальная энтропия означает, что атрибут близок к одному классу и имеет хорошую дискриминационную способность для классификации.
  2. Информация Прирост к атрибуту ранга для фильтрации в заданном узле дерева.
  3. Рекурсивный алгоритм ID3, создающий дерево решений.

Надеюсь, вы стали лучше понимать деревья решений, не стесняйтесь хлопать в ладоши.