Это мой второй пост об алгоритмах машинного обучения. Мой первый пост посвящен искусственным нейронным сетям, вы можете найти его ниже.



Наша тема для этого поста — деревья решений, которые являются одним из первых алгоритмов, которые нужно изучить новичку в науке о данных. Он используется в обучении с учителем, и это чудесный алгоритм, который используется как для классификации, так и для регрессии, плюс он не требует фиктивного преобразования категориальных переменных, что может быть очень проблематично для некоторых алгоритмов машинного обучения. Вот мое резюме для деревьев решений. Наслаждаться!

Деревья решений очень важны в машинном обучении, потому что методы, основанные на деревьях, просты и легко интерпретируются. С точки зрения точности предсказания, они часто не дотягивают до лучших методов обучения с учителем. Существуют также бэггинг, случайные леса, бустинг и деревья байесовской аддитивной регрессии. В каждом из этих методов создается множество деревьев, которые затем объединяются для получения единого согласованного прогноза, который называется обучение ансамблем. Интеграция большого количества деревьев часто может привести к значительному повышению точности прогнозирования за счет некоторой потери интерпретации.

Деревья решений можно использовать и в неконтролируемом обучении. Обучение без учителя — это метод машинного обучения, при котором у вас нет помеченных данных, как при обучении с учителем. Вместо того, чтобы делать прогнозы для будущих случаев на основе исторических данных, вы можете получить представление о своих данных, применяя методы кластеризации. Если вас интересует кластеризация, посмотрите мой пост об этом здесь!

Деревья классификации и регрессии также известны как алгоритм CART или модель CART. Эти деревья представляют собой модели, которые используют вопросы «да/нет» для прогнозирования. Эти модели могут быть моделью классификации, а также моделью регрессии.

Однако им не отдают предпочтение в задачах регрессии, поскольку они дают среднее значение для группы наблюдений.

В моделях классификации прогнозируемой переменной является класс, как в соревновании на Kaggle.com Титаник. Дерево классификации должно предсказать, выжили ли люди в результате катастрофы или погибли.

Знаменитая классификация чихуахуа и маффинов является хорошим примером проблемы классификации. Это модель, которая предсказывает, является ли данное изображение собакой.

Однако задача регрессии или дерево регрессии предсказывает числовое значение. Хорошим примером на Kaggle.com является Цены на жилье, где прогнозируемой переменной является цена дома. Я рекомендую новичкам поиграть с этими наборами данных.

Дерево решений рисуется в перевернутом виде так, чтобы его корень находился наверху. Порядок и данные слева не обязательно должны быть такими же, как справа. Окончательные классификации (исходы) могут быть повторены. Пример визуализации дерева решений выглядит следующим образом.

В этом дереве решений вы можете увидеть множество функций, обозначенных X[n]. Первое разделение дерева находится в функции X[2], а пороговое значение равно 0,937. Всего 300 000 наблюдений. После разделения есть 2 группы наблюдений (что всегда так). Вы видите 291 380 наблюдений слева, а остальные (8620 наблюдений) — справа. Первая группа (группа слева) — это группа, для которой выполняется условие в рамке на предыдущем уровне.

На втором этапе 291,380 наблюдений слева снова разбиваются на две группы, на этот раз признак X[1] и порог 0,455. Этот порог разбивает группу на группы по 103,857 и 187,523 наблюдения.

Приложения

Деревья решений имеют множество областей применения. Некоторые из них я собрал ниже.

  • Деревья решений помогают определить функции, которые будут использоваться в имплантируемых устройствах в биомедицинской инженерии.
  • Они полезны для прогнозирования удовлетворенности клиентов продуктом или услугой финансовый анализ.
  • Они используются в астрономии при классификации галактик.
  • Они используются в управлении системой.
  • Они используются в производстве и производстве, таких областях, как контроль качества, производство полупроводников и т. д.
  • Они используются в медицине, на этапе диагностики, кардиологии или психиатрии.
  • В физике они используются для обнаружения частиц и т. д.

Как это работает

Алгоритм выбирает лучший атрибут, используя Показатели выбора атрибута для разделения (например, прирост информации, коэффициент усиления или индекс Джини), делает этот атрибут узлом принятия решения и разбивает набор данных на более мелкие подмножества.

Алгоритм дерева решений требует для формирования только следующих элементов:

  • Функции, которые различаются для разделения данных,
  • Правило, определяющее, какой признак следует использовать при разделении,
  • Подход к поиску дерева нужного размера.

Дерево строится путем повторения этого процесса для каждого дочернего элемента до тех пор, пока не будет выполнено одно из следующих условий:

  • Все кортежи принадлежат одному и тому же значению атрибута.
  • Оставшихся атрибутов больше нет.
  • Больше экземпляров нет.

Однако есть проблема, которую необходимо решить:

За бесполезным разделением в начале дерева может последовать очень хорошее разделение. Лучшая стратегия состоит в том, чтобы вырастить очень большое дерево, а затем обрезать его, чтобы получить поддерево.

Для этого мы можем выполнить перекрестную проверку и проверить, когда метрика ошибки отличается от метрики ошибки обучения.

Плюсы

Деревья решений имеют много преимуществ.

  1. Деревья могут легко обрабатывать качественные предикторы без необходимости создания фиктивных переменных.
  2. Он может легко фиксировать нелинейные закономерности в данных.
  3. Он имеет очень простую форму, поэтому его можно легко понять и жестко запрограммировать.
  4. Он требует меньше предварительной обработки данных от пользователя, например, нет необходимости нормализовать или стандартизировать столбцы.
  5. Его можно использовать для разработки признаков, например для прогнозирования отсутствующих значений, и подходит для выбора переменных.

Минусы

С другой стороны, деревья решений также могут быть проблематичными.

  1. Деревья решений чувствительны к зашумленным данным. Модели, использующие алгоритмы дерева решений, могут привести к переоснащению.
  2. Небольшая вариация (или дисперсия) данных может привести к очень разным деревьям решений.
  3. Деревья обычно не имеют такого же уровня точности прогнозирования, как некоторые другие подходы к регрессии и классификации.
  4. Деревья решений смещены из-за несбалансированных наборов данных. Чтобы использовать деревья решений с несбалансированными данными, сначала следует использовать методы избыточной или недостаточной выборки.

Когда использовать деревья решений?

Деревья решений — это тип алгоритма машинного обучения, который можно использовать для различных целей. Они часто используются для задач классификации, в которых цель состоит в том, чтобы предсказать категориальный результат на основе набора признаков. Деревья решений также можно использовать для задач регрессии, целью которых является прогнозирование непрерывного результата.

Одним из основных преимуществ деревьев решений является то, что их легко понять и интерпретировать. Древовидная структура модели позволяет вам точно увидеть, как модель делает прогнозы, что может быть полезно для объяснения результатов другим. Деревья решений также относительно эффективны для обучения, они могут обрабатывать большие наборы данных и большое количество функций.

Деревья решений — хороший выбор для задач с небольшим числом исходов или когда исходы взаимоисключающие. Они также являются хорошим выбором, когда отношения между функциями и результатом не являются линейными. Однако деревья решений могут быть склонны к переобучению, особенно когда они глубокие и имеют много ветвей, поэтому важно тщательно настраивать гиперпараметры модели, чтобы избежать переобучения.

Это были основы деревьев решений. Я буду публиковать о них больше, поэтому, пожалуйста, подпишитесь на меня, чтобы увидеть мои публикации в своей ленте. Если вы хотите узнать больше о деревьях классификации и регрессии, посмотрите это!

Если вы ищете больше алгоритмов классификации, ознакомьтесь с моим сообщением ниже!



Если вы нашли эту статью полезной, пожалуйста, хлопните в ладоши и поделитесь ею с другими.

Спасибо!

Это сообщение может содержать партнерские ссылки.