Мы будем использовать данные кредитной карты UCI, как указано в разделе ссылок, чтобы спрогнозировать дефолт на следующий месяц на основе различных факторов.

Сначала мы загружаем некоторые основные библиотеки, то есть sklearn, pandas, numpy и matplotlib.

Затем мы загружаем граф и библиотеку классификатора дерева решений.

Далее мы загрузим данные,

В следующих нескольких командах мы рассмотрим только столбцы, которые мы будем включать в нашу модель, а затем мы удалим значения, которые не имеют значений, с помощью команды dropna(). Мы смотрим на первые три строки, используя head(3), а затем смотрим на статистические сводки, используя функцию description().

Ниже мы также можем увидеть, как будет выглядеть матрица корреляции для различных элементов данных, и будет показано, какие значения сильно коррелированы, а какие нет.

В следующих нескольких шагах мы установим X как независимые переменные, то есть все переменные, кроме зависимой переменной и идентификатора, и установим y как зависимые переменные, которые мы хотим предсказать, то есть default.payment.month.

После этого мы будем использовать разделение поезда и тестовых данных с помощью функции train_test_split.

Затем мы устанавливаем некоторые значения регуляризации признаков, чтобы избежать переобучения и недообучения. В этом случае мы увеличиваем минимальные значения, чтобы уменьшить переобучение, и уменьшаем максимальные значения, чтобы также уменьшить переоснащение.

После установки значений, просто указав модель как ccmodel, мы можем увидеть различные значения, установленные для этого

Далее мы обучим модель и сделаем прогноз точности на тестовых данных, и мы увидим, что она имеет показатель точности 0,818.

Мы получаем график, как указано ниже, и исходя из этого кажется, что наиболее важным значением для разбиения дерева решений является X5, а затем оно разбивается на X6, а затем на X14. Ниже любого значения, близкого к индексу Джини, равному 0, все значения принадлежат к одной классификации, и по мере того, как значение начинает увеличиваться с 0, примесь также начинает увеличиваться.

использованная литература

https://archive.ics.uci.edu/ml/datasets/credit+approval

https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1492032646/ref=sr_1_2?crid=3PFEHY44IP7L5&keywords=scikit+machine+learning&qid=1574761563&sprefix=scikit+m%2Caps%2C206&sr =8-2