Мы будем использовать данные кредитной карты UCI, как указано в разделе ссылок, чтобы спрогнозировать дефолт на следующий месяц на основе различных факторов.
Сначала мы загружаем некоторые основные библиотеки, то есть sklearn, pandas, numpy и matplotlib.
Затем мы загружаем граф и библиотеку классификатора дерева решений.
Далее мы загрузим данные,
В следующих нескольких командах мы рассмотрим только столбцы, которые мы будем включать в нашу модель, а затем мы удалим значения, которые не имеют значений, с помощью команды dropna(). Мы смотрим на первые три строки, используя head(3), а затем смотрим на статистические сводки, используя функцию description().
Ниже мы также можем увидеть, как будет выглядеть матрица корреляции для различных элементов данных, и будет показано, какие значения сильно коррелированы, а какие нет.
В следующих нескольких шагах мы установим X как независимые переменные, то есть все переменные, кроме зависимой переменной и идентификатора, и установим y как зависимые переменные, которые мы хотим предсказать, то есть default.payment.month.
После этого мы будем использовать разделение поезда и тестовых данных с помощью функции train_test_split.
Затем мы устанавливаем некоторые значения регуляризации признаков, чтобы избежать переобучения и недообучения. В этом случае мы увеличиваем минимальные значения, чтобы уменьшить переобучение, и уменьшаем максимальные значения, чтобы также уменьшить переоснащение.
После установки значений, просто указав модель как ccmodel, мы можем увидеть различные значения, установленные для этого
Далее мы обучим модель и сделаем прогноз точности на тестовых данных, и мы увидим, что она имеет показатель точности 0,818.
Мы получаем график, как указано ниже, и исходя из этого кажется, что наиболее важным значением для разбиения дерева решений является X5, а затем оно разбивается на X6, а затем на X14. Ниже любого значения, близкого к индексу Джини, равному 0, все значения принадлежат к одной классификации, и по мере того, как значение начинает увеличиваться с 0, примесь также начинает увеличиваться.
использованная литература