Я реализовал модель, в которой я использую логистическую регрессию в качестве классификатора, и хотел построить кривые обучения как для обучающих, так и для тестовых наборов, чтобы решить, что делать дальше, чтобы улучшить мою модель.
Просто чтобы дать вам некоторую информацию, чтобы построить кривую обучения, я определил функцию, которая принимает модель, предварительно разбитый набор данных (обучающие / тестовые массивы X и Y, NB: с использованием функции train_test_split
), функцию оценки в качестве входных данных и итерацию через набор данных обучения на n экспоненциально разнесенных подмножествах и возвращает кривые обучения.
Мои результаты представлены на изображении ниже
Интересно, почему точность обучения сначала так высока, затем внезапно падает, а затем снова начинает расти по мере увеличения размера обучающей выборки? И наоборот для точности теста. Я думал, что точность очень хорошая, и падение было из-за некоторого шума из-за небольших наборов данных вначале, а затем, когда наборы данных стали более согласованными, он начал расти, но я не уверен. Кто-нибудь может это объяснить?
И, наконец, можем ли мы предположить, что эти результаты означают низкую дисперсию / умеренную систематическую ошибку (70% -ная точность в моем контексте не так уж и плоха), и поэтому для улучшения моей модели я должен прибегнуть к методам ансамбля или экстремальному проектированию функций?