Несбалансированные наборы данных являются распространенной проблемой в машинном обучении, когда количество экземпляров, принадлежащих одному классу, значительно превышает количество экземпляров другого(их). Этот дисбаланс может привести к появлению предвзятых моделей, которые плохо работают в отношении класса меньшинства. В этом посте мы рассмотрим различные методы обработки несбалансированных наборов данных и повышения производительности моделей машинного обучения.

Понимание проблемы

Прежде чем углубляться в методы, важно понять последствия несбалансированных наборов данных. В задаче бинарной классификации, если положительный класс (меньшинство) имеет только 10% экземпляров, модель, которая предсказывает все как отрицательный класс (большинство), все равно достигнет точности 90%. Однако эта модель практически бесполезна, поскольку не позволяет выявить положительные примеры.

Метрики оценки

Чтобы правильно оценить эффективность моделей на несбалансированных наборах данных, одной точности недостаточно. Вместо этого нам следует рассмотреть показатели, ориентированные на класс меньшинства. Некоторые часто используемые показатели оценки включают в себя:

  1. Точность. Доля правильно предсказанных положительных случаев среди всех предсказанных положительных случаев.
  2. Напомним: доля правильно предсказанных положительных случаев среди всех фактических положительных случаев.
  3. Оценка F1: Гармоничное среднее значение точности и полноты, обеспечивающее сбалансированную меру между ними.

Методы обработки несбалансированных наборов данных

  1. Пересборка. Этот метод предполагает либо избыточную выборку класса меньшинства, либо недостаточную выборку класса большинства, чтобы сбалансировать набор данных. При передискретизации дублируются экземпляры из класса меньшинства, а при недостаточной выборке случайным образом удаляются экземпляры из класса большинства. Однако эти методы могут привести к переоснащению или потере важной информации.
  2. Техника избыточной выборки синтетического меньшинства (SMOTE): SMOTE генерирует синтетические экземпляры для класса меньшинства путем интерполяции между существующими экземплярами. Этот метод помогает преодолеть ограничения простой передискретизации за счет создания новых экземпляров, похожих на класс меньшинства.
  3. Весовой коэффициент класса. Многие алгоритмы машинного обучения позволяют присваивать разным классам разные веса. Присвоив классу меньшинства более высокие веса, мы можем заставить модель уделять ему больше внимания во время обучения.
  4. Ансамблевые методы. Ансамблевые методы объединяют несколько моделей для прогнозирования. Обучая каждую модель на разных подмножествах несбалансированного набора данных, ансамблевые методы могут улучшить общую производительность. Для создания ансамблей можно использовать такие методы, как сборка, усиление и укладка.
  5. Обнаружение аномалий. Если класс меньшинства представляет аномалии или редкие события, можно применить методы обнаружения аномалий. Эти методы направлены на выявление случаев, которые значительно отклоняются от класса большинства, и рассматривают их как класс меньшинства.

Заключение

Обработка несбалансированных наборов данных имеет решающее значение для построения эффективных моделей машинного обучения. Понимая проблему, выбирая подходящие метрики оценки и применяя подходящие методы, такие как повторная выборка, SMOTE, взвешивание классов, ансамблевые методы или обнаружение аномалий, мы можем улучшить производительность моделей на несбалансированных наборах данных. Помните, что не существует универсального решения, и выбор метода зависит от конкретной проблемы и имеющегося набора данных.

Следуйте за мной в LinkedIn:

https://www.linkedin.com/in/subashpalvel/

Следуйте за мной на Medium:

https://subashpalvel.medium.com/