Две вещи, то есть использование class_weight=balanced
, и конкретная мера точности (сбалансированная или нет), которую вы выберете для оценки своих результатов, на самом деле не имеют отношения к ним.
Начиная с последнего: показатели производительности классификации, такие как точность (в любой версии), не никоим образом не участвуют в подборе модели — участвует только потеря; вы можете найти мой ответ в Потери и точность - это разумное обучение кривые? полезны для выяснения связи между этими двумя величинами (хотя обсуждение идет о Керасе, на самом деле это обоснование применимо в целом). Точная метрика производительности, которую следует выбрать, зависит от вашей реальной бизнес-проблемы и на самом деле не является частью проблемы моделирования. Причем, как уже было сказано, на обучение это никак не повлияет.
Использование class_weight
, с другой стороны, повлияет на то, как алгоритм взвешивает выборки, принадлежащие к разным классам, для вычисления потери во время обучения, вот и все; он не применим во время логического вывода (когда классы фактически неизвестны) и не имеет никакого отношения к тому, как (т. em> проблема, а не моделирование).
В общем, здесь в принципе допустимы все комбинации: с использованием class_weight='balanced'
(отдельно или, возможно, в сочетании с sample_weight
) или без использования любого из двух вариантов точности (простого или сбалансированного). Или, отвечая на поставленный в заголовке вопрос - можно, но не нужно.
Говоря о sample_weight
: если вы решите использовать его с fit()
метод логистической регрессии, и, кроме того, вы решили использовать сбалансированную точность (которая требует аргумент sample_weight
), было бы разумно использовать общие значения для обоих; но опять же, это именно так - разумный подход, а не правило или строгое требование, и вы можете не делать этого, если у вас есть на это причины.
Позвольте мне четко пояснить, что сказанное выше проистекает из очень фундаментальных принципов; таким образом, он общеприменим и не имеет ничего конкретно общего с каким-либо внутренним устройством scikit-learn.
24.03.2021