Подгонка и преобразование в библиотеках SciKit для машинного обучения

Мы видели такие методы, как fit (), transform () и fit_transform () во многих библиотеках SciKit. И почти во всех руководствах, включая написанные мной, вам предлагается использовать только один из этих методов. Возникает очевидный вопрос: что означают эти методы? Что вы имеете в виду под чем-то приспособить и что-то преобразовать? В методе transform () есть смысл, он просто преобразует данные, но как насчет fit ()? В этом посте мы попытаемся понять разницу между ними.

Чтобы лучше понять значение этих методов, мы возьмем класс Imputer в качестве примера, потому что класс Imputer имеет эти методы. Но прежде чем мы начнем, имейте в виду, что установка чего-то вроде импутера отличается от установки всей модели.

Вы используете Imputer для обработки недостающих данных в вашем наборе данных. Imputer предоставляет простые методы для замены NaN и пробелов чем-то вроде среднего значения столбца или даже медианы. Но прежде чем он сможет заменить эти значения, он должен вычислить значение, которое будет использоваться для замены пробелов. Если вы сообщаете Imputer, что хотите, чтобы среднее значение всех значений в столбце использовалось для замены всех NaN в этом столбце, Imputer должен сначала вычислить среднее значение. Этот шаг вычисления этого значения называется методом fit ().

Затем метод transform () просто заменит NaN в столбце вновь вычисленным значением и вернет новый набор данных. Это довольно просто. Метод fit_transform () будет делать обе эти вещи внутри себя и упрощает нам задачу, просто предоставляя один единственный метод. Но есть случаи, когда вы хотите вызвать только метод fit () и только метод transform ().

При обучении модели вы будете использовать набор обучающих данных. В этом наборе данных вы воспользуетесь Imputer, вычислите значение и замените пробелы. Но когда вы помещаете эту обученную модель в тестовый набор данных, вы больше не рассчитываете среднее или медиану. Вы будете использовать то же значение, что и в наборе тренировочных данных. Для этого вы воспользуетесь методом fit () в своем наборе обучающих данных, чтобы только вычислить значение и сохранить его внутри Imputer. Затем вы вызовете метод transform () для тестового набора данных с тем же объектом Inputer. Таким образом, значение, вычисленное для обучающего набора, которое было сохранено внутри объекта, также будет использоваться в тестовом наборе данных.

Проще говоря, вы можете использовать метод fit_transform () в обучающем наборе, так как вам нужно будет как подогнать, так и преобразовать данные, и вы можете использовать метод fit () в обучающем наборе данных, чтобы получить значение, и позже преобразовать () тестовые данные с ним. Дайте мне знать, если у вас есть какие-либо комментарии или вы не можете их понять.

Следуйте за мной в Twitter, чтобы узнать больше о Data Science, Machine Learning и общих технических новинках. Также вы можете следить за моим личным блогом.

Новые материалы

Не удается прочитать свойства неопределенного: понимание и устранение ошибок JavaScript

Что вызывает ошибку? Ошибка «Не удается прочитать свойства неопределенного» возникает, когда вы пытаетесь получить доступ к свойству или вызвать метод для объекта, который имеет значение null или..

Асинхронная очередь задач с Celery

Подробное руководство о том, как работает очередь асинхронных задач Celery. Celery — очень популярная и мощная асинхронная очередь задач. Он поддерживает как операции в реальном времени, так..

Тестирование образа Docker с помощью тестов структуры контейнера

Контейнеры стали ведущей технологией для определения и последовательного запуска нашего программного обеспечения, помогая уменьшить ужасную проблему «но это работает в моей системе» при попытке..

Оценка машинного перевода с sacreBLEU и BERTScore

Два полезных пакета для оценки производительности моделей МП Прочитав эту статью, вы научитесь оценивать свои модели машинного перевода с помощью следующих пакетов: sacreBLEU BERTScore..

Атаки НЛП, часть 1 — «Почему не стоит доверять своим моделям классификации текста»

Эта серия сообщений в блоге посвящена обширной и важной области, объединяющей искусственный интеллект и лингвистику: Атаки НЛП . NLP расшифровывается как Обработка естественного языка ,..

Неправильное представление об «или», «||», «и» и «&&» в Ruby

Насколько нам известно, Ruby довольно удобен для разработчиков. Мы можем делать что угодно несколькими способами. Руби похожа на бабушку и дедушку, которая всегда счастлива и горда, что бы мы ни..

Как использовать аутентификацию субъекта-службы для доступа к OneLake Microsoft Fabric — Сэм Дебрюйн

Для работы этой функции необходимо включить 2 новых параметра на портале администрирования Fabric/Power BI. Оба можно найти в разделе Настройки арендатора . Первый называется Разрешить..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Development Data Java NLP Typescript Computer Science Front End Development Learning Algorithms Tutorial Productivity Tech Angular ChatGPT Programming Languages Javascript Development CSS Neural Networks Python Programming React Native Developer Cybersecurity HTML Data Visualization Science