Введение
Некоторые из интервью по науке о данных довольно сложные, а некоторые очень простые. Пытаясь устроиться на работу в области науки о данных более свежего или начального уровня, вы обязаны подготовиться и иметь хотя бы базовые знания, связанные почти со всеми темами науки о данных. Для работы в области науки о данных более свежего уровня не требуется глубоких знаний по конкретной теме, просто у вас должно быть базовое представление об основной интуиции и базовое представление почти обо всех темах.
Из-за тысяч вопросов и материалов, доступных в Интернете, трудно начать подготовку к собеседованию. Но для работы в области науки о данных начального уровня рекрутеры очень часто задают некоторые вопросы на собеседовании. Вот список некоторых часто задаваемых вопросов на собеседовании при приеме на работу в науке о данных начального уровня.
Вопросы для интервью
1. Что такое машинное обучение и какие существуют типы машинного обучения?
Машинное обучение определяется как набор инструкций или исследование, которое компьютер или машина выполняет с помощью определенных алгоритмов и статистических моделей.
Всего существует 4 типа машинного обучения.
- Контролируемое машинное обучение
- Неконтролируемое машинное обучение
- Полууправляемое машинное обучение
- Машинное обучение с подкреплением
Контролируемое машинное обучение — это тип машинного обучения, при котором у нас есть как ввод, так и вывод в наборе данных. В контролируемом машинном обучении выходные данные, которые мы используем для обучения модели, помечены. Мы можем определить контролируемое машинное обучение в основном в двух частях: классификация и регрессия. Классификация — это задача, в которой наша цель — классифицировать выходные данные по нескольким категориям. Регрессия — это проблема, когда у нас есть четкий числовой вывод.
Неконтролируемое машинное обучение — это тип машинного обучения, при котором нет ключа ответа. Машина изучает входные данные и нет размеченных выходных данных. Неконтролируемое машинное обучение можно разделить на 2 типа: кластеризация и ассоциация.
Полууправляемое машинное обучение — это тип машинного обучения, который можно разделить на контролируемое и неконтролируемое машинное обучение. как следует из названия, в машинном обучении с полуучителем часть выходных данных может быть помечена или нет.
Машинное обучение с подкреплением отличается от всех остальных трех типов. В этом типе машинного обучения модель будет учиться на действиях. есть действия модели и вознаграждения, связанные с действиями модели. если модель делает хорошее действие в соответствии с постановкой задачи, то модель будет вознаграждена. Именно так модель будет учиться, испытывая разные вещи в окружающей среде.
2. Что такое избыточное и недостаточное соответствие в машинном обучении?
Чрезмерная подгонка в машинном обучении — это тип проблемы, в которой обучаемая модель пытается следовать всем тенденциям обучающих данных. В этом случае модель пытается имитировать поведение обучающих данных. Из-за этого точность обучающих данных модели будет очень высокой, а точность неизвестных или тестовых данных будет низкой.
Недостаточная подгонка — это случай, противоположный переподгонке. Здесь модель машинного обучения не будет учиться на данных обучения и тестирования. из-за этого точность обучения и тестирования обоих наборов данных будет здесь очень низкой.
Можно узнать, является ли модель избыточной или недостаточной, на основе условий ошибки при обучении и тестировании наборов данных модели.
3. Каков компромисс между смещением и дисперсией в машинном обучении?
Смещение — это термин в машинном обучении, который можно определить как разницу между фактическим значением и значением, предсказанным моделью после ее обучения на обучающем наборе данных. Более высокое значение смещения означает более высокую разницу между фактическим и прогнозируемым значением в модели. Следовательно, смещение представляет собой случай недостаточной подгонки.
Дисперсия — это термин в машинном обучении, который можно определить как разницу в прогнозах моделей на разных данных. Более высокая дисперсия означает, что чем выше различаются прогнозы. Следовательно, дисперсия представляет собой случай переобучения.
Модель с низким смещением и низкой дисперсией известна как идеальная модель. Достижение идеальной модели — очень сложный и беспокойный процесс, поскольку существует компромисс между смещением и дисперсией: если смещение увеличивается, то дисперсия уменьшается, и наоборот.
4. Что такое корреляция и ковариация в машинном обучении?
Корреляция в машинном обучении — это термин, определяющий, как две переменные коррелируют друг с другом. Значение корреляции варьируется от -1 до 1. Если значение корреляции между двумя переменными равно 1, это означает, что они более коррелированы, и наоборот.
Ковариация — это термин в машинном обучении, который представляет собой дисперсию между двумя переменными. Это количество, которое определяет, как изменяется одна переменная, что является изменяющимся значением других переменных. Значение ковариации изменяется от -∞ до +∞. Более высокое значение ковариации между двумя переменными означает, что на них сильно влияет дисперсия значения другой переменной.
5. Назовите любые 3 типа методов вычисления ошибок в задачах классификации и регрессии.
В классификации могут быть использованы следующие методы для расчета члена ошибки модели.
- Оценка точности
- Оценка точности
- Оценка отзыва
- Оценка F1
- Чувствительность
- Специфика
- Потеря шарнира
В задачах регрессии для расчета ошибки модели можно использовать следующие методы.
- Средняя абсолютная ошибка
- Среднеквадратическая ошибка
- Среднеквадратичная ошибка
- Оценка R2
- Скорректированная оценка R2
- Хубер Лосс
Заключение
В этой статье кратко обсуждаются 5 наиболее распространенных вопросов для интервью, которые могут помочь новичку получить представление о том, как и какие вопросы можно задавать и как на них отвечать. Это не только поможет понять поток, в котором должны быть даны ответы на конкретные вопросы, но также поможет начать подготовку к интервью на уровне новичка или стажировки.
Ключевые выводы из этой статьи:
1. Основные представления о машинном обучении и его видах должны быть известны кандидатам, стремящимся получить работу начального уровня в области науки о данных.
2. Основная интуиция о предвзятости, дисперсии, чрезмерной и недостаточной подгонке должна быть ясной для кандидата, появляющегося на собеседованиях более нового уровня.
3. Необходимо знать представления о некоторых статистических методах и терминах, таких как корреляция и ковариация.
4. Кандидат должен знать основные методы расчета ошибок, такие как MSE, MAE, R2 Score и т. д.