Введение

Некоторые из интервью по науке о данных довольно сложные, а некоторые очень простые. Пытаясь устроиться на работу в области науки о данных более свежего или начального уровня, вы обязаны подготовиться и иметь хотя бы базовые знания, связанные почти со всеми темами науки о данных. Для работы в области науки о данных более свежего уровня не требуется глубоких знаний по конкретной теме, просто у вас должно быть базовое представление об основной интуиции и базовое представление почти обо всех темах.

Из-за тысяч вопросов и материалов, доступных в Интернете, трудно начать подготовку к собеседованию. Но для работы в области науки о данных начального уровня рекрутеры очень часто задают некоторые вопросы на собеседовании. Вот список некоторых часто задаваемых вопросов на собеседовании при приеме на работу в науке о данных начального уровня.

Вопросы для интервью

1. Что такое машинное обучение и какие существуют типы машинного обучения?

Машинное обучение определяется как набор инструкций или исследование, которое компьютер или машина выполняет с помощью определенных алгоритмов и статистических моделей.

Всего существует 4 типа машинного обучения.

  • Контролируемое машинное обучение
  • Неконтролируемое машинное обучение
  • Полууправляемое машинное обучение
  • Машинное обучение с подкреплением

Контролируемое машинное обучение — это тип машинного обучения, при котором у нас есть как ввод, так и вывод в наборе данных. В контролируемом машинном обучении выходные данные, которые мы используем для обучения модели, помечены. Мы можем определить контролируемое машинное обучение в основном в двух частях: классификация и регрессия. Классификация — это задача, в которой наша цель — классифицировать выходные данные по нескольким категориям. Регрессия — это проблема, когда у нас есть четкий числовой вывод.

Неконтролируемое машинное обучение — это тип машинного обучения, при котором нет ключа ответа. Машина изучает входные данные и нет размеченных выходных данных. Неконтролируемое машинное обучение можно разделить на 2 типа: кластеризация и ассоциация.

Полууправляемое машинное обучение — это тип машинного обучения, который можно разделить на контролируемое и неконтролируемое машинное обучение. как следует из названия, в машинном обучении с полуучителем часть выходных данных может быть помечена или нет.

Машинное обучение с подкреплением отличается от всех остальных трех типов. В этом типе машинного обучения модель будет учиться на действиях. есть действия модели и вознаграждения, связанные с действиями модели. если модель делает хорошее действие в соответствии с постановкой задачи, то модель будет вознаграждена. Именно так модель будет учиться, испытывая разные вещи в окружающей среде.

2. Что такое избыточное и недостаточное соответствие в машинном обучении?

Чрезмерная подгонка в машинном обучении — это тип проблемы, в которой обучаемая модель пытается следовать всем тенденциям обучающих данных. В этом случае модель пытается имитировать поведение обучающих данных. Из-за этого точность обучающих данных модели будет очень высокой, а точность неизвестных или тестовых данных будет низкой.

Недостаточная подгонка — это случай, противоположный переподгонке. Здесь модель машинного обучения не будет учиться на данных обучения и тестирования. из-за этого точность обучения и тестирования обоих наборов данных будет здесь очень низкой.

Можно узнать, является ли модель избыточной или недостаточной, на основе условий ошибки при обучении и тестировании наборов данных модели.

3. Каков компромисс между смещением и дисперсией в машинном обучении?

Смещение — это термин в машинном обучении, который можно определить как разницу между фактическим значением и значением, предсказанным моделью после ее обучения на обучающем наборе данных. Более высокое значение смещения означает более высокую разницу между фактическим и прогнозируемым значением в модели. Следовательно, смещение представляет собой случай недостаточной подгонки.

Дисперсия — это термин в машинном обучении, который можно определить как разницу в прогнозах моделей на разных данных. Более высокая дисперсия означает, что чем выше различаются прогнозы. Следовательно, дисперсия представляет собой случай переобучения.

Модель с низким смещением и низкой дисперсией известна как идеальная модель. Достижение идеальной модели — очень сложный и беспокойный процесс, поскольку существует компромисс между смещением и дисперсией: если смещение увеличивается, то дисперсия уменьшается, и наоборот.

4. Что такое корреляция и ковариация в машинном обучении?

Корреляция в машинном обучении — это термин, определяющий, как две переменные коррелируют друг с другом. Значение корреляции варьируется от -1 до 1. Если значение корреляции между двумя переменными равно 1, это означает, что они более коррелированы, и наоборот.

Ковариация — это термин в машинном обучении, который представляет собой дисперсию между двумя переменными. Это количество, которое определяет, как изменяется одна переменная, что является изменяющимся значением других переменных. Значение ковариации изменяется от -∞ до +∞. Более высокое значение ковариации между двумя переменными означает, что на них сильно влияет дисперсия значения другой переменной.

5. Назовите любые 3 типа методов вычисления ошибок в задачах классификации и регрессии.

В классификации могут быть использованы следующие методы для расчета члена ошибки модели.

  1. Оценка точности
  2. Оценка точности
  3. Оценка отзыва
  4. Оценка F1
  5. Чувствительность
  6. Специфика
  7. Потеря шарнира

В задачах регрессии для расчета ошибки модели можно использовать следующие методы.

  1. Средняя абсолютная ошибка
  2. Среднеквадратическая ошибка
  3. Среднеквадратичная ошибка
  4. Оценка R2
  5. Скорректированная оценка R2
  6. Хубер Лосс

Заключение

В этой статье кратко обсуждаются 5 наиболее распространенных вопросов для интервью, которые могут помочь новичку получить представление о том, как и какие вопросы можно задавать и как на них отвечать. Это не только поможет понять поток, в котором должны быть даны ответы на конкретные вопросы, но также поможет начать подготовку к интервью на уровне новичка или стажировки.

Ключевые выводы из этой статьи:

1. Основные представления о машинном обучении и его видах должны быть известны кандидатам, стремящимся получить работу начального уровня в области науки о данных.

2. Основная интуиция о предвзятости, дисперсии, чрезмерной и недостаточной подгонке должна быть ясной для кандидата, появляющегося на собеседованиях более нового уровня.

3. Необходимо знать представления о некоторых статистических методах и терминах, таких как корреляция и ковариация.

4. Кандидат должен знать основные методы расчета ошибок, такие как MSE, MAE, R2 Score и т. д.