Машинное обучение — горячая тема в исследованиях и промышленности, где постоянно разрабатываются новые методологии. Скорость и сложность этой области затрудняют работу с новыми методами даже для экспертов и потенциально непосильны для новичков.

Машинное обучение — это метод анализа данных, который учит компьютеры делать то, что естественно для людей и животных: учиться на собственном опыте. Алгоритмы машинного обучения используют вычислительные методы для «извлечения» информации непосредственно из данных, не полагаясь на заранее определенное уравнение в качестве модели.

В машинном обучении используются два типа методов: обучение с учителем, которое обучает модель на известных входных и выходных данных, чтобы она могла прогнозировать будущие результаты, и обучение без учителя, которое находит скрытые шаблоны или внутренние структуры во входных данных

https://ml-concepts.com/machine-learning-models/

Контролируемое обучение

Машинное обучение с учителем строит модель, которая делает прогнозы на основе данных в условиях неопределенности. Алгоритм контролируемого обучения берет известный набор входных данных и известные реакции на данные (выходные данные) и обучает модель генерировать разумные прогнозы для реакции на новые данные. Используйте обучение с учителем, если у вас есть известные данные для результата, который вы пытаетесь предсказать.

Методы классификации предсказывают дискретные ответы, например, является ли электронное письмо подлинным или спамом, является ли опухоль злокачественной или доброкачественной. Модели классификации классифицируют входные данные по категориям. Типичные приложения включают медицинские изображения, распознавание речи и кредитный скоринг.

Используйте классификацию, если ваши данные можно пометить, классифицировать или разделить на определенные группы или классы. Например, приложения для распознавания рукописного ввода используют классификацию для распознавания букв и цифр. В обработке изображений и компьютерном зрении методы неконтролируемого распознавания образов используются для обнаружения объектов и сегментации изображений.

Общие алгоритмы для выполнения классификации включают метод опорных векторов (SVM), деревья решений с усилением и пакетированием, k-ближайший сосед, наивный байесовский анализ, дискриминантный анализ, логистическую регрессию и нейронные сети.

Методы регрессии предсказывают непрерывные реакции, например изменения температуры или колебания энергопотребления. Типичные приложения включают прогнозирование нагрузки на электроэнергию и алгоритмическую торговлю.

Используйте методы регрессии, если вы работаете с диапазоном данных или если характер вашего отклика представляет собой действительное число, такое как температура или время до отказа части оборудования.

Общие алгоритмы регрессии включают линейную модель, нелинейную модель, регуляризацию, пошаговую регрессию, деревья решений с усилением и пакетированием, нейронные сети и адаптивное нейро-нечеткое обучение.

Неконтролируемое обучение

Неконтролируемое обучение находит в данных скрытые закономерности или внутренние структуры. Он используется для получения выводов из наборов данных, состоящих из входных данных без помеченных ответов.

Кластеризация — наиболее распространенный метод обучения без учителя. Он используется для исследовательского анализа данных, чтобы найти скрытые закономерности или группировки в данных. Приложения для кластерного анализа включают анализ последовательности генов, исследование рынка и распознавание объектов.

Например, если компания сотовой связи хочет оптимизировать места, где они строят вышки сотовой связи, она может использовать машинное обучение для оценки количества групп людей, полагающихся на их вышки. Телефон может одновременно разговаривать только с одной вышкой, поэтому команда использует алгоритмы кластеризации для разработки наилучшего размещения вышек сотовой связи, чтобы оптимизировать прием сигнала для групп или кластеров своих клиентов.

Общие алгоритмы для выполнения кластеризации включают k-средние и k-медоиды, иерархическую кластеризацию, смешанные модели Гаусса, скрытые марковские модели, самоорганизующиеся карты, нечеткую кластеризацию c-средних и вычитающую кластеризацию.