Часть 1: Введение

Машинное обучение - «Область исследования, которая дает компьютерам возможность учиться без явного программирования» - Артур Сэмюэл, 1959 г.

В медицинских журналах публикуются статьи, в которых используются алгоритмы искусственного интеллекта (ИИ) для диагностики и лечения заболеваний. Чтобы понять, просмотреть и критиковать эти статьи, врачам необходимо понимать основы искусственного интеллекта. Целью этой серии статей является объяснение и обучение врачей алгоритмам искусственного интеллекта. В части 1 мы рассмотрим машинное обучение, которое является подмножеством ИИ.

Люди учатся на собственном опыте. Традиционно компьютеры работают с использованием программ или наборов инструкций, написанных людьми. В машинном обучении компьютер учится на своем опыте работы с данными. В задаче контролируемого машинного обучения, такой как прогнозирование развития диабета у пациента, мы даем компьютеру набор входных данных (функций), которые сопоставляются с выходными данными (меткой). В этом сценарии характеристиками могут быть индекс массы тела, семейный анамнез диабета, уровень глюкозы в крови натощак и т. Д., Выход или цель - наличие или отсутствие диабета. После того, как эти данные вводятся в компьютер, он составляет карту модели (математической структуры) для прогнозирования этих выходных данных (меток) на основе имеющихся входных данных.

После того, как компьютер смоделировал взаимосвязь между входными и выходными данными, мы можем использовать эту модель для прогнозирования выходных данных, используя данные, которые компьютер не видит. Другими словами, если вы бросите кучу данных в алгоритм машинного обучения, он попытается определить математический паттерн. Если мы предоставим данные хорошего качества для обучения алгоритма, мы получим лучшие прогнозы. Прогнозы работают только в том случае, если ваши данные обучения репрезентативны для проблемы, которую вы пытаетесь решить. По сути, модели машинного обучения - это оптимизированная математическая функция для данной задачи.

Чтобы увидеть наглядное объяснение машинного обучения, нажмите здесь.

Чтобы посмотреть MIT OpenCourseWare по машинному обучению, щелкните здесь. Если вы просто хотите услышать объяснение машинного обучения, переходите к 8:58 и смотрите до 11 минут.

Алгоритмы машинного обучения

Алгоритмы машинного обучения в целом можно разделить на обучение с учителем, обучение без учителя и обучение с подкреплением.

Контролируемое обучение

Если у нас есть размеченные данные, можно использовать контролируемое обучение. Сначала мы используем данные, которые у нас есть с правильной меткой (значение, которое мы пытаемся предсказать), для обучения модели. Затем мы можем использовать эту обученную модель для прогнозирования меток для совершенно новых данных. Например, если у нас есть большой набор данных, содержащий возраст, пол пациента, ИМТ, уровень глюкозы натощак, липидную панель (характеристики) и то, являются ли они диабетом (метка), мы можем использовать это для создания модели. Позже мы сможем использовать эту модель для прогнозирования вероятности развития диабета у неизвестного пациента.

Обучение с учителем можно использовать для прогнозирования непрерывных значений, таких как необходимое количество инсулина на основе уровня глюкозы в крови. Его также можно использовать для присвоения ярлыков доброкачественным или злокачественным. Прогнозирование непрерывных значений называется регрессией, а метка прогнозирования - классификацией.

Давайте посмотрим на пример. Регрессия можно использовать для прогнозирования заработной платы врача. На следующем графике показана взаимосвязь между средним количеством пациентов, посещаемых в день, и средней годовой заработной платой врачей. Как видите, существует линейная зависимость между количеством посещаемых пациентов и заработной платой.

Математически линия регрессии / тренда на графике может быть представлена ​​как

y = mx + c

Где m - наклон линии, а c - точка пересечения (где прямая пересекает ось x). X - среднее количество пациентов, а y - прогнозируемая заработная плата. Чтобы узнать больше об уравнении прямой, нажмите здесь.

Проще говоря, если у нас есть много точек данных со средним числом пациентов и зарплатой врачей, модель линейной регрессии может вычислить значения для m и c. Если вы хотите узнать больше о модели линейной регрессии, нажмите здесь.

Другой клинический пример регрессии - прогнозирование потребности в инсулине для пациента с диабетом 1 типа. Традиционно, инсулин перед едой для пациента с диабетом 1 типа рассчитывается на основе его / ее углеводного соотношения (количество инсулина, необходимого для утилизации 1 единицы углеводов) и чувствительности к инсулину (снижение уровня глюкозы на 1 единицу инсулина короткого действия). Это можно записать по следующей формуле.

Количество инсулина =

[(общее количество углеводов для еды) / соотношение углеводов] + [(текущий уровень глюкозы в крови - целевой уровень глюкозы) / чувствительность к инсулину]

Если мы хотим создать компьютерную программу для вывода дозы инсулина, мы можем жестко запрограммировать ее в компьютерную программу. Но если у нас есть много данных о потребленных углеводах, уровне глюкозы перед едой и после еды и количестве принятого инсулина, мы можем создать модель машинного обучения, чтобы лучше определить взаимосвязь между этими переменными. В следующий раз, когда пациент захочет поесть, он сможет ввести данные в модель и получить рекомендацию о том, сколько инсулина нужно принимать. Мы можем улучшить эту модель, добавив другие переменные, такие как его уровень активности с фитнес-трекера и т. Д.

Алгоритмы классификации, такие как деревья решений, могут использоваться для предоставления меток для набора функций. Допустим, у вас есть база данных с цитологическими характеристиками узлов щитовидной железы с атипией неопределенной значимости (AUS) вместе с фактической хирургической патологией. Эту базу данных можно использовать для создания модели машинного обучения для прогнозирования злокачественных новообразований на основе особенностей цитологии узелков с AUS. В следующей статье мы создадим рабочую модель для прогнозирования злокачественности на основе цитологических особенностей биопсии груди.

Продолжение следует в Части 2.