Рассвет или закат ?: как контекст будет направлять разработку ИИ для компьютерного зрения в медицинской визуализации

Посмотрите на картинку выше. Знаете ли вы, является ли это изображением рассвета над Атлантикой или сумерек над Тихим океаном? Вы действительно не знаете. У вас нет направления, нет местоположения, вы не знаете своего окружения, вам не дует соленый ветерок; в конечном счете, у вас нет контекста. Все, что у вас есть, это картинка. Если картинка — это просто данные, вы на самом деле не знаете, откуда она взялась, какова ее важность, как она используется или какова ее история. У вас просто есть это.

Это похоже на текущее состояние ИИ в здравоохранении. Вокруг многообещающего и революционного потенциала ИИ много шумихи. Он вылечит рак, спасет жизни и сделает нас бессмертными… все банальности, которые использовались снова и снова. При сравнении точности программного обеспечения с площадями под кривыми (AUC) при анализе кривой оператора приемника (ROC) основное внимание по-прежнему уделяется алгоритму. Как бы это ни было важно, я утверждаю, что богатство данных, загружаемых в эти алгоритмы, не менее, если не более важно… необходимо подчеркнуть их достоверность.

Стартапы в области искусственного интеллекта в сфере здравоохранения, академические лаборатории, государственные регулирующие органы и медицинские организации борются с этим осознанием. Однако не хватает формального руководства о том, как обеспечить целостность данных, которые используются для обучения многих алгоритмов ИИ (машинного обучения). Это связано с тем, что основное внимание уделяется моделям с учителем, для которых требуются эталонные наборы золотых стандартов. Как скажет вам любой врач, «золотой стандарт» — несколько расплывчатый термин. Когда я это слышу, я просто думаю: «Это лучшее, что у нас есть на данный момент».

Компьютерное зрение медицинских изображений — отличный пример этой проблемы. Появляется все больше рецензируемых статей, в которых описывается эффективность различных алгоритмов машинного обучения (в основном, глубокого обучения) для обнаружения различных состояний, таких как аномальные лимфатические узлы у пациентов с раком молочной железы и диабетическая ретинопатия. (болезнь глаз)». В этих исследованиях врачи (многие врачи) использовались в качестве золотого стандарта для обучения своих алгоритмов. Однако врачи могут различаться в своей работе и интерпретации медицинских изображений, и это может быть отражено в аннотации наборов данных, доступных для общественности.

Возьмем, к примеру, Набор данных ChestXRay14, опубликованный Национальным институтом здравоохранения. Этот большой аннотированный набор данных рентгенограмм грудной клетки (рентгенограммы) изначально использовался для разработки модели нейронной сети, которая могла бы обнаруживать пневмонию на изображениях так же хорошо, как и обученные рентгенологи. После углубленного анализа данных, установленных австралийским рентгенологом Люком Окден-Райнером, MBBS, набор данных ChestXRay14 оказался в лучшем случае посредственного качества и содержал много ошибок в аннотациях. Это привело к многочисленным дискуссиям об общей проблеме достоверности данных и необходимости улучшения стандартов и практики. Как вы можете себе представить, такая проверка наборов данных — очень трудоемкий и трудоемкий процесс, и у нас в мире недостаточно докторов Окден-Рейнерс, чтобы делать это до тошноты!

Почему это важно? Ну, как говорится в старой поговорке, «мусор на входе, мусор на выходе». Если ваши данные имеют низкое или среднее качество, это то, что вы получаете. Не хочу упрощать программирование алгоритмов, но это более простая цель, чем получение чистых медицинских данных. Вот почему разработчики ДОЛЖНЫ работать с практикующими врачами, чтобы убедиться, что данные, которые они используют, имеют достаточное качество, чтобы сделать результаты алгоритма действительно значимыми. Более того, имея данные медицинской визуализации, обученный врач ДОЛЖЕН просмотреть изображения и сделать вывод, а не просто полагаться на то, что якобы аннотировали другие.

Итак, как мы можем сделать это в масштабе? Нам нужны облачные конвейеры для аннотирования медицинских изображений в изолированной среде. Данные остаются в облаке, не загружаются на разрозненные серверы, снижается вероятность утечки данных (и кражи данных пациентов) и многоцентровая экспертиза. Это не тривиальная вещь. Для компаний (стартапов и признанных гигантов, таких как Google) и научно-исследовательских институтов должно быть лучше сотрудничество и упор на такую ​​инфраструктуру, которая будет стоить несколько долларов. Первоначально должен быть лидер по убыткам, но эта организация/компания получит больше преимуществ в дальнейшем благодаря большему волновому эффекту.

Итак, прежде чем отправиться в это путешествие на минное поле, известное как искусственный интеллект медицинской визуализации, убедитесь, что вы знаете, с чем имеете дело. Если ваша цель действительно повысить ценность медицины и ухода за пациентами, тогда у вас должен быть контекст. Если вы разработчик, сотрудничайте с врачами; если вы врач, ищущий решения, поощряйте и уважайте специалистов по данным как равных и знайте, что вы (доктор) не так хороши в том, что они делают. Некоторое смирение намного лучше раскроет суть контекста.

Как сказал Льюис Кэрролл: Если вы не знаете, куда идете, любая дорога приведет вас туда. Но по некоторым дорогам не стоит идти.

(Кстати, на картинке выше изображен закат над Тихим океаном в Ла-Хойя, Калифорния. Красиво не бывает. За исключением запаха морских львов внизу!)

Подпишитесь на меня в Твиттере @FalgunChokshiMD.