Оптимизация разделения обучения/валидации/тестирования в небольших данных (например, медицинских данных)

Введение

То, как вы создаете свои подмножества данных для своего проекта глубокого обучения, имеет важное значение и имеет большое значение для конечной производительности модели. Чтобы рассмотреть некоторые основы, Andrew Ng и Deeplizard подготовили отличные вводные обзоры:

Как описано в видеоролике Deeplizard выше, создание разделений данных обычно включает в себя случайное перемешивание данных и последующее их разделение на подмножества для обучения, проверки и тестирования. Во многих библиотеках это даже встроено (например, функция подгонки Keras). Когда размер вашей выборки исчисляется тысячами (или, если вам повезет, миллионами!), вы вряд ли случайно сгенерируете асимметричное распределение, но что, если у вас есть набор данных с 40 или 50 пациентами?

Небольшие проблемы с данными

Медицинские наборы данных часто имеют небольшой масштаб, поэтому при разработке сплитов требуется особое внимание. При наличии всего нескольких образцов случайное разделение может привести к проверочному набору, который сильно отличается от вашего тестового набора, и, что еще хуже, тестовому набору, который в конечном итоге отличается от данных, которые вы можете ожидать. найти в дикой природе. Кроме того, как предлагает Орельен Жерон, лучше всего оценивать производительность вашего подмножества тестов удержания после того, как вы обучили (и зафиксировали) свою оптимальную модель, чтобы избежать систематической ошибки — в его книге есть отличный обзор некоторые другие полезные соображения.

В конечном счете, это означает, что вы можете не осознавать, что у вас есть проблема с распределением данных по разбиениям, до поздней стадии экспериментального рабочего процесса.

Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow: концепции, инструменты и методы…
Доступно через Kindle. Описание. Благодаря серии недавних открытий глубокое обучение расширило всю область…read.amazon.com

Как решить эту проблему с малыми данными? …

Использование стратификации по нескольким меткам

Как описано выше, обычная практика работы с большими наборами данных заключается в разбиении ваших данных на подмножества после случайного перемешивания, однако это может привести к проблемам с небольшими выборками. Чтобы преодолеть это, мы можем заставить наши разделения равномерно перетасовывать функции, представляющие ключевой интерес при обучении/валидации/тестировании. Чтобы узнать, как это сделать, просмотрите блокнот, который я написал ниже. Записная книжка представляет собой простой сквозной пример и может быть легко адаптирована к более сложным наборам данных.

К концу этой записной книжки вы увидите, как избежать дисбаланса распределения при создании подмножеств с помощью библиотеки scikit-multilearn.

Вывод

Для небольших наборов данных стоит приложить усилия для оптимизации подмножеств обучения/проверки/тестирования таким образом, чтобы ключевые функции, представляющие интерес, были равномерно распределены. В созданной мной записной книжке я упоминаю объем опухоли в качестве теоретического примера, но его можно легко распространить и на другие характеристики, например возраст, пол и т. д. Вероятно, оптимально сосредоточиться на нескольких ключевых характеристиках, чтобы вы по-прежнему в значительной степени уважают процесс рандомизации.

Примечание автора

Этот пост является первым из более запланированных статей по глубокому обучению и медицинским исследованиям. Если у вас есть предложения, связанные с содержанием, поделитесь ими в комментариях ниже, и я сделаю все возможное, чтобы включить их в исправление или последующий пост. Наконец, если вам был полезен этот контент, поддержите статью, поделившись ею, похлопав в ладоши (несколько раз!) или оставив отзыв в комментариях ниже.

Спасибо за прочтение :) Подписывайтесь на меня на Medium или Twitter, чтобы быть в курсе.

Новые материалы

Декларативное и функциональное программирование в стиле LINQ с использованием JavaScript с использованием каррирования и генератора ...

LINQ - одна из лучших функций C #, которая обеспечивает элегантный способ написания кода декларативного и функционального стиля, который легко читать и понимать. Благодаря таким функциям ES6,..

Структуры данных в C ++ - Часть 1

Реализация общих структур данных в C ++ C ++ - это расширение языка программирования C, которое поддерживает создание классов, поэтому оно известно как C с классами . Он используется для..

Как я опубликовал свое первое приложение в App Store в 13 лет

Как все началось Все началось три года назад летом после моего четвертого класса в начальной школе. Для меня, четвертого класса, лето кажется бесконечным, пока оно не закончится, и мой отец..

Что в лицо

Очерк о возвращении физиогномики и о том, почему мы должны это приветствовать. История начинается со странной науки. Р. Тора Бьорнсдоттир, Николас О. Рул. Видимость социального класса по..

Почему шаблоны проектирования и почему нет?

Сложность — мать всех проблем в программировании. Программное обеспечение должно быть разработано с точки зрения того, кто его поддерживает, а не того, кто его пишет, потому что программное..

Создание дизайна обуви с помощью машинного обучения

Обувь. Что подождать? Я думал, что речь пойдет о машинном обучении! Ну это так. Если бы вы пошли на Amazon, сколько обуви вы бы нашли? Наверное, много, не так ли? Но много ли в них..

GraalVM в 2022 году: итоги года

2022 год был очень продуктивным для проекта и сообщества GraalVM. Вместе мы разработали множество новых функций, выпустили GraalVM для последних версий Java и новых платформ и увидели несколько..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning React AI Software Engineering Nodejs Development Data Typescript Java NLP Front End Development Computer Science Algorithms Learning Programming Languages ChatGPT Tech Tutorial Reactjs Angular React Native Productivity Cybersecurity Javascript Development Neural Networks Python Programming HTML Javascript Tips Learning To Code Developer