(И как мы заняли первое место в Kaggle WiDS2020 Datathon)

Хотя официальные цифры растут, женщины по-прежнему составляют меньшинство мировых специалистов по обработке данных. Несмотря на многочисленные попытки академических кругов привлечь женщин и обеспечить гендерное равенство на своих курсах информатики, именно деятельность таких организаций, как WIDS, оказалась эффективной в пробуждении интереса и открытии дверей для женщин-ученых.

Раз в год несколько всемирных мероприятий и конкурсов помогают продвижению «Женщины в науке о данных» (WIDS). Одним из таких мероприятий является конкурс Kaggle под названием «WiDS Datathon 2020», ставший традицией для многих начинающих женщин-специалистов по данным.

Цель конкурса в этом году состояла в том, чтобы предсказать, выживет ли госпитализированный пациент в отделении интенсивной терапии (проблема бинарной классификации), учитывая, что записи его или ее суточной карты госпитализации и личные демографические данные доступны.

Претендентам был предоставлен набор данных о более чем 130 000 записей о посещениях больничных отделений интенсивной терапии (ICU) от пациентов. Охватывает однолетний период времени с различными географическими охватами от больниц в Аргентине, Австралии, Новой Зеландии, Шри-Ланки, Бразилии и более 200 больниц в США.

Естественно, этот тип модели прогнозирования (вероятность выживания пациента) может быть полезен при расстановке приоритетов и процессе принятия решения о том, насколько срочно лечить пациента в отделении интенсивной терапии. Это может помочь в борьбе с заболеваемостью в этих отделениях (хотя сегодня ситуация с коронавирусом, вероятно, влияет на точность модели, поскольку обученное статистическое распределение не включает пациентов, инфицированных коронавирусом!).

Это было заставляющее задуматься соревнование на основе табличного анализа! Девятьсот пятьдесят одна группа специалистов по данным со всего мира участвовала в одной сжатой и плотной гонке.

Типичная проблема классической табличной классификации в машинном обучении, нам приходилось использовать несколько приемов на каждой фазе конвейера. В то же время мы также внедрили современные методы ансамблирования и инновационные технологии увеличения времени тестирования (TTA) для табличных данных. Для более глубокого технического погружения в наше решение перейдите по этой ссылке здесь.

В этой статье я хотел бы поделиться некоторыми ключевыми факторами успеха, которые имеют большое значение для жизненного цикла разработки Data Science.

Фактор №1 - командная работа

Во-первых, кто в нашей команде?

В нашу команду входили несколько евангелистов Kaggle: в первую очередь, Сеффи Коэн, которая уже является мастером соревнований Kaggle, Дэн Офер, Ноа Даган (доктор медицины) и я (Нурит). Что сделало эту команду настолько уникальной, так это то, что все ее члены имеют обширный опыт в области практической науки о данных в сочетании с серьезным опытом в области здравоохранения.

Краткое описание нашего способа атаки окажется поучительным при решении аналогичных существующих проблем:

Наш план нападения был «разделяй и властвуй». Мы распределили рабочую нагрузку между членами команды, и каждый из нас сконцентрировался на своей конкретной задаче. Так получилось, что каждая часть сама по себе хорошо показала себя в таблице лидеров (как оценка перекрестной проверки, так и таблица лидеров).

Однако, в конце концов, мы объединили разные заявки в один центральный конвейер. Мы собрали модели в финальную версию, что дало нам самый выдающийся результат.

Крайне важно разделить рабочую нагрузку с минимальным дублированием и заранее спланировать интеграцию каждого результата.

Фактор 2 - экспертиза в предметной области

К счастью, у нас на борту был врач! Член нашей команды, Ноа.

Мы приложили значительные усилия к первому этапу конвейера, широко известному как исследовательский анализ данных (EDA).

Мы исследовали каждую из 183 независимых функций (ковариант) и их корреляцию с двоичной целевой переменной «hospital_death». Это дало нам преимущество перед другими командами, потому что мы обнаружили настоящее сокровище под функциями. В нашем поиске высокопроизводительной модели не осталось камня на камне.

Имея эти знания предметной области под рукой, мы спланировали следующие части конвейера машинного обучения; мы грамотно подсчитали недостающие значения и извлекли новые функции. Все это значительно улучшило наш рейтинг в таблице лидеров!

Например, мы создали золотую функцию под названием « most_dead », которая сгруппировала данные о различных биологических функциях или показателях, несовместимых с жизнью (и обеспечивала отличное разделение результатов).

Между почти мертвыми и всеми мертвыми большая разница; в основном мертвые - чуть живые. Со всеми мертвыми, ну, со всеми мертвыми обычно можно сделать только одно. (Источник: Принцесса-невеста)

Короче говоря, участие экспертов в предметной области жизненно важно для получения лучших результатов в процессе разработки науки о данных!

Фактор №3 - Надежная разработка функций

Согласно опросу Forbes, специалисты по данным тратят около 80% своего времени на подготовку данных для анализа и управление ими. 76% специалистов по данным считают подготовку данных наименее приятной частью своей работы .

Ну, это правда. Мы потратили много времени на создание того, что мы считали идеальной процедурой разработки функций, которую мы могли себе представить, учитывая временные рамки конкурса (6 недель).

Надежная разработка функций очень полезна.

Я могу подтвердить этот факт. Единственная модель заняла бы 14 место в этом же конкурсе!

Поэтому, если вы можете выделить достаточно времени, чтобы сделать все возможное на этом этапе, даже если иногда он может быть воспринят как наименее приятный, будьте уверены, что это будет очень полезно.

Фактор №4 - инструментов AutoML недостаточно, но ...

Мы пробовали различные инструменты автоматического машинного обучения (AutoML). Результатом стали посредственные оценки (на этапе перекрестной проверки и в таблице лидеров). Тем не менее, все инструменты достаточно хороши, если вы хотите использовать их только при попытке принять или отклонить гипотезу, прежде чем вы приступите к процессу разработки проекта, основанного на науке о данных. Думаю, для некоторых проектов результаты этих инструментов достаточно хороши.

Мы действительно использовали некоторые передовые методы для улучшения конвейера H2O с помощью кодирования. Это немного способствовало нашему успеху. Мы также использовали Sparkbeyond для извлечения функций методом «грубой силы».

Подводя итог, соревнования ведутся изо всех сил. Победитель оценивается с точностью до пятой цифры после числа с плавающей запятой, и достаточно хорошо - это не достаточно просто. Использование частей инструмента AutoML с привлечением специалистов по данным может помочь, а может и не помочь.

Фактор 5 - ансамбль всегда работает

Конечно, мы попробовали комбинацию сотен экземпляров модели в более чем 100 различных экспериментах. Кроме того, новая и нестандартная реализация увеличения времени тестирования (TTA) на табличных данных.

Этот известный и проверенный прием всегда работает на соревнованиях. Мы использовали различные наборы данных - методы вменения, функции и генерацию данных. Также этап выбора характеристик проводился 7 различными методами.

Итак, помимо упомянутой выше надежной разработки функций, которая могла бы поставить нас на 14-е место, был элегантный, новый ансамбль, который поставил нас на 1-е место ...

Выводы

Соревнования всегда подталкивают вас к совершенству, вы стараетесь изо всех сил, а затем каждый день вносите улучшения;)

Подводя итог этому захватывающему опыту, я думаю, что наш секретный соус состоял из множества разнообразных методов и товарищей по команде. Оба внесли значительный вклад в успешное решение проблемы науки о данных в этом соревновании.

Выбор правильной команды жизненно важен, потому что разные наборы навыков и опыта дают нам разные точки зрения и методологии. И, конечно же, точная командная работа, потому что наука о данных - это командный вид спорта!

Нурит Коэн Ингер

Днем - стратег по данным и ИИ, а по ночам - энтузиаст Кагглер.

Спасибо Шломо Кашани за его поучительные замечания