Техника децентрализованного распределенного машинного обучения без обмена необработанными данными

Что такое федеративное обучение?

Федеративное обучение, также известное как совместное обучение или децентрализованное обучение, метод машинного обучения, при котором модель обучается путем децентрализации данных обучения.

Как это круто?

Так зачем нам федеративное обучение?

Прежде чем мы начнем, давайте быстро рассмотрим, как модель обучается в обычном машинном обучении (ML). В обычных настройках машинного обучения первый шаг перед обучением модели включает загрузку или сохранение данных, которые вы хотели бы использовать в вашем локальном репозитории, и применение некоторых алгоритмов машинного обучения к данным для прогнозирования результатов. Ключевым моментом, который следует здесь отметить, является то, что вы централизованно собираете или храните данные в одном месте и, таким образом, централизованно обучаете модель. Но в будущем этот процесс может не сработать из-за проблем, связанных с конфиденциальностью данных. Данные, независимо от того, из какого домена они поступают, часто являются конфиденциальными или конфиденциальными. Для любой организации может быть невозможно поделиться данными из-за проблем, связанных с конфиденциальностью. Из-за конкуренции в отрасли, безопасности конфиденциальности и сложных административных процедур даже интеграция данных между различными отделами одной компании сталкивается с серьезным сопротивлением.

Давайте теперь рассмотрим пример из области здравоохранения. Медицинские данные очень конфиденциальны. Из-за нормативных требований, таких как Закон о переносимости и бухгалтерском учете медицинского страхования (HIPAA) в Соединенных Штатах или Общие положения о защите данных и регулировании (GDPR), данные не могут быть переданы или доступны общественности.

При этом необходимо реформировать традиционную технику машинного обучения, чтобы решить эти растущие нормативные проблемы.

Итак, как вы начнете процесс обучения, если у вас нет доступа к каким-либо данным? Как можно обучить модель, если вы не можете собирать и хранить данные в локальном репозитории?

У каждой проблемы есть три решения: принять, изменить или оставить. Если вы не можете принять это, измените это. Если вы не можете это изменить, оставьте это

Компания Google впервые представила федеративное обучение в 2016 году. Подробнее о федеративном обучении вы можете прочитать в этой статье. Они используют федеративное обучение на пограничных устройствах (мобильных устройствах) для прогнозирования следующего ключевого слова в Google Gboard.

Давайте вкратце разберемся с федеративным обучением.

Основная концепция федеративного обучения заключается в том, что вместо сбора или хранения данных в одном месте для обучения модели мы отправляем модель на обучающие устройства.

Модель, которая уже обучена с использованием централизованной настройки машинного обучения, отправляется на все устройства, участвующие в процессе федеративного обучения. Каждое устройство имеет свои собственные локальные личные данные. Каждое устройство обучается с использованием собственных данных устройства, которые производят определенные локальные обновления. Эти обновления отправляются на доверенный централизованный сервер, где сервер принимает средневзвешенное значение всех обновлений устройства. Это средневзвешенное значение становится базовой моделью для следующего раунда обучения. Это повторяется k раз, пока модель не сойдется. Таким образом, модель обучается путем децентрализации обучающих данных.

Но в федеративном обучении есть много практических проблем или ограничений. Ниже приведены некоторые из них:

1. Системные требования к каждому устройству, например объем памяти, различаются.

2. Существует много накладных расходов на связь, поскольку каждое устройство должно отправлять обновления модели на сервер.

3. Каждое обновление устройства можно отменить, чтобы вернуть необработанные данные.

4. Данные локального устройства могут быть разнородными и не-IID. То есть данные устройства могут быть несбалансированными, и количество выборок для каждого устройства может быть разным.

Мы поговорим больше о федеративном обучении в моей следующей статье, касающейся типов федеративного обучения, его реализации с использованием Pytorch и различных топологий моделей, которые могут быть приняты в федеративном обучении. Это всего лишь введение в федеративное обучение.

Следите за обновлениями, ребята. Увидимся в моей следующей статье.

Обо мне

Я Манджари Ганапати, студентка магистра компьютерных наук Университета Невады в Лас-Вегасе. В настоящее время я работаю над магистерской диссертацией по федеративному обучению под руководством профессора Мингона Канга.

использованная литература

[1]. Брендан МакМахан и др., Коммуникационно-эффективное обучение глубоких сетей на основе децентрализованных данных (2017)

[2]. Питер Кайруз и др., Достижения и открытые проблемы в федеративном обучении (2019)