Исследование федеративного обучения

Техника децентрализованного распределенного машинного обучения без обмена необработанными данными

Что такое федеративное обучение?

Федеративное обучение, также известное как совместное обучение или децентрализованное обучение, метод машинного обучения, при котором модель обучается путем децентрализации данных обучения.

Как это круто?

Так зачем нам федеративное обучение?

Прежде чем мы начнем, давайте быстро рассмотрим, как модель обучается в обычном машинном обучении (ML). В обычных настройках машинного обучения первый шаг перед обучением модели включает загрузку или сохранение данных, которые вы хотели бы использовать в вашем локальном репозитории, и применение некоторых алгоритмов машинного обучения к данным для прогнозирования результатов. Ключевым моментом, который следует здесь отметить, является то, что вы централизованно собираете или храните данные в одном месте и, таким образом, централизованно обучаете модель. Но в будущем этот процесс может не сработать из-за проблем, связанных с конфиденциальностью данных. Данные, независимо от того, из какого домена они поступают, часто являются конфиденциальными или конфиденциальными. Для любой организации может быть невозможно поделиться данными из-за проблем, связанных с конфиденциальностью. Из-за конкуренции в отрасли, безопасности конфиденциальности и сложных административных процедур даже интеграция данных между различными отделами одной компании сталкивается с серьезным сопротивлением.

Давайте теперь рассмотрим пример из области здравоохранения. Медицинские данные очень конфиденциальны. Из-за нормативных требований, таких как Закон о переносимости и бухгалтерском учете медицинского страхования (HIPAA) в Соединенных Штатах или Общие положения о защите данных и регулировании (GDPR), данные не могут быть переданы или доступны общественности.

При этом необходимо реформировать традиционную технику машинного обучения, чтобы решить эти растущие нормативные проблемы.

Итак, как вы начнете процесс обучения, если у вас нет доступа к каким-либо данным? Как можно обучить модель, если вы не можете собирать и хранить данные в локальном репозитории?

У каждой проблемы есть три решения: принять, изменить или оставить. Если вы не можете принять это, измените это. Если вы не можете это изменить, оставьте это

Компания Google впервые представила федеративное обучение в 2016 году. Подробнее о федеративном обучении вы можете прочитать в этой статье. Они используют федеративное обучение на пограничных устройствах (мобильных устройствах) для прогнозирования следующего ключевого слова в Google Gboard.

Давайте вкратце разберемся с федеративным обучением.

Основная концепция федеративного обучения заключается в том, что вместо сбора или хранения данных в одном месте для обучения модели мы отправляем модель на обучающие устройства.

Модель, которая уже обучена с использованием централизованной настройки машинного обучения, отправляется на все устройства, участвующие в процессе федеративного обучения. Каждое устройство имеет свои собственные локальные личные данные. Каждое устройство обучается с использованием собственных данных устройства, которые производят определенные локальные обновления. Эти обновления отправляются на доверенный централизованный сервер, где сервер принимает средневзвешенное значение всех обновлений устройства. Это средневзвешенное значение становится базовой моделью для следующего раунда обучения. Это повторяется k раз, пока модель не сойдется. Таким образом, модель обучается путем децентрализации обучающих данных.

Но в федеративном обучении есть много практических проблем или ограничений. Ниже приведены некоторые из них:

1. Системные требования к каждому устройству, например объем памяти, различаются.

2. Существует много накладных расходов на связь, поскольку каждое устройство должно отправлять обновления модели на сервер.

3. Каждое обновление устройства можно отменить, чтобы вернуть необработанные данные.

4. Данные локального устройства могут быть разнородными и не-IID. То есть данные устройства могут быть несбалансированными, и количество выборок для каждого устройства может быть разным.

Мы поговорим больше о федеративном обучении в моей следующей статье, касающейся типов федеративного обучения, его реализации с использованием Pytorch и различных топологий моделей, которые могут быть приняты в федеративном обучении. Это всего лишь введение в федеративное обучение.

Следите за обновлениями, ребята. Увидимся в моей следующей статье.

Обо мне

Я Манджари Ганапати, студентка магистра компьютерных наук Университета Невады в Лас-Вегасе. В настоящее время я работаю над магистерской диссертацией по федеративному обучению под руководством профессора Мингона Канга.

использованная литература

[1]. Брендан МакМахан и др., Коммуникационно-эффективное обучение глубоких сетей на основе децентрализованных данных (2017)

[2]. Питер Кайруз и др., Достижения и открытые проблемы в федеративном обучении (2019)

Новые материалы

Функция в Питоне

Функция — это блок кода, который запускается только при вызове. Функции описываются как подпрограммы внутри программы, задачей которых является выполнение определенного набора команд...

Все, что вам нужно знать о программировании на Java

Java — один из самых популярных языков программирования, используемый для широкого круга приложений, включая веб-разработку, разработку мобильных приложений и разработку игр. Это также мощный..

3. Запуск Airflow с помощью Docker

Мои личные заметки из книги «Конвейеры данных с Apache Airflow» Баса Харенслака и Джулиана де Руйтера — глава 2, часть 3 Эта серия постов предназначена для того, чтобы обобщить мои выводы из..

Как разработать мобильное приложение Fintech, совместимое с PCI?

Независимо от того, является ли ваше приложение полноценным финтех-приложением, таким как PayPal, или приложением для потоковой передачи мультимедиа, которое предлагает пользователям..

Студент-медсестра для технического брата

Мой переход в веб-разработку внешнего интерфейса - от html к Css, к Javascript и реакции Я начал программировать неделю назад, но, честно говоря, хотел бы начать раньше. Год назад я..

Вопрос 1 на собеседовании по программированию

Вопрос: В социальной сети все получатели сообщений идентифицируются по знаку «@», перед именем пользователя. Получатели могут встречаться в любом месте сообщения. Имена пользователей могут..

Поиск иголки в стоге сена: как использовать ретривер Dense Passage

"Обработка естественного языка" В поисках иголки в стоге сена: как дрессировать ретривера с плотным ходом Давайте посмотрим, как мы можем обучить модель выполнять поиск плотных проходов с..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Development Data Java NLP Typescript Learning Front End Development Tutorial Productivity Angular Algorithms CSS Tech ChatGPT Programming Languages Javascript Development Computer Science Python Programming Neural Networks Developer Self Improvement ES6 Data Analysis HTML Javascript Tips