Как идея десятилетней давности позволяет сегодня обучать невероятно большие нейронные сети

Экспертные модели — одно из самых полезных изобретений в области машинного обучения, однако им едва ли уделяется столько внимания, сколько они заслуживают. Фактически, экспертное моделирование не только позволяет нам обучать «возмутительно большие» нейронные сети (подробнее об этом позже), но и создавать модели, которые обучаются больше, чем человеческий мозг, то есть разные регионы специализируются на разных задачах. типы ввода.

В этой статье мы рассмотрим ключевые инновации в экспертном моделировании, которые в конечном итоге привели к недавним прорывам, таким как переключающий трансформатор и алгоритм маршрутизации экспертного выбора. Но давайте сначала вернемся к статье, с которой все началось: «Смеси экспертов».

Смеси экспертов (1991)

Идея смешанных экспертов (MoE) возникла более трех десятилетий назад, в статье 1991 года, соавтором которой был не кто иной, как крестный отец искусственного интеллекта Джеффри Хинтон. Ключевая идея MoE состоит в том, чтобы смоделировать результат y путем объединения нескольких экспертов E, вес каждого из которых контролируется сетью вентилей G:

Экспертом в этом контексте может быть любая модель, но обычно в качестве эксперта выбирается многослойная нейронная сеть, а вентильная сеть

где W — обучаемая матрица, которая назначает экспертам обучающие примеры. Таким образом, при обучении моделей МО цель обучения двоякая:

  1. эксперты научатся преобразовывать полученный результат в наилучший возможный результат (т. е. в прогноз), и
  2. шлюзовая сеть научится «направлять» правильные обучающие примеры нужным экспертам, совместно изучая матрицу маршрутизации W.

Почему нужно это делать? И почему это работает? На высоком уровне есть три основные мотивации для использования такого подхода:

Во-первых, MoE позволяет масштабировать нейронные сети до очень больших размеров из-за разреженности получаемой модели, то есть, несмотря на то, что общая модель велика, лишь небольшая…