Машинное обучение с использованием экспертных моделей: учебник для начинающих

Как идея десятилетней давности позволяет сегодня обучать невероятно большие нейронные сети

Экспертные модели — одно из самых полезных изобретений в области машинного обучения, однако им едва ли уделяется столько внимания, сколько они заслуживают. Фактически, экспертное моделирование не только позволяет нам обучать «возмутительно большие» нейронные сети (подробнее об этом позже), но и создавать модели, которые обучаются больше, чем человеческий мозг, то есть разные регионы специализируются на разных задачах. типы ввода.

В этой статье мы рассмотрим ключевые инновации в экспертном моделировании, которые в конечном итоге привели к недавним прорывам, таким как переключающий трансформатор и алгоритм маршрутизации экспертного выбора. Но давайте сначала вернемся к статье, с которой все началось: «Смеси экспертов».

Смеси экспертов (1991)

Идея смешанных экспертов (MoE) возникла более трех десятилетий назад, в статье 1991 года, соавтором которой был не кто иной, как крестный отец искусственного интеллекта Джеффри Хинтон. Ключевая идея MoE состоит в том, чтобы смоделировать результат y путем объединения нескольких экспертов E, вес каждого из которых контролируется сетью вентилей G:

Экспертом в этом контексте может быть любая модель, но обычно в качестве эксперта выбирается многослойная нейронная сеть, а вентильная сеть

где W — обучаемая матрица, которая назначает экспертам обучающие примеры. Таким образом, при обучении моделей МО цель обучения двоякая:

эксперты научатся преобразовывать полученный результат в наилучший возможный результат (т. е. в прогноз), и
шлюзовая сеть научится «направлять» правильные обучающие примеры нужным экспертам, совместно изучая матрицу маршрутизации W.

Почему нужно это делать? И почему это работает? На высоком уровне есть три основные мотивации для использования такого подхода:

Во-первых, MoE позволяет масштабировать нейронные сети до очень больших размеров из-за разреженности получаемой модели, то есть, несмотря на то, что общая модель велика, лишь небольшая…

Новые материалы

Лассо-регрессия и настройка гиперпараметров с использованием sklearn

Введение Модели глубокого обучения требуют, чтобы высокопроизводительные графические процессоры обучались за разумное время с большими данными, как с финансовой, так и с вычислительной точки..

Изучайте Python на примере: код для базового калькулятора

Это полный код базового калькулятора на Python. Python — это широко используемый язык программирования, который можно использовать для решения самых разных задач, в том числе для программирования..

Путь к успешной карьере DevOps:

Программист, администратор или просто специалист по работе с людьми (часть 2) Теперь, когда мы уделили некоторое время тому, чтобы рассмотреть некоторые из основных направлений мысли,..

Увеличение данных

Увеличение данных — это метод, используемый для искусственного увеличения размера набора данных путем применения случайных модификаций к существующим данным. Это делается для увеличения..

Примечания магистра: машинное обучение

Что приходит на ум, когда вы слышите термин «машинное обучение»? Скорее всего, человекоподобный робот, способный к многозадачности, как это обычно изображают в кино и других средствах массовой..

Блок-схема компьютера

Компьютерная блок-схема : В основном компьютерная система состоит из трех частей: центрального процессора (ЦП), Устройств ввода и Устройств вывода . Центральный процессор (CPU) снова..

Совместное обсуждение двух или более скриптов Python: взгляд на асинхронный обмен сообщениями - ZMQ

Оглавление Что такое ZMQ? Установка ZMQ Использование основных методов для обмена данными: REP / REQ и PUSH / PULL Изучение Python - отличное начало для открытия чудесного мира..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Development Data Java Typescript NLP Computer Science Front End Development Learning Algorithms Productivity Tutorial ChatGPT Tech Angular Javascript Development Programming Languages CSS Neural Networks Python Programming Developer Science Cybersecurity React Native HTML Data Visualization