Сокращение и слияние токенов для эффективных моделей VL: обзор

Часто в задачах, связанных с компьютерным зрением и НЛП, вычислительно затратная и требующая большого объема памяти обработка становится препятствием для более быстрого логического вывода модели, а также сокращения объема памяти.

В документе «PuMer: сокращение и слияние токенов для эффективных моделей визуального языка», опубликованном в ACL 2023, предлагается эффективный метод уменьшения временной и пространственной сложности кросс-модальных взаимодействий.

Основная методология документа включает обрезку (уменьшение) токенов во входных изображениях, не имеющих отношения к текстовому вводу, а также слияние похожих текстовых и визуальных токенов с использованием облегченных редукторов токенов, разбросанных по кросс-модальным слоям. В статье оценивается метод PuMer для двух моделей VL — METER и ViLT в четырех нижестоящих задачах: поиск изображения и текста, ответ на визуальный вопрос, визуальный вывод и естественный язык для визуального мышления.

Прежде чем перейти к деталям метода, краткое знакомство с ViLT и METER, а также с последующими задачами:

ViLT (Видеои-языкпреобразователя Т без контроля свертки или региона) — преобразователь использует 12-уровневая архитектура кодировщика для кросс-модального слияния конкатенированных вложений текста, закодированных с помощью BERT, и патчей проецируемого изображения линейного уровня.

METER(Mультимодальный Eсквозной TтрансформаторER) — Трансформатор использует кодер текста на основе RoBERTa, кодировщик изображений на основе CLIP и уровень перекрестного внимания, подобный 12 BERT, для объединения модальностей изображения и текста. Он имеет 330 миллионов параметров.

Проблема и предлагаемое решение

Модели Deep Vision-Language обычно неэффективны в вычислительном отношении из-за необходимости обработки целых входных изображений и текстовых токенов, которые часто включают в изображения нерелевантную информацию, не требуемую для вывода на конкретный ввод текста.

Предлагаемое решение вышеупомянутой проблемы включает в себя адаптацию одномодульного сокращения токена, а также слияние с многомодульной настройкой, предотвращая при этом огромные потери информации из-за сокращения, а также путаницы в модели из-за слияния без учета модальности.

Метод вводит —

Отсечение токенов изображений с текстом – удаляется токены изображений, которые не имеют отношения к вводу текста (например, токены изображений четырех футболистов для вопроса каким видом спорта они занимаются? ).
Слияние токенов с учетом модальности. Это объединяет семантически избыточные модальности токенов изображения и текста независимо друг от друга (например: объединение токенов для четырех футболистов для вопроса сколько людей играет?).

Используя описанные выше методы, легкие непараметрические преобразователи токенов размещаются вдоль слоев модели в порядке возрастания вниз, при этом более сильное сокращение токенов происходит в более глубоких слоях, чтобы предотвратить потерю информации.

Структура сокращения токенов

Учитывая n слоев в кросс-модальном кодировщике, редуктор маркеров удаляет k% маркеров в слое l, где l находится между (f, n). Здесь fобозначает произвольный слой, за которым размещается редьюсер токена, т. е. между (0,f) редюсеры токенов не размещаются. Основная причина этого заключается в том, что, несмотря на повышение эффективности обработки, есть также большая информация, а также потеря производительности.

Кроме того, на уровне l редуктор маркеров также объединяет маркеры r%изображения и текстовые маркеры t%.

Каждый Token Reducer состоит из двух последовательных, непараметрических модулей: Прорезатель с учетом текста и Слияние с учетом модальности. TIP сокращает маркеры изображения, которые не имеют контекстуального отношения к вводу текста, тогда как MAM сжимает семантически похожие маркеры в меньшее количество маркеров.

Алгоритм

Входные данные:вектор маркера изображения V, вектор маркера текста T,показатели перекрестного внимания при переходе от текста к изображению >Aвектор, коэффициент обрезки k, коэффициент слияния изображений r,коэффициент слияния текста t

Работает:

1) Использование показателей перекрестного внимания A:, рассчитанных на уровнях перекрестного внимания.

Оценка Text-Saliency, то есть корреляция между токенами изображения и текстовыми токенами, рассчитывается как:

2) После получения вектора S, содержащего все s(v), значения индексов первых k' элементов, где k' – это количество сохраняемых токенов изображения, которое регулируется коэффициентом сокращения k, рассчитываемым как k'=(1-k) |V|.— (СОВЕТ)

3) Формируется новый вектор токенов изображения V(p) = V[idx].

4) Маркеры текста T и маркеры изображения V(p) объединяются с использованием двустороннего мягкого сопоставления с последующей конкатенацией который определяется как — (MAM)

Показатель схожести S(p) вычисляется с помощью скалярного произведения ключевых значений (рассчитанных на уровнях самоконтроля). Предположим, что для двух токенов t1 и t2 значение S(p) = K(t1)*K(t2).

Используя все ребра из P(r), маркеры из O и E извлекаются и объединяются, вычисляя среднее значение двух — (O+E)/2, чтобы сформировать OE.

Наконец, неслитые маркеры O и E собираются вместе с OE для формирования новых объединенных текстовых маркеров T(m) и сокращенно-объединенные токены изображений V(m).

Обучение и выводы

Добавленных параметров нет благодаря фреймворку PuMer, поэтому настройка тонкой настройки аналогична тонкой настройке исходной модели VL. Дальнейшее снижение точности предотвращается за счет реализации потери при дистилляции знаний, которая сводит к минимуму расстояние между активациями функций модели учителя (исходной модели, отличной от PuMer) и студенческая модель (каркасная модель PuMer). Единственными настраиваемыми гиперпараметрами платформы являются коэффициент сокращения k и коэффициенты слияния r и t.

Экспериментальная установка и результаты

Фреймворк PuMer тестируется на ранее упомянутых моделях ViLT и METER через 4 задачи VL —

Поиск изображения и текста. Эта задача состоит из двух подзадач — извлечения изображения в текст и извлечения текста в изображение и протестирована на Flickr30k.
Визуальные ответы на вопросы. Это задание тестируется на наборе данных VQAv2 и состоит из вопросов об изображениях из набора данных MSCOCO, а также о реальных сценах. .
Visual Entailment (VE): это задача на визуальный вывод, т. е. предсказание того, влечет ли предпосылка изображения текстовый ввод, проверенный на наборе данных, созданном с использованием утверждений из Стэнфордского корпуса вывода на естественном языке. >и Flickr30k.
Визуальные рассуждения на естественном языке (NLVR): это задача, чтобы предсказать, верно ли данное предложение о двух входных изображениях. Корпуса NLVR2 содержат 100 тысяч лингвистически разнообразных английских предложений, написанных людьми и основанных на паре визуально сложных изображений.

Базовые модели включают:

DynamicViT: он состоит из модулей прогнозирования, параметризованных MLP для прогнозирования токенов изображения, достойных обрезки, в преобразователях зрения.
ToMe: он использует слияние токенов, чтобы уменьшить количество токенов в преобразователях.
Уменьшение разрешения. Еще одним базовым показателем является снижение разрешения входного изображения, что автоматически повышает эффективность вычислений.

Метрики измерения —

Показатели точности: точность VQA, т. е. проверка совпадения выходных данных модели с достоверным ответом для VQAv2. Для визуальных выводов и визуальных рассуждений на естественном языке это точность, а для задач поиска изображения и текста — Top1-recall.
Показатели эффективности. Увеличение пропускной способности и сокращение объема памяти — это два показателя эффективности, которые считаются более точными, чем стандартные FLOP (Flточка плавления Операций за ссекунду) измерения.

Результаты

Таблица 1 демонстрирует, что модели ViLT и METER, интегрированные с PuMer, работают лучше, чем традиционные METER и ViLT, с точки зрения пропускной способности и памяти, сохраняя при этом конкурентоспособную точность выполнения задач. Общее ускорение в 1,85 раза и сокращение на 46 % в использовании памяти при сохранении смещения точности в пределах 1 % маржа.

На приведенном выше рисунке показано сравнение PuMer с базовыми показателями DynamicViT и ToMe в задаче VQA для различных коэффициентов сокращения и слияния, чтобы увидеть компромиссы между пропускной способностью и точностью.

При том же значении пропускной способности (представленном на рисунке вертикальной пунктирной линией) PuMer демонстрирует более высокую точность в задаче VQA. Точно так же при том же значении падения точности (представленном на рисунке горизонтальной пунктирной линией) PuMer демонстрирует более высокий прирост производительности.

Таблица 2 демонстрирует значения точности, увеличения пропускной способности и сокращения памяти для PuMer по сравнению с исходной моделью METER с изображениями меньшего разрешения (менее 384x384), а также с моделью интегрированного METER PuMer меньшего разрешения (320x320).

При том же уменьшении разрешения (320 x 320), хотя PuMer имеет более низкую точность, увеличение пропускной способности почти в 1,76 раза (2,86/1,62) превышает увеличение пропускной способности исходной модели METER 320 x 320. Кроме того, сокращение памяти в модели PuMer 320x320 почти на 22% больше, чем в исходной модели 320x320.

Исследование абляции

Изучите TIP, MAM и KDL

Чтобы определить, как каждый компонент, т. е. усечение с учетом текста, слияние с учетом модальности и потеря дистилляции знаний, улучшает пропускную способность, потребление памяти и точность, эти три компонента были удалены для различных наблюдений. .

Без TIP, несмотря на меньшее падение точности, пропускная способность почти в 0,24x меньше.
Без MAM увеличение пропускной способности 0,3x меньше.
Без KDL хотя изменения пропускной способности практически нет, точность остается немного ниже, чем у PuMer-ViLT.

Таким образом, все три компонента помогают закрыть пробелы в точности и в то же время позволяют увеличить производительность.

Изучите варианты дизайна сокращения токенов

Выше приведены различные результаты задачи SNLI-VE, когда коэффициенты обрезки и слияния, количество слоев и местоположения обрезки и слияния варьируются. Окончательные варианты дизайна PuMer: уменьшение количества слоев 2, 4, 6 и 8 для равномерного распределения по модели, коэффициент обрезки k =0,1, коэффициент слияния изображений r = 0,3 и коэффициент слияния текста t = 0,2, что дает точность 75,6 (-0,4 меньше, чем у исходной модели) и почти удвоенную пропускную способность.

Заключение

Эффективное глубокое обучение становится критически важным в настоящее время, когда вычислительные ресурсы остаются ограниченными и позволяют широко использовать эти многомиллионные или даже многомиллиардные модели параметров. Хотя сокращение количества токенов в моделях видения этих мультимодальных преобразователей могло бы еще больше повысить эффективность, необходимо различать структуру с задачей преобразователя, поскольку модель видения не имеет доступа к вводу текста.

Все рисунки взяты из документа, за исключением рисунков ViLT и METER, которые взяты из соответствующих документов преобразователя — «ViLT: Преобразователь зрения и языка без свертки или контроля региона», «Эмпирическое исследование сквозного обучения зрению- и-языковые преобразователи».

Рукописные страницы — это моя черновая работа, направленная на лучшее понимание задействованных концепций.

Спасибо :)

Новые материалы

Почему шаблоны проектирования и почему нет?

Сложность — мать всех проблем в программировании. Программное обеспечение должно быть разработано с точки зрения того, кто его поддерживает, а не того, кто его пишет, потому что программное..

Создание дизайна обуви с помощью машинного обучения

Обувь. Что подождать? Я думал, что речь пойдет о машинном обучении! Ну это так. Если бы вы пошли на Amazon, сколько обуви вы бы нашли? Наверное, много, не так ли? Но много ли в них..

GraalVM в 2022 году: итоги года

2022 год был очень продуктивным для проекта и сообщества GraalVM. Вместе мы разработали множество новых функций, выпустили GraalVM для последних версий Java и новых платформ и увидели несколько..

Быстрая разработка: волшебный мир больших языковых моделей

РУКОВОДСТВО Быстрая разработка: волшебный мир больших языковых моделей Подход, основанный на данных, для получения наилучшего ответа Искусство и наука Можно ли совместить машинное..

Ускоренный курс по Node Redis

Сегодня мы будем учиться использовать Redis в Node.js, однако я не собираюсь вываливать сюда всю документацию и утомлять вас до смерти. Это руководство для начинающих? — спросите вы. Ну..

Обзор Python для науки о данных и машинного обучения

Python стал наиболее предпочтительным языком программирования среди разработчиков, которые в основном занимаются наукой о данных и машинным обучением. Интуитивно понятные и уникальные функции..

Принудительный сброс состояния компонента React с помощью ключевого свойства

Принудительный сброс состояния компонента React с помощью ключевого свойства Знаете ли вы, что вы можете использовать опору key для принудительного сброса состояния компонента? В..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Development Typescript Data Java NLP Front End Development Computer Science Algorithms Learning Programming Languages ChatGPT Tech Tutorial Reactjs Angular React Native Cybersecurity Productivity Neural Networks Python Programming Javascript Development Javascript Tips Learning To Code Developer HTML