Часто в задачах, связанных с компьютерным зрением и НЛП, вычислительно затратная и требующая большого объема памяти обработка становится препятствием для более быстрого логического вывода модели, а также сокращения объема памяти.

В документе «PuMer: сокращение и слияние токенов для эффективных моделей визуального языка», опубликованном в ACL 2023, предлагается эффективный метод уменьшения временной и пространственной сложности кросс-модальных взаимодействий.

Основная методология документа включает обрезку (уменьшение) токенов во входных изображениях, не имеющих отношения к текстовому вводу, а также слияние похожих текстовых и визуальных токенов с использованием облегченных редукторов токенов, разбросанных по кросс-модальным слоям. В статье оценивается метод PuMer для двух моделей VL — METER и ViLT в четырех нижестоящих задачах: поиск изображения и текста, ответ на визуальный вопрос, визуальный вывод и естественный язык для визуального мышления.

Прежде чем перейти к деталям метода, краткое знакомство с ViLT и METER, а также с последующими задачами:

ViLT (Видеои-языкпреобразователя Т без контроля свертки или региона) — преобразователь использует 12-уровневая архитектура кодировщика для кросс-модального слияния конкатенированных вложений текста, закодированных с помощью BERT, и патчей проецируемого изображения линейного уровня.

METER(Mультимодальный Eсквозной TтрансформаторER) — Трансформатор использует кодер текста на основе RoBERTa, кодировщик изображений на основе CLIP и уровень перекрестного внимания, подобный 12 BERT, для объединения модальностей изображения и текста. Он имеет 330 миллионов параметров.

Проблема и предлагаемое решение

Модели Deep Vision-Language обычно неэффективны в вычислительном отношении из-за необходимости обработки целых входных изображений и текстовых токенов, которые часто включают в изображения нерелевантную информацию, не требуемую для вывода на конкретный ввод текста.

Предлагаемое решение вышеупомянутой проблемы включает в себя адаптацию одномодульного сокращения токена, а также слияние с многомодульной настройкой, предотвращая при этом огромные потери информации из-за сокращения, а также путаницы в модели из-за слияния без учета модальности.

Метод вводит —

  • Отсечение токенов изображений с текстом – удаляется токены изображений, которые не имеют отношения к вводу текста (например, токены изображений четырех футболистов для вопроса каким видом спорта они занимаются? ).
  • Слияние токенов с учетом модальности. Это объединяет семантически избыточные модальности токенов изображения и текста независимо друг от друга (например: объединение токенов для четырех футболистов для вопроса сколько людей играет?).

Используя описанные выше методы, легкие непараметрические преобразователи токенов размещаются вдоль слоев модели в порядке возрастания вниз, при этом более сильное сокращение токенов происходит в более глубоких слоях, чтобы предотвратить потерю информации.

Похожие работы

Работает над сокращением токенов: DynamicViT и A-ViT участвуют в одномодульном сокращении, сосредотачиваясь на токенах входного изображения, удаляя содержимое изображения, которое считается неинформативным, и сохраняя только важные функции. .

Основным ограничением в таком случае является отсутствие контекстуализации с вводом текста, что препятствует его расширению в область Vision-Language.

С точки зрения языка, PoWER-BERT уменьшает входные текстовые маркеры, обеспечивая более быстрые вычисления, что, однако, не является основным препятствием в задачах V-L.

Работает слияние токенов: модели SPViT и EViT работают над выбором неинформативных токенов и их объединением в один. GroupViT объединяет семантически схожие токены изображений вместе посредством перекрестного внимания.

ToMe, TokenLearner и TokenPooling объединяют токены посредством сокращения и достигают более высокой пропускной способности по сравнению с компромиссами между точностью.

Структура сокращения токенов

Учитывая n слоев в кросс-модальном кодировщике, редуктор маркеров удаляет k% маркеров в слое l, где l находится между (f, n). Здесь fобозначает произвольный слой, за которым размещается редьюсер токена, т. е. между (0,f) редюсеры токенов не размещаются. Основная причина этого заключается в том, что, несмотря на повышение эффективности обработки, есть также большая информация, а также потеря производительности.

Кроме того, на уровне l редуктор маркеров также объединяет маркеры r%изображения и текстовые маркеры t%.

Каждый Token Reducer состоит из двух последовательных, непараметрических модулей: Прорезатель с учетом текста и Слияние с учетом модальности. TIP сокращает маркеры изображения, которые не имеют контекстуального отношения к вводу текста, тогда как MAM сжимает семантически похожие маркеры в меньшее количество маркеров.

Алгоритм

Входные данные:вектор маркера изображения V, вектор маркера текста T,показатели перекрестного внимания при переходе от текста к изображению >Aвектор, коэффициент обрезки k, коэффициент слияния изображений r,коэффициент слияния текста t

Работает:

1) Использование показателей перекрестного внимания A:, рассчитанных на уровнях перекрестного внимания.

Оценка Text-Saliency, то есть корреляция между токенами изображения и текстовыми токенами, рассчитывается как:

2) После получения вектора S, содержащего все s(v), значения индексов первых k' элементов, где k' – это количество сохраняемых токенов изображения, которое регулируется коэффициентом сокращения k, рассчитываемым как k'=(1-k) |V|. (СОВЕТ)

3) Формируется новый вектор токенов изображения V(p) = V[idx].

4) Маркеры текста T и маркеры изображения V(p) объединяются с использованием двустороннего мягкого сопоставления с последующей конкатенацией который определяется как — (MAM)

Показатель схожести S(p) вычисляется с помощью скалярного произведения ключевых значений (рассчитанных на уровнях самоконтроля). Предположим, что для двух токенов t1 и t2 значение S(p) = K(t1)*K(t2).

Используя все ребра из P(r), маркеры из O и E извлекаются и объединяются, вычисляя среднее значение двух — (O+E)/2, чтобы сформировать OE.

Наконец, неслитые маркеры O и E собираются вместе с OE для формирования новых объединенных текстовых маркеров T(m) и сокращенно-объединенные токены изображений V(m).

Обучение и выводы

Добавленных параметров нет благодаря фреймворку PuMer, поэтому настройка тонкой настройки аналогична тонкой настройке исходной модели VL. Дальнейшее снижение точности предотвращается за счет реализации потери при дистилляции знаний, которая сводит к минимуму расстояние между активациями функций модели учителя (исходной модели, отличной от PuMer) и студенческая модель (каркасная модель PuMer). Единственными настраиваемыми гиперпараметрами платформы являются коэффициент сокращения k и коэффициенты слияния r и t.

Экспериментальная установка и результаты

Фреймворк PuMer тестируется на ранее упомянутых моделях ViLT и METER через 4 задачи VL —

  • Поиск изображения и текста. Эта задача состоит из двух подзадач — извлечения изображения в текст и извлечения текста в изображение и протестирована на Flickr30k.
  • Визуальные ответы на вопросы. Это задание тестируется на наборе данных VQAv2 и состоит из вопросов об изображениях из набора данных MSCOCO, а также о реальных сценах. .
  • Visual Entailment (VE): это задача на визуальный вывод, т. е. предсказание того, влечет ли предпосылка изображения текстовый ввод, проверенный на наборе данных, созданном с использованием утверждений из Стэнфордского корпуса вывода на естественном языке. >и Flickr30k.
  • Визуальные рассуждения на естественном языке (NLVR): это задача, чтобы предсказать, верно ли данное предложение о двух входных изображениях. Корпуса NLVR2 содержат 100 тысяч лингвистически разнообразных английских предложений, написанных людьми и основанных на паре визуально сложных изображений.

Базовые модели включают:

  • DynamicViT: он состоит из модулей прогнозирования, параметризованных MLP для прогнозирования токенов изображения, достойных обрезки, в преобразователях зрения.
  • ToMe: он использует слияние токенов, чтобы уменьшить количество токенов в преобразователях.
  • Уменьшение разрешения. Еще одним базовым показателем является снижение разрешения входного изображения, что автоматически повышает эффективность вычислений.

Метрики измерения —

  • Показатели точности: точность VQA, т. е. проверка совпадения выходных данных модели с достоверным ответом для VQAv2. Для визуальных выводов и визуальных рассуждений на естественном языке это точность, а для задач поиска изображения и текста — Top1-recall.
  • Показатели эффективности. Увеличение пропускной способности и сокращение объема памяти — это два показателя эффективности, которые считаются более точными, чем стандартные FLOP (Flточка плавления Операций за ссекунду) измерения.

Результаты

Таблица 1 демонстрирует, что модели ViLT и METER, интегрированные с PuMer, работают лучше, чем традиционные METER и ViLT, с точки зрения пропускной способности и памяти, сохраняя при этом конкурентоспособную точность выполнения задач. Общее ускорение в 1,85 раза и сокращение на 46 % в использовании памяти при сохранении смещения точности в пределах 1 % маржа.

На приведенном выше рисунке показано сравнение PuMer с базовыми показателями DynamicViT и ToMe в задаче VQA для различных коэффициентов сокращения и слияния, чтобы увидеть компромиссы между пропускной способностью и точностью.

При том же значении пропускной способности (представленном на рисунке вертикальной пунктирной линией) PuMer демонстрирует более высокую точность в задаче VQA. Точно так же при том же значении падения точности (представленном на рисунке горизонтальной пунктирной линией) PuMer демонстрирует более высокий прирост производительности.

Таблица 2 демонстрирует значения точности, увеличения пропускной способности и сокращения памяти для PuMer по сравнению с исходной моделью METER с изображениями меньшего разрешения (менее 384x384), а также с моделью интегрированного METER PuMer меньшего разрешения (320x320).

При том же уменьшении разрешения (320 x 320), хотя PuMer имеет более низкую точность, увеличение пропускной способности почти в 1,76 раза (2,86/1,62) превышает увеличение пропускной способности исходной модели METER 320 x 320. Кроме того, сокращение памяти в модели PuMer 320x320 почти на 22% больше, чем в исходной модели 320x320.

Исследование абляции

Изучите TIP, MAM и KDL

Чтобы определить, как каждый компонент, т. е. усечение с учетом текста, слияние с учетом модальности и потеря дистилляции знаний, улучшает пропускную способность, потребление памяти и точность, эти три компонента были удалены для различных наблюдений. .

  • Без TIP, несмотря на меньшее падение точности, пропускная способность почти в 0,24x меньше.
  • Без MAM увеличение пропускной способности 0,3x меньше.
  • Без KDL хотя изменения пропускной способности практически нет, точность остается немного ниже, чем у PuMer-ViLT.

Таким образом, все три компонента помогают закрыть пробелы в точности и в то же время позволяют увеличить производительность.

Изучите варианты дизайна сокращения токенов

Выше приведены различные результаты задачи SNLI-VE, когда коэффициенты обрезки и слияния, количество слоев и местоположения обрезки и слияния варьируются. Окончательные варианты дизайна PuMer: уменьшение количества слоев 2, 4, 6 и 8 для равномерного распределения по модели, коэффициент обрезки k =0,1, коэффициент слияния изображений r = 0,3 и коэффициент слияния текста t = 0,2, что дает точность 75,6 (-0,4 меньше, чем у исходной модели) и почти удвоенную пропускную способность.

Заключение

Эффективное глубокое обучение становится критически важным в настоящее время, когда вычислительные ресурсы остаются ограниченными и позволяют широко использовать эти многомиллионные или даже многомиллиардные модели параметров. Хотя сокращение количества токенов в моделях видения этих мультимодальных преобразователей могло бы еще больше повысить эффективность, необходимо различать структуру с задачей преобразователя, поскольку модель видения не имеет доступа к вводу текста.

Все рисунки взяты из документа, за исключением рисунков ViLT и METER, которые взяты из соответствующих документов преобразователя — «ViLT: Преобразователь зрения и языка без свертки или контроля региона», «Эмпирическое исследование сквозного обучения зрению- и-языковые преобразователи».

Рукописные страницы — это моя черновая работа, направленная на лучшее понимание задействованных концепций.

Спасибо :)