Обзор Lickety Split

arxiv:2108.10257

Проблема: недавние подходы к тому, чтобы заставить Super Resolution на основе Transformer создавать артефакты на границах патчей.

Решение:
• Используйте свертки для извлечения поверхностных элементов.
• Используйте блоки Swin Transformer для выделения глубоких элементов.
• Объедините их с помощью субпиксельного слоя свертки.

Вообще говоря, было много попыток совместить лучшее из двух миров: свертки и внимания. В данной работе авторы предлагают использовать идею Swin Transformer, позволяющую не только обрабатывать изображение как последовательность, но и обращать внимание на границы патчей с помощью смещенного окна метод. Итак, на первом этапе у нас есть часть извлечения мелких признаков, которая на самом деле является просто слоем свертки, затем у нас есть часть извлечения глубоких признаков, которая представляет собой последовательность блоков Residual Swin Transformer Blocks (RSTB) и часть реконструкции изображения HQ, которая подпиксельный сверточный слой. Вы можете думать о RSTB как о последовательности блоков из Swin Transformer — идея та же. Кроме того, существует множество остаточных соединений, помогающих агрегировать функции из разных слоев. Что касается потерь, то есть L1, состязательные и перцептивные потери.
Кстати, это можно тренировать не только на больших наборах данных, но и на простом DIV2K.

ИМХО: размер/производительность модели отличные; результаты на реальном изображении SR также великолепны.

Привет всем! «Lickety Split Review» предназначен для того, чтобы дать вам представление о том, о чем статья, за пару минут: мы выделяем проблемы, с которыми сталкиваются авторы, показываем, как они их решают, рассказываем о новизне и даем вам свое скромное мнение о ней. .