1. Сегментация видеообъектов с многоуровневой структурой на основе спектра (arXiv)

Автор: Бо Мяо, Мохаммед Беннамун, Юншэн Гао, Аджмал Миан.

Аннотация. Текущие методы сегментации видеообъектов (R-VOS) извлекают условные ядра из закодированных (с низким разрешением) функций визуального языка для сегментации декодированных функций с высоким разрешением. Мы обнаружили, что это вызывает значительный дрейф признаков, который ядра сегментации с трудом воспринимают во время прямого вычисления. Это негативно влияет на способность ядер сегментации. Чтобы решить проблему дрейфа, мы предлагаем многогранулярный подход на основе спектра (SgMg), который выполняет прямую сегментацию закодированных функций и использует визуальные детали для дальнейшей оптимизации масок. Кроме того, мы предлагаем кросс-модальное слияние с управлением по спектру (SCF) для выполнения внутрикадровых глобальных взаимодействий в спектральной области для эффективного мультимодального представления. Наконец, мы расширяем SgMg для выполнения многообъектного R-VOS, новой парадигмы, которая позволяет одновременно сегментировать несколько связанных объектов в видео. Это не только делает R-VOS быстрее, но и более практичным. Обширные эксперименты показывают, что SgMg достигает самой современной производительности на четырех наборах данных тестов видео, опережая ближайшего конкурента на 2,8% баллов на Ref-YouTube-VOS. Наш расширенный SgMg обеспечивает многообъектную R-VOS, работает примерно в 3 раза быстрее, сохраняя при этом удовлетворительную производительность. Код доступен по адресу https://github.com/bo-miao/SgMg.

2.OnlineRefer: простая онлайн-основа для сегментации видеообъектов ссылок (arXiv)

Автор: Dongming Wu, Tiancai Wang, Yuang Zhang, Xiangyu Zhang, Jianbing Shen.

Аннотация: Сегментация видеообъектов (RVOS) направлена ​​на сегментацию объекта в видео в соответствии с инструкциями человека. Текущие современные методы относятся к автономному шаблону, в котором каждый клип независимо взаимодействует с встраиванием текста для межмодального понимания. Обычно они представляют, что автономный шаблон необходим для RVOS, но моделируют ограниченную временную ассоциацию внутри каждого клипа. В этой работе мы разрушаем предыдущее убеждение об оффлайне и предлагаем простую, но эффективную онлайн-модель с использованием явного распространения запросов под названием OnlineRefer. В частности, наш подход использует целевые сигналы, которые собирают семантическую информацию и положение, прежде чем повысить точность и простоту прогнозирования ссылок для текущего кадра. Кроме того, мы обобщаем нашу онлайн-модель в полуонлайн-фреймворк, чтобы она была совместима с магистральными сетями на основе видео. Чтобы показать эффективность нашего метода, мы оцениваем его по четырем критериям: Refer-Youtube-VOS, Refer-DAVIS17, A2D-Sentences и JHMDB-Sentences. Без наворотов наш OnlineRefer с магистралью Swin-L достигает 63,5 J&F и 64,8 J&F на Refer-Youtube-VOS и Refer-DAVIS17, превосходя все другие офлайн-методы.