Обновления в сегментации видеообъектов, часть 1 (машинное обучение + компьютерное зрение)

Сегментация видеообъектов с многоуровневой структурой на основе спектра (arXiv)

Автор: Бо Мяо, Мохаммед Беннамун, Юншэн Гао, Аджмал Миан.

Аннотация. Текущие методы сегментации видеообъектов (R-VOS) извлекают условные ядра из закодированных (с низким разрешением) функций визуального языка для сегментации декодированных функций с высоким разрешением. Мы обнаружили, что это вызывает значительный дрейф признаков, который ядра сегментации с трудом воспринимают во время прямого вычисления. Это негативно влияет на способность ядер сегментации. Чтобы решить проблему дрейфа, мы предлагаем многогранулярный подход на основе спектра (SgMg), который выполняет прямую сегментацию закодированных функций и использует визуальные детали для дальнейшей оптимизации масок. Кроме того, мы предлагаем кросс-модальное слияние с управлением по спектру (SCF) для выполнения внутрикадровых глобальных взаимодействий в спектральной области для эффективного мультимодального представления. Наконец, мы расширяем SgMg для выполнения многообъектного R-VOS, новой парадигмы, которая позволяет одновременно сегментировать несколько связанных объектов в видео. Это не только делает R-VOS быстрее, но и более практичным. Обширные эксперименты показывают, что SgMg достигает самой современной производительности на четырех наборах данных тестов видео, опережая ближайшего конкурента на 2,8% баллов на Ref-YouTube-VOS. Наш расширенный SgMg обеспечивает многообъектную R-VOS, работает примерно в 3 раза быстрее, сохраняя при этом удовлетворительную производительность. Код доступен по адресу https://github.com/bo-miao/SgMg.

2.OnlineRefer: простая онлайн-основа для сегментации видеообъектов ссылок (arXiv)

Автор: Dongming Wu, Tiancai Wang, Yuang Zhang, Xiangyu Zhang, Jianbing Shen.

Аннотация: Сегментация видеообъектов (RVOS) направлена на сегментацию объекта в видео в соответствии с инструкциями человека. Текущие современные методы относятся к автономному шаблону, в котором каждый клип независимо взаимодействует с встраиванием текста для межмодального понимания. Обычно они представляют, что автономный шаблон необходим для RVOS, но моделируют ограниченную временную ассоциацию внутри каждого клипа. В этой работе мы разрушаем предыдущее убеждение об оффлайне и предлагаем простую, но эффективную онлайн-модель с использованием явного распространения запросов под названием OnlineRefer. В частности, наш подход использует целевые сигналы, которые собирают семантическую информацию и положение, прежде чем повысить точность и простоту прогнозирования ссылок для текущего кадра. Кроме того, мы обобщаем нашу онлайн-модель в полуонлайн-фреймворк, чтобы она была совместима с магистральными сетями на основе видео. Чтобы показать эффективность нашего метода, мы оцениваем его по четырем критериям: Refer-Youtube-VOS, Refer-DAVIS17, A2D-Sentences и JHMDB-Sentences. Без наворотов наш OnlineRefer с магистралью Swin-L достигает 63,5 J&F и 64,8 J&F на Refer-Youtube-VOS и Refer-DAVIS17, превосходя все другие офлайн-методы.

Новые материалы

CodeEditor на основе Electron, или Как я научился не волноваться и полюбил VS Code

После почти 4 лет использования PHPStorm в проектах, в основном основанных на JavaScript (PHPStorm для JS, я точно знаю 🙄), я захотел перейти на новую IDE. Мои поиски облегченного редактора кода с..

Управление синтезаторами на базе браузера с помощью Ableton

Код Https://glitch.com/edit/#!/ableton-monotron Почему Есть много удивительных синтезаторов Javascript, которые стали возможны благодаря API веб-аудио. Посмотрите здесь лишь небольшой..

Мой опыт работы со скриптами гугл листов

С тех пор, как я узнал о преимуществах отслеживания своего бюджета для экономии денег, я начал использовать Google Таблицы в качестве временного решения. Хотя изначально я планировал создать..

Johnny-Five, часть 5: термодатчик на основе Arduino обнаруживает живых существ за стенами

Добро пожаловать в пятую часть нашей серии Johnny-Five! В этом блоге мы приступим к захватывающему проекту, в котором используются Arduino и робототехническая платформа Johnny-Five JavaScript..

Методы отладки, чтобы выйти из тупика

Когда я сталкиваюсь с препятствиями, с которыми не могу справиться, вот несколько методов, которые я использую, чтобы решить проблемы: Прочитайте официальную документацию, чтобы узнать, могу..

Мера целостности студенческого программного обеспечения

Легкий инструмент для сравнения сходства между проектами В этой статье описывается использование браузерного инструмента для сравнения и визуализации заданий учащихся. Инструмент M.I.S.S..

Как начать карьеру в науке о данных

Наука о данных / аналитика данных имеет разные карьерные пути и приложения. · Аналитик данных · Инженеры данных · Инженеры ИИ · Инженеры машинного обучения · Визуализатор данных · BI..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Data Development Java NLP Typescript Front End Development Tutorial Learning Productivity Angular ChatGPT CSS Tech Programming Languages Neural Networks Developer Algorithms Computer Science Python Programming ES6 Cybersecurity Self Improvement Javascript Development Data Analysis HTML