1. Самоконтролируемое обучение Sharpness & Shift-Aware (arXiv)

Автор: Нгок Н. Тран, Сон Дуонг, Хоанг Фан, Тунг Фам, Динь Фунг, Трунг Ле.

Аннотация: Обучение с самоконтролем направлено на извлечение значимых признаков из немаркированных данных для дальнейших последующих задач. В этой статье мы рассматриваем классификацию как следующую задачу на этапе 2 и разрабатываем строгие теории для реализации факторов, которые неявно влияют на общую потерю этой задачи классификации. Наши теории показывают, что экстракторы признаков с учетом резкости приносят пользу задаче классификации на этапе 2, а существующий сдвиг данных между идеальным (т. е. идеальным, используемым при разработке теории) и практическим (т. е. практическим, используемым в реализации) распределения для создания положительные пары также заметно влияют на эту задачу классификации. Продолжая собирать эти теоретические выводы, мы предлагаем минимизировать резкость экстрактора признаков и новую технику увеличения данных на основе Фурье, чтобы уменьшить сдвиг данных в распределениях, генерирующих положительные пары, достигая контрастного обучения с учетом резкости и сдвига (SSA-CLR). . Мы проводим обширные эксперименты, чтобы проверить наши теоретические выводы и продемонстрировать, что резкость и распознавание сдвига контрастного изображения

2. DinoSR: Самостоятельная дистилляция и онлайн-кластеризация для самостоятельного обучения репрезентации речи (arXiv)

Автор: Александр Х. Лю, Хэн-Джуи Чанг, Майкл Аули, Вэй-Нинг Хсу, Джеймс Р. Гласс.

Аннотация: В этой статье мы представляем самостоятельную дистилляцию и онлайн-кластеризацию для обучения речевому представлению с самостоятельным наблюдением (DinoSR), которое сочетает в себе языковое моделирование в маске, самодистилляцию и онлайн-кластеризацию. Мы показываем, что эти концепции дополняют друг друга и приводят к сильной модели обучения представлению речи. DinoSR сначала извлекает контекстуализированные вложения из входного аудио с помощью учительской сети, затем запускает онлайн-систему кластеризации вложений, чтобы получить обнаруженный машиной список телефонов, и, наконец, использует дискретизированные токены для управления студенческой сетью. Мы показываем, что DinoSR превосходит предыдущую современную производительность в нескольких последующих задачах, и предоставляем подробный анализ модели и изученных дискретных единиц. Исходный код будет доступен после периода анонимности.