1. Сравнительное видеообучение на деревьях решений: от распознавания действий до диагностики аутизма (arXiv)

Автор: Минди Жуан, Сянсюй Юй, На Чжан, Чуанбо Ху, Шо Ван, Синь Ли.

Аннотация: Как научить компьютер распознавать 10 000 различных действий? Глубокое обучение эволюционировало от контролируемого и неконтролируемого к самоконтролируемому подходу. В этой статье мы представляем новую сравнительную структуру, основанную на обучении, для классификации действий на основе дерева решений, включая взаимодействия человека с человеком (HHI) и взаимодействия человека с объектом (HOI). Основная идея состоит в том, чтобы преобразовать исходное распознавание действий нескольких классов в серию задач бинарной классификации на предварительно построенном дереве решений. В рамках новой концепции контрастивного обучения мы представляем дизайн смежной матрицы взаимодействия (IAM) со скелетными графами в качестве основы для моделирования различных атрибутов, связанных с действием, таких как периодичность и симметрия. Посредством построения различных предтекстовых задач мы получаем серию узлов бинарной классификации на дереве решений, которые можно комбинировать для поддержки задач распознавания более высокого уровня. Экспериментальное обоснование потенциала нашего подхода в реальных приложениях варьируется от распознавания взаимодействия до обнаружения симметрии. В частности, мы продемонстрировали многообещающую эффективность видеодиагностики расстройств аутистического спектра (РАС) в базе данных видеоинтервью Калифорнийского технологического института.

2. ID-MixGCL: смешивание идентичности для графического контрастного обучения (arXiv)

Автор: Гехан Чжан, Боуэн Юй, Цзянся Цао, Синхуа Чжан, Тинвэнь Лю, Чуань Чжоу.

Аннотация: недавно разработанные подходы к контрастному обучению графов (GCL) сравнивают два разных «представления» одного и того же графа, чтобы изучить представления узла/графа. Основное предположение этих подходов заключается в том, что путем увеличения графа можно создать несколько структурно различных, но семантически схожих структур графа, и поэтому идентификационные метки исходного и дополненного графа/узлов должны быть идентичными. Однако в этой статье мы наблюдаем, что это предположение не всегда выполняется, например, любое изменение узлов или ребер в молекулярном графе в некоторой степени изменит метки графа. Поэтому мы считаем, что расширение структуры графа должно сопровождаться адаптацией меток, используемых для контрастных потерь. Основываясь на этой идее, мы предлагаем ID-MixGCL, который позволяет одновременно модулировать как входной граф, так и соответствующие идентификационные метки с контролируемой степенью изменения, что приводит к захвату мелкозернистых представлений из немаркированных графов. Экспериментальные результаты показывают, что ID-MixGCL повышает производительность в задачах классификации графов и классификации узлов, о чем свидетельствуют значительные улучшения наборов данных Cora, IMDB-B и IMDB-M по сравнению с современными методами на 3–29. % абсолютных баллов