1. rWISDM: исправлен WISDM, общедоступный набор данных для распознавания человеческой деятельности (arXiv)

Автор: Мохаммадреза Хейдарян, Томас Э. Дойл.

Аннотация: Распознавание активности человека (HAR) стало центром внимания недавних научных исследований из-за его применения в различных областях, таких как здравоохранение, спортивные соревнования, умные города и умный дом. В то время как исследователи сосредоточены на методологии обработки данных, пользователи задаются вопросом, можно ли доверять методам искусственного интеллекта (ИИ), используемым для HAR. Доверие зависит главным образом от надежности или надежности системы. Чтобы исследовать надежность систем HAR, мы проанализировали несколько подходящих текущих общедоступных наборов данных и выбрали WISDM для нашего исследования подходов к глубокому обучению. Несмотря на то, что опубликованная спецификация WISDM соответствовала нашим основным требованиям (например, большая, сбалансированная, многокомпонентная), в ходе нашего анализа было обнаружено несколько скрытых проблем. Эти проблемы снижают производительность и общее доверие к классификатору. За счет выявления проблем и исправления набора данных производительность классификатора была увеличена. В этой статье представлены методы, с помощью которых другие исследователи могут выявлять и устранять аналогичные проблемы в общедоступных наборах данных. Устранение проблем повышает достоверность набора данных, что повышает общее доверие к обученной системе HAR.

2. Переработанные сети трансформаторов Mid-Fusion для мультимодального распознавания человеческой деятельности (arXiv)

Автор: Цзинчэн Ли, Лина Яо, Бинхао Ли, Клод Саммут.

Аннотация: Распознавание человеческой деятельности является важной задачей во многих сценариях совместной работы человека и компьютера, но имеет различные практические применения. Хотя унимодальные подходы были тщательно изучены, они страдают от качества данных и требуют разработки функций для конкретных модальностей, поэтому они недостаточно надежны и эффективны для реального развертывания. Используя различные датчики, мультимодальное распознавание человеческой деятельности может использовать дополнительную информацию для построения моделей, которые могут хорошо обобщать. Хотя методы глубокого обучения дали многообещающие результаты, их потенциал в извлечении характерных мультимодальных пространственно-временных характеристик и более эффективном объединении дополнительной информации изучен не полностью. Кроме того, снижение сложности мультимодального подхода к периферийному развертыванию — еще одна проблема, которую еще предстоит решить. Для решения этих проблем предлагается основанный на дистилляции знаний подход Multi-modal Mid-Fusion, DMFT, для проведения извлечения и слияния информативных признаков для эффективного решения задачи мультимодального распознавания человеческой деятельности. DMFT сначала кодирует мультимодальные входные данные в унифицированное представление. Затем модель учителя DMFT применяет внимательный мультимодальный модуль пространственно-временного преобразователя, который извлекает характерные пространственно-временные характеристики. Также предлагается модуль временного промежуточного слияния для дальнейшего слияния временных особенностей. Затем применяется метод дистилляции знаний для переноса изученного представления из модели учителя в более простую модель ученика DMFT, которая состоит из облегченной версии модуля мультимодального пространственно-временного преобразователя, для получения результатов. Оценка DMFT проводилась на двух общедоступных мультимодальных наборах данных распознавания человеческой деятельности с использованием различных современных подходов. Экспериментальные результаты демонстрируют, что модель обеспечивает конкурентоспособность с точки зрения эффективности, масштабируемости и надежности.