Последние обновления по распознаванию человеческой деятельности 2023, часть 1 (компьютерное зрение)

rWISDM: исправлен WISDM, общедоступный набор данных для распознавания человеческой деятельности (arXiv)

Автор: Мохаммадреза Хейдарян, Томас Э. Дойл.

Аннотация: Распознавание активности человека (HAR) стало центром внимания недавних научных исследований из-за его применения в различных областях, таких как здравоохранение, спортивные соревнования, умные города и умный дом. В то время как исследователи сосредоточены на методологии обработки данных, пользователи задаются вопросом, можно ли доверять методам искусственного интеллекта (ИИ), используемым для HAR. Доверие зависит главным образом от надежности или надежности системы. Чтобы исследовать надежность систем HAR, мы проанализировали несколько подходящих текущих общедоступных наборов данных и выбрали WISDM для нашего исследования подходов к глубокому обучению. Несмотря на то, что опубликованная спецификация WISDM соответствовала нашим основным требованиям (например, большая, сбалансированная, многокомпонентная), в ходе нашего анализа было обнаружено несколько скрытых проблем. Эти проблемы снижают производительность и общее доверие к классификатору. За счет выявления проблем и исправления набора данных производительность классификатора была увеличена. В этой статье представлены методы, с помощью которых другие исследователи могут выявлять и устранять аналогичные проблемы в общедоступных наборах данных. Устранение проблем повышает достоверность набора данных, что повышает общее доверие к обученной системе HAR.

2. Переработанные сети трансформаторов Mid-Fusion для мультимодального распознавания человеческой деятельности (arXiv)

Автор: Цзинчэн Ли, Лина Яо, Бинхао Ли, Клод Саммут.

Аннотация: Распознавание человеческой деятельности является важной задачей во многих сценариях совместной работы человека и компьютера, но имеет различные практические применения. Хотя унимодальные подходы были тщательно изучены, они страдают от качества данных и требуют разработки функций для конкретных модальностей, поэтому они недостаточно надежны и эффективны для реального развертывания. Используя различные датчики, мультимодальное распознавание человеческой деятельности может использовать дополнительную информацию для построения моделей, которые могут хорошо обобщать. Хотя методы глубокого обучения дали многообещающие результаты, их потенциал в извлечении характерных мультимодальных пространственно-временных характеристик и более эффективном объединении дополнительной информации изучен не полностью. Кроме того, снижение сложности мультимодального подхода к периферийному развертыванию — еще одна проблема, которую еще предстоит решить. Для решения этих проблем предлагается основанный на дистилляции знаний подход Multi-modal Mid-Fusion, DMFT, для проведения извлечения и слияния информативных признаков для эффективного решения задачи мультимодального распознавания человеческой деятельности. DMFT сначала кодирует мультимодальные входные данные в унифицированное представление. Затем модель учителя DMFT применяет внимательный мультимодальный модуль пространственно-временного преобразователя, который извлекает характерные пространственно-временные характеристики. Также предлагается модуль временного промежуточного слияния для дальнейшего слияния временных особенностей. Затем применяется метод дистилляции знаний для переноса изученного представления из модели учителя в более простую модель ученика DMFT, которая состоит из облегченной версии модуля мультимодального пространственно-временного преобразователя, для получения результатов. Оценка DMFT проводилась на двух общедоступных мультимодальных наборах данных распознавания человеческой деятельности с использованием различных современных подходов. Экспериментальные результаты демонстрируют, что модель обеспечивает конкурентоспособность с точки зрения эффективности, масштабируемости и надежности.

Новые материалы

Не удалось запустить набор тестов

Если вы столкнетесь с ошибками, указанными ниже, пожалуйста, у меня есть решение вашей проблемы. Чтобы исправить это, выполните следующие действия. Не удалось запустить набор тестов ~ /..

Введение в Null в Котлине (часть 1)

Исключение нулевой ссылки — это одна из ловушек во многих языках программирования, которая возникает из-за доступа к члену пустой ссылки . Для вас это может звучать несколько бредово...

Создавайте быстрые веб-сайты с Golang!

Добро пожаловать! Golang — один из моих любимых языков программирования всех времен. Если вы новичок в этом языке, перейдите по ссылке ниже, чтобы узнать о нем больше:

Все еще путаетесь с матрицей путаницы ?? давайте прервем путаницу…..

С помощью нескольких строк кода любой может создать модель машинного обучения (ML), но создание хорошей модели машинного обучения — это совсем другая история. Что я имею в виду, когда говорю,..

Реактивно с RXJS

Реактивно с RXJS Нажмите здесь, чтобы опубликовать эту статью в LinkedIn » Я занимаюсь реактивным программированием почти два года, и мне почти невозможно даже думать без него...

Объекты JavaScript

Объектный литерал , также называемый объектом, может иметь свойства, методы или их комбинации. Свойства — это данные, а методы — это функции; оба вложены в объект и разделены запятыми. В..

Мемоизация в JavaScript

Мемоизация — это метод оптимизации, который сохраняет результаты ресурсоемких вызовов функций и возвращает кэшированный результат, когда одни и те же входные данные появляются снова. Другими..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Data Development NLP Java Typescript Front End Development Learning Tutorial Productivity CSS Angular ChatGPT Tech Programming Languages Algorithms Computer Science Neural Networks Developer Python Programming Javascript Development ES6 Self Improvement Cybersecurity HTML Data Analysis