Модель для каждого образца: сумасшедший?

Почему модели для конкретных образцов?

Большинство систем машинного обучения (включая современное глубокое обучение) предполагают, что одна единственная модель может суммировать сложные процессы, если модель имеет достаточно большую репрезентативную мощность. Однако это предположение не работает, когда основные процессы различаются для разных образцов (например, в гетерогенных процессах, таких как геномика рака, или в изменяющихся во времени процессах, таких как фондовый рынок).

Можем ли мы впасть в другую крайность? Что, если бы мы могли вместо этого оценить разные модели для каждой из выборок?! Если бы мы могли назначить каждому образцу свои параметры модели, мы бы сразу имели:

Примеры встраивания.Модели, относящиеся к выборке, представляют собой осмысленные вложения, которые представляют лежащий в основе процесс (а не только входные или выходные данные).
Кластеризация на основе данных. Мы оцениваем столько моделей, сколько имеется точек данных. Эти модели автоматически формируют столько кластеров, сколько различных базовых процессов в наборе данных.
Интерпретируемость. Поскольку модели должны работать только для одной выборки, они могут относиться к очень простому классу моделей (например, логистической регрессии).
Интерпретируемость с любой степенью детализации: мы можем автоматически увеличивать или уменьшать масштаб от уровня населения до индивидуального уровня, чтобы понять

Однако оценивать разные модели для каждого образца (действительно) сложно! Модели — это многомерные звери; как мы можем эффективно оценить их для одной выборки? Ответ заключается в том, что мы должны разработать способы распределения статистической мощности между моделями. Персонализированная регрессия делает это путем одновременной оценки всех персонализированных моделей в мягкой многозадачной задаче.

Что такое персонализированная регрессия?

Персонализированная регрессия — это наш метод оценки конкретных моделей в задаче мягкого многозадачного обучения. В этом представлении каждый образец является задачей, и мы используем разные параметры модели для каждой задачи (образца). Мы превращаем это в мягкую многозадачную задачу, поощряя аналогичные задачи (выборки) иметь аналогичные параметры модели.

Как показано на рис. 1, персонализированная регрессия оценивает разные параметры модели для каждой выборки. Персонализированная регрессия не делает каких-либо параметрических предположений о том, как генерировать параметры модели, что делает ее гораздо более гибкой, чем другие платформы для моделей, специфичных для выборки. В результате персонализированная регрессия следует нелинейной структуре модели многих реальных наборов данных.

Впервые мы представили персонализированную регрессию в нашей статье ISMB 2018 и внесли существенные улучшения в нашу статью NeurIPS 2019.

Как работает низкоранговая персонализированная регрессия?

Персонализированная регрессия низкого ранга (как представлено в нашей статье NeurIPS 2019) имеет две основные стратегии:

Регуляризация сопоставления расстояний.Чтобы сделать оценку моделей, специфичных для выборки, возможной, нам нужна некоторая информация о том, как выборки соотносятся друг с другом. В персонализированной регрессии мы предполагаем, что нам даны некоторые ковариаты, но нам не говорят, как эти ковариаты связаны с процессом персонализации. Таким образом, мы должны одновременно (1) изучить метрику расстояния по ковариатам, которая говорит нам, как связаны выборки, (2) индуцировать эту связанность выборок в моделях, специфичных для выборки. Это именно то, что делает регуляризация сопоставления расстояний: она пытается сопоставить попарные расстояния, измеренные в ковариативном пространстве, с парными расстояниями, измеренными в пространстве параметров модели.
Низкоранговая коллекция. Коллекция моделей для конкретных выборок ограничена низким рангом. Мы делаем это, генерируя каждый параметр модели, специфичный для выборки, как внутренний продукт словаря моделей и вектора, специфичного для выборки, \theta^(i)=Q^TZ^(i). Мы можем указать размерность Z, чтобы увеличить или уменьшить гибкость персонализации.

В целом, это дает полную функцию потерь:

Где 𝜙 параметризует метрику расстояния по ковариатам,

И 𝜓 — это общий регуляризатор (например, потери l2) для параметров модели, специфичных для выборки, а D — регуляризатор для сопоставления расстояний:

Персонализированные модели оптимизируются путем инициализации всех моделей в оценщике совокупности, а затем позволяя каждой персонализированной модели расслабиться в оптимальном положении. См. ниже оптимизацию персонализированных моделей (их окончательные позиции показаны на рис. 1):

Для получения дополнительной информации о персонализированной регрессии, пожалуйста, ознакомьтесь с:

Machine Learning Personalized Regression

Новые материалы

Онлайн-курсы по программированию для студентов бакалавриата технических наук

Онлайн-курсы по программированию для студентов бакалавриата технических наук Кодирование — это область, которая приближает технологии к нам. Разработка программного обеспечения B.Tech,..

Новый прогресс в использовании KL Divergence part1 (машинное обучение)

Обобщенное обучение Мюнхгаузена с подкреплением с использованием Tsallis KL Divergence (arXiv) Автор: Линвэй Чжу , Чжэн Чен , Такамицу Мацубара , Марта Уайт . Аннотация: Многие подходы к..

MediaTek представляет чип Dimensity 9200

Пользователи Android ликуйте! В настоящее время MediaTek представила свой последний флагманский чип и попыталась установить планку производительности для телефонов Android на 2023 год. Чип..

Получение и использование токенов доступа в OAuth2.0

Основные хореографии🕺 Аудитория В предыдущей статье мы дали обзор OAuth2.0 и вариантов его использования. Здесь мы рассмотрим некоторые реализации фреймворка и то, как он может..

Небольшая хитрость для захвата кликов вне компонента React

Примечание: я снова вернулся к этой проблеме, но с React Hook здесь Если вы пытались разработать свой собственный выпадающий, модальный или всплывающий. Полагаю, вы попали в такую..

некоторые полезные навыки #R

1. мутировать TX.Hour <- TX.Hour %>% mutate(Year = year(Time)) TX.Hour <- TX.Hour %>% mutate(Month = month(Time)) TX.Hour <- TX.Hour %>% mutate(Day = day(Time))..

Концепция S-двойственности в теории струн, часть 2 (теоретическая физика)

S-дуальность и Хаос (arXiv) Автор: К. Шириш Аннотация: группа ренормализации в теории поля во многом напоминает динамические системы. В этой статье мы обсуждаем неожиданную связь..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI Software Engineering React Nodejs Data Development Java NLP Typescript Front End Development Tutorial Learning Productivity Angular ChatGPT CSS Tech Programming Languages Computer Science Neural Networks Developer Python Programming Algorithms Data Analysis Self Improvement ES6 Javascript Development Cybersecurity React Native