Бен Ленгерих

Почему модели для конкретных образцов?

Большинство систем машинного обучения (включая современное глубокое обучение) предполагают, что одна единственная модель может суммировать сложные процессы, если модель имеет достаточно большую репрезентативную мощность. Однако это предположение не работает, когда основные процессы различаются для разных образцов (например, в гетерогенных процессах, таких как геномика рака, или в изменяющихся во времени процессах, таких как фондовый рынок).

Можем ли мы впасть в другую крайность? Что, если бы мы могли вместо этого оценить разные модели для каждой из выборок?! Если бы мы могли назначить каждому образцу свои параметры модели, мы бы сразу имели:

  • Примеры встраивания.Модели, относящиеся к выборке, представляют собой осмысленные вложения, которые представляют лежащий в основе процесс (а не только входные или выходные данные).
  • Кластеризация на основе данных. Мы оцениваем столько моделей, сколько имеется точек данных. Эти модели автоматически формируют столько кластеров, сколько различных базовых процессов в наборе данных.
  • Интерпретируемость. Поскольку модели должны работать только для одной выборки, они могут относиться к очень простому классу моделей (например, логистической регрессии).
  • Интерпретируемость с любой степенью детализации: мы можем автоматически увеличивать или уменьшать масштаб от уровня населения до индивидуального уровня, чтобы понять

Однако оценивать разные модели для каждого образца (действительно) сложно! Модели — это многомерные звери; как мы можем эффективно оценить их для одной выборки? Ответ заключается в том, что мы должны разработать способы распределения статистической мощности между моделями. Персонализированная регрессия делает это путем одновременной оценки всех персонализированных моделей в мягкой многозадачной задаче.

Что такое персонализированная регрессия?

Персонализированная регрессия — это наш метод оценки конкретных моделей в задаче мягкого многозадачного обучения. В этом представлении каждый образец является задачей, и мы используем разные параметры модели для каждой задачи (образца). Мы превращаем это в мягкую многозадачную задачу, поощряя аналогичные задачи (выборки) иметь аналогичные параметры модели.

Как показано на рис. 1, персонализированная регрессия оценивает разные параметры модели для каждой выборки. Персонализированная регрессия не делает каких-либо параметрических предположений о том, как генерировать параметры модели, что делает ее гораздо более гибкой, чем другие платформы для моделей, специфичных для выборки. В результате персонализированная регрессия следует нелинейной структуре модели многих реальных наборов данных.

Впервые мы представили персонализированную регрессию в нашей статье ISMB 2018 и внесли существенные улучшения в нашу статью NeurIPS 2019.

Как работает низкоранговая персонализированная регрессия?

Персонализированная регрессия низкого ранга (как представлено в нашей статье NeurIPS 2019) имеет две основные стратегии:

  • Регуляризация сопоставления расстояний.Чтобы сделать оценку моделей, специфичных для выборки, возможной, нам нужна некоторая информация о том, как выборки соотносятся друг с другом. В персонализированной регрессии мы предполагаем, что нам даны некоторые ковариаты, но нам не говорят, как эти ковариаты связаны с процессом персонализации. Таким образом, мы должны одновременно (1) изучить метрику расстояния по ковариатам, которая говорит нам, как связаны выборки, (2) индуцировать эту связанность выборок в моделях, специфичных для выборки. Это именно то, что делает регуляризация сопоставления расстояний: она пытается сопоставить попарные расстояния, измеренные в ковариативном пространстве, с парными расстояниями, измеренными в пространстве параметров модели.
  • Низкоранговая коллекция. Коллекция моделей для конкретных выборок ограничена низким рангом. Мы делаем это, генерируя каждый параметр модели, специфичный для выборки, как внутренний продукт словаря моделей и вектора, специфичного для выборки, \theta^(i)=Q^TZ^(i). Мы можем указать размерность Z, чтобы увеличить или уменьшить гибкость персонализации.

В целом, это дает полную функцию потерь:

Где 𝜙 параметризует метрику расстояния по ковариатам,

И 𝜓 — это общий регуляризатор (например, потери l2) для параметров модели, специфичных для выборки, а D — регуляризатор для сопоставления расстояний:

Персонализированные модели оптимизируются путем инициализации всех моделей в оценщике совокупности, а затем позволяя каждой персонализированной модели расслабиться в оптимальном положении. См. ниже оптимизацию персонализированных моделей (их окончательные позиции показаны на рис. 1):

Для получения дополнительной информации о персонализированной регрессии, пожалуйста, ознакомьтесь с: