Deceptive Risk Minimization: Out-of-Distribution Generalization by Deceiving Distribution Shift Detectors
2509.12081v1
cs.LG, cs.AI, cs.RO
2025-09-17
Авторы:
Anirudha Majumdar
Резюме на русском
## Контекст
Изучение области обучения с подкреплением (RL) на предмет обеспечения устойчивой работы агентов в различных средах находится в центре внимания. Одним из ключевых аспектов этой проблемы является обеспечение общезначимости агента, то есть его способности выполнять задачи не только в одной, но и в неизвестных ранее средах. Нестабильность агента часто вызвана спутанными или спутанными сигналами в данных, которые могут привести к ошибкам в оптимизации или неудаче в новых средах. Мотивацией для этой работы является поиск методов, позволяющих агентам обнаруживать и исключать такие спутанные сигналы, чтобы обеспечить более прочную общезначимость.
## Метод
Данная работа предлагает механизм, основанный на идее "дезинформации" (deception), для решения проблемы общезначимости в RL. Метод, названный **Deceptive Risk Minimization (DRM)**, использует методы обучения данных, которые делают их показателем независимости и идентичности распределения (iid) для внешнего наблюдателя. Этот подход позволяет идентифицировать стабильные черты данных, удаляя спутанные сигналы и улучшая общую устойчивость. Основная идея заключается в том, что данные, которые кажутся iid для детектора распределения, позволяют агенту избегать недостатков, связанных с нестабильными и спутанными сигналами. Метод DRM реализуется как различностная цель, которая одновременно оптимизирует функцию потерь задачи и уменьшает риск, связанный с распределением, в соответствии с детектором, основанным на мартингале-конформирующих методах.
## Результаты
Исследования проводились на двух типах экспериментов: численных экспериментах с концептуальными сдвигами и симулированных экспериментах с ковариатным сдвигом в средах, где робот развертывается. В экспериментах показано, что DRM позволяет агенту выявить стабильные черты, которые влияют на поведение в неизвестных средах. Напротив, методы доступа к данным или предварительной разделки данных на кластеры не позволяют в полной мере обеспечить устойчивость. Для оценки DRM использовались данные, в которых был внедрен концептуальный сдвиг (например, изменение формы объекта), а также данные с ковариатным сдвигом (например, изменение изображения в симуляторе). Результаты показали, что DRM позволяет агенту повысить устойчивость к неизвестным средам, существенно превосходя другие подходы.
## Значимость
Результаты DRM могут быть применимы в сферах, где требуется обеспечение высокой общезначимости и неуязвимости к спутанным сигналам. Это могут быть применения в имитационных средах, включая роботизированные системы, системы-модели в картографи
Abstract
This paper proposes deception as a mechanism for out-of-distribution (OOD)
generalization: by learning data representations that make training data appear
independent and identically distributed (iid) to an observer, we can identify
stable features that eliminate spurious correlations and generalize to unseen
domains. We refer to this principle as deceptive risk minimization (DRM) and
instantiate it with a practical differentiable objective that simultaneously
learns features that eliminate distribution shifts from the perspective of a
detector based on conformal martingales while minimizing a task-specific loss.
In contrast to domain adaptation or prior invariant representation learning
methods, DRM does not require access to test data or a partitioning of training
data into a finite number of data-generating domains. We demonstrate the
efficacy of DRM on numerical experiments with concept shift and a simulated
imitation learning setting with covariate shift in environments that a robot is
deployed in.
Ссылки и действия
Дополнительные ресурсы: