Deceptive Risk Minimization: Out-of-Distribution Generalization by Deceiving Distribution Shift Detectors

2509.12081v1 cs.LG, cs.AI, cs.RO 2025-09-17

Авторы:

Anirudha Majumdar

Резюме на русском

## Контекст Изучение области обучения с подкреплением (RL) на предмет обеспечения устойчивой работы агентов в различных средах находится в центре внимания. Одним из ключевых аспектов этой проблемы является обеспечение общезначимости агента, то есть его способности выполнять задачи не только в одной, но и в неизвестных ранее средах. Нестабильность агента часто вызвана спутанными или спутанными сигналами в данных, которые могут привести к ошибкам в оптимизации или неудаче в новых средах. Мотивацией для этой работы является поиск методов, позволяющих агентам обнаруживать и исключать такие спутанные сигналы, чтобы обеспечить более прочную общезначимость. ## Метод Данная работа предлагает механизм, основанный на идее "дезинформации" (deception), для решения проблемы общезначимости в RL. Метод, названный **Deceptive Risk Minimization (DRM)**, использует методы обучения данных, которые делают их показателем независимости и идентичности распределения (iid) для внешнего наблюдателя. Этот подход позволяет идентифицировать стабильные черты данных, удаляя спутанные сигналы и улучшая общую устойчивость. Основная идея заключается в том, что данные, которые кажутся iid для детектора распределения, позволяют агенту избегать недостатков, связанных с нестабильными и спутанными сигналами. Метод DRM реализуется как различностная цель, которая одновременно оптимизирует функцию потерь задачи и уменьшает риск, связанный с распределением, в соответствии с детектором, основанным на мартингале-конформирующих методах. ## Результаты Исследования проводились на двух типах экспериментов: численных экспериментах с концептуальными сдвигами и симулированных экспериментах с ковариатным сдвигом в средах, где робот развертывается. В экспериментах показано, что DRM позволяет агенту выявить стабильные черты, которые влияют на поведение в неизвестных средах. Напротив, методы доступа к данным или предварительной разделки данных на кластеры не позволяют в полной мере обеспечить устойчивость. Для оценки DRM использовались данные, в которых был внедрен концептуальный сдвиг (например, изменение формы объекта), а также данные с ковариатным сдвигом (например, изменение изображения в симуляторе). Результаты показали, что DRM позволяет агенту повысить устойчивость к неизвестным средам, существенно превосходя другие подходы. ## Значимость Результаты DRM могут быть применимы в сферах, где требуется обеспечение высокой общезначимости и неуязвимости к спутанным сигналам. Это могут быть применения в имитационных средах, включая роботизированные системы, системы-модели в картографи

Abstract

This paper proposes deception as a mechanism for out-of-distribution (OOD) generalization: by learning data representations that make training data appear independent and identically distributed (iid) to an observer, we can identify stable features that eliminate spurious correlations and generalize to unseen domains. We refer to this principle as deceptive risk minimization (DRM) and instantiate it with a practical differentiable objective that simultaneously learns features that eliminate distribution shifts from the perspective of a detector based on conformal martingales while minimizing a task-specific loss. In contrast to domain adaptation or prior invariant representation learning methods, DRM does not require access to test data or a partitioning of training data into a finite number of data-generating domains. We demonstrate the efficacy of DRM on numerical experiments with concept shift and a simulated imitation learning setting with covariate shift in environments that a robot is deployed in.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Deceptive Risk Minimization: Out-of-Distribution Generalization by Deceiving Distribution Shift Detectors

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Forecasting in Offline Reinforcement Learning for Non-stationary Environments

Leveraging LLMs for reward function design in reinforcement learning control tas...

Are LLMs The Way Forward? A Case Study on LLM-Guided Reinforcement Learning for ...

Harnessing Bounded-Support Evolution Strategies for Policy Refinement

Dynamic Sparsity: Challenging Common Sparsity Assumptions for Learning World Mod...

Навигация