Discovering Interpretable Programmatic Policies via Multimodal LLM-assisted Evolutionary Search
2508.05433v1
cs.LG, cs.NE
2025-08-09
Авторы:
Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu Zhang
Резюме на русском
**Резюме**
Надежность и прозрачность управляющих политик являются ключевыми задачами при их разработке, особенно для систем, требующих высокой надежности и безопасности. Несмотря на потрясающие успехи глубокого ускоренного обучения, его непрозрачность часто становится причиной проблем с доверием и реализацией в реальном мире. Мы предлагаем новую методику построения интерпретируемых управляющих политик — MLES (Multimodal Large Language Model-assisted Evolutionary Search), объединяющую модели текстового понимания на основе технологий глубокого обучения с эволюционным подходом. Этот подход позволяет анализировать поведение политики с применением визуальных данных, что улучшает эффективность и устойчивость подхода. На двух экспериментальных задачах были получены результаты, которые демонстрируют высокую эффективность и человекопонятную интерпретацию алгоритмов. Мы показали, что MLES превзошел Proximal Policy Optimization (PPO) на большинстве экспериментов и обеспечил прозрачность и значимость разработанных политик. Этот подход может стать основой для будущих разработок прозрачных и надежных управляющих систем.
Abstract
Interpretability and high performance are essential goals in designing
control policies, particularly for safety-critical tasks. Deep reinforcement
learning has greatly enhanced performance, yet its inherent lack of
interpretability often undermines trust and hinders real-world deployment. This
work addresses these dual challenges by introducing a novel approach for
programmatic policy discovery, called Multimodal Large Language Model-assisted
Evolutionary Search (MLES). MLES utilizes multimodal large language models as
policy generators, combining them with evolutionary mechanisms for automatic
policy optimization. It integrates visual feedback-driven behavior analysis
within the policy generation process to identify failure patterns and
facilitate targeted improvements, enhancing the efficiency of policy discovery
and producing adaptable, human-aligned policies. Experimental results show that
MLES achieves policy discovery capabilities and efficiency comparable to
Proximal Policy Optimization (PPO) across two control tasks, while offering
transparent control logic and traceable design processes. This paradigm
overcomes the limitations of predefined domain-specific languages, facilitates
knowledge transfer and reuse, and is scalable across various control tasks.
MLES shows promise as a leading approach for the next generation of
interpretable control policy discovery.
Ссылки и действия
Дополнительные ресурсы: