Causally-Enhanced Reinforcement Policy Optimization

2509.23095v1 cs.LG, cs.AI, cs.CL 2025-10-01
Авторы:

Xiangqi Wang, Yue Huang, Yujun Zhou, Xiaonan Luo, Kehan Guo, Xiangliang Zhang

Резюме на русском

#################### ## Контекст #################### Проблема обучения бо LLM (large language models) с помощью реинфорсментных оптимизаций часто приводит к получению ответов, которые только оказываются верными на первый взгляд. Этот эффект достигается благодаря приему несуществующих связей или использованию способов, которые не соответствуют реальным причинным связям. Это приводит к деградации качества моделей в ситуациях, когда мелкие изменения в логике приводят к существенным изменениям в ответах. Данное исследование адресуется таким моделям, которые часто полагаются на заглушки и не учитывают действительные причины, что снижает надежность и качество решения задач. #################### ## Метод #################### Для устранения проблемы недостоверных ответов в моделях был предложен Causally-Enhanced Policy Optimization (CE-PO), что является новым методом, основанным на технике политики-оптимизации. Алгоритм CE-PO включает в себя следующие этапы: 1. **Разметка генерируемых ответов**. С помощью Jacobian-based sensitivities алгоритм оценивает внутренние влияния в процессе генерации ответа. 2. **Создание сигналов для сущностей**. Он твердо учитывает причины, отвлекаясь от незначительных корреляций. 3. **Устойчивость к фальшивым соотношениям причины-следствие**. CE-PO улучшает способность модели отличать причины и следствия, позволяя поддаваться менее заметным изменениям в данных. 4. **Интеграция с PPO/GRPO**. Метод может быть использован в существующих системах с политикой-оптимизацией без необходимости изменять архитектуру модели. #################### ## Результаты #################### Авторы провели эксперименты на 4 различных данных и показали, что CE-PO увеличивает точность ответов до 9.58% в сравнении с базовым алгоритмом. Кроме того, было показано, что CE-PO способен обнаруживать и предотвращать некорректные выводы, которые могут возникнуть из-за изменений в корреляционных связях. Это улучшение достигается с минимальным ущербом точности ответов (near-parity accuracy). #################### ## Значимость #################### Есть ряд областей применения данного развития. В первую очередь, CE-PO может быть использован в области работы с данными, где необходимо строить долгие цепочки причин и следствий, например, в медицине, бизнесе и юриспруденции. Также, CE-PO может повысить качество ответов в системах, которым требуется высокая надежность в выводе, такие как системы рекомендаций, системы поиска и виртуальные помощники. В последнем случае это может способствовать улучшению пользовательского опыта и увеличению доверия к модели. #################### ## Выводы #################### В итоге, CE-PO является эффективным инструментом для повышения устойчивости и надежности моделей, уменьшая последствия недостоверных выводов. Будущие исследования могут б

Abstract

Large language models (LLMs) trained with reinforcement objectives often achieve superficially correct answers via shortcut strategies, pairing correct outputs with spurious or unfaithful reasoning and degrading under small causal perturbations. We introduce Causally-Enhanced Policy Optimization (CE-PO), a drop-in reward-shaping framework that augments policy optimization with a differentiable proxy for causal coherence along the generation pathway from prompt (Z) to rationale (X) to answer (Y). CE-PO estimates model-internal influence with Jacobian-based sensitivities, counterfactually hardens these signals to suppress nuisance cues, and fuses the resulting coherence score with task-accuracy feedback via a Minkowski (power-mean) combiner, exposing a single tunable between accuracy and coherence trade-off. The unified reward integrates with PPO/GRPO without architectural changes. Across reasoning benchmarks and causal stress tests, CE-PO reduces reward hacking and unfaithful chain-of-thought while improving robustness to correlation-causation flips and light counterfactual edits, all at near-parity accuracy. Experimental results across 4 datasets show that CE-PO improves accuracy over baselines by 5.49% on average (up to 9.58%), while improving robustness to correlation-causation flips and light counterfactual edits.

Ссылки и действия