Causally-Enhanced Reinforcement Policy Optimization
2509.23095v1
cs.LG, cs.AI, cs.CL
2025-10-01
Авторы:
Xiangqi Wang, Yue Huang, Yujun Zhou, Xiaonan Luo, Kehan Guo, Xiangliang Zhang
Резюме на русском
####################
## Контекст
####################
Проблема обучения бо LLM (large language models) с помощью реинфорсментных оптимизаций часто приводит к получению ответов, которые только оказываются верными на первый взгляд. Этот эффект достигается благодаря приему несуществующих связей или использованию способов, которые не соответствуют реальным причинным связям. Это приводит к деградации качества моделей в ситуациях, когда мелкие изменения в логике приводят к существенным изменениям в ответах. Данное исследование адресуется таким моделям, которые часто полагаются на заглушки и не учитывают действительные причины, что снижает надежность и качество решения задач.
####################
## Метод
####################
Для устранения проблемы недостоверных ответов в моделях был предложен Causally-Enhanced Policy Optimization (CE-PO), что является новым методом, основанным на технике политики-оптимизации. Алгоритм CE-PO включает в себя следующие этапы:
1. **Разметка генерируемых ответов**. С помощью Jacobian-based sensitivities алгоритм оценивает внутренние влияния в процессе генерации ответа.
2. **Создание сигналов для сущностей**. Он твердо учитывает причины, отвлекаясь от незначительных корреляций.
3. **Устойчивость к фальшивым соотношениям причины-следствие**. CE-PO улучшает способность модели отличать причины и следствия, позволяя поддаваться менее заметным изменениям в данных.
4. **Интеграция с PPO/GRPO**. Метод может быть использован в существующих системах с политикой-оптимизацией без необходимости изменять архитектуру модели.
####################
## Результаты
####################
Авторы провели эксперименты на 4 различных данных и показали, что CE-PO увеличивает точность ответов до 9.58% в сравнении с базовым алгоритмом. Кроме того, было показано, что CE-PO способен обнаруживать и предотвращать некорректные выводы, которые могут возникнуть из-за изменений в корреляционных связях. Это улучшение достигается с минимальным ущербом точности ответов (near-parity accuracy).
####################
## Значимость
####################
Есть ряд областей применения данного развития. В первую очередь, CE-PO может быть использован в области работы с данными, где необходимо строить долгие цепочки причин и следствий, например, в медицине, бизнесе и юриспруденции. Также, CE-PO может повысить качество ответов в системах, которым требуется высокая надежность в выводе, такие как системы рекомендаций, системы поиска и виртуальные помощники. В последнем случае это может способствовать улучшению пользовательского опыта и увеличению доверия к модели.
####################
## Выводы
####################
В итоге, CE-PO является эффективным инструментом для повышения устойчивости и надежности моделей, уменьшая последствия недостоверных выводов. Будущие исследования могут б
Abstract
Large language models (LLMs) trained with reinforcement objectives often
achieve superficially correct answers via shortcut strategies, pairing correct
outputs with spurious or unfaithful reasoning and degrading under small causal
perturbations. We introduce Causally-Enhanced Policy Optimization (CE-PO), a
drop-in reward-shaping framework that augments policy optimization with a
differentiable proxy for causal coherence along the generation pathway from
prompt (Z) to rationale (X) to answer (Y). CE-PO estimates model-internal
influence with Jacobian-based sensitivities, counterfactually hardens these
signals to suppress nuisance cues, and fuses the resulting coherence score with
task-accuracy feedback via a Minkowski (power-mean) combiner, exposing a single
tunable between accuracy and coherence trade-off. The unified reward integrates
with PPO/GRPO without architectural changes. Across reasoning benchmarks and
causal stress tests, CE-PO reduces reward hacking and unfaithful
chain-of-thought while improving robustness to correlation-causation flips and
light counterfactual edits, all at near-parity accuracy. Experimental results
across 4 datasets show that CE-PO improves accuracy over baselines by 5.49% on
average (up to 9.58%), while improving robustness to correlation-causation
flips and light counterfactual edits.
Ссылки и действия
Дополнительные ресурсы: