Авторы:
Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
## Контекст
В ходе развития интеллектуальных систем, в частности, бо LARGE LANGUAGE MODELS (LLM), возникла необходимость в методах, позволяющих эффективно управлять реакцией таких моделей в задачах, требующих принятия решений и реального мышления. Это связано с особенностями работы LLM, которые часто стремятся к оптимальным решениям, игнорируя разнообразие возможных путей мышления. Это может привести к жесткости и недостатку разнообразия в решениях, которые могут быть важны в сложных задачах. Таким образом, проблема заключается в том, чтобы развить методы, позволяющие моделям не только достигать высокого уровня достоверности, но и сохранять разнообразие в решениях.
## Метод
В статье предлагается FlowRL: метод, основанный на **flow balancing** (равновесии потоков), который превращает скалярные награды в нормализованное распределение наград с помощью обучаемого функционала. Вместо того, чтобы придерживаться методов максимизации награды (например, PPO или GRPO), FlowRL фокусируется на совпадении распределения награды, избегая чрезмерной оптимизации наиболее частых путей. Архитектура FlowRL включает в себя:
1. **Обучаемый партиционирующий функционал**, который преобразует награды в равновесие потоков.
2. **Метод оптимизации**, использующий **reverse KL divergence** для минимизации разницы между политикой и нормализованным распределением.
Этот подход позволяет модели эффективно исследовать разнообразные пути, включая редкие, но важные для предсказания и разнообразия решений.
## Результаты
Для оценки эффективности FlowRL проводились эксперименты на двух типах задач: **математических** и **кодовых**. На **математических задачах**, FlowRL достиг среднего улучшения в $10.0\%$ по сравнению с GRPO и $5.1\%$ по сравнению с PPO. Это свидетельствует о более эффективной и разнообразной исследовательской стратегии. На **задачах кодирования** показаны постоянные улучшения, что подтверждает универсальность и эффективность этого подхода. Эти результаты подчеркивают, что FlowRL представляет собой ключевой подход к повышению разнообразия и эффективности в LLM-решениях.
## Значимость
Продемонстрированная методология FlowRL имеет широкие приложения в областях, где важно сохранение разнообразия решений, такие как **код-генерация**, **математическое моделирование**, и даже в **игровых сценариях**. Ее преимущества заключаются в том, что она позволяет LLM-моделям не только достигать высокой точности, но и расширять пределы их мышления в различных сценариях. В будущем, этот подход может быть расширен для решения задач, требующих более вы
Annotation:
We propose FlowRL: matching the full reward distribution via flow balancing
instead of maximizing rewards in large language model (LLM) reinforcement
learning (RL). Recent advanced reasoning models adopt reward-maximizing methods
(\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while
neglecting less frequent but valid reasoning paths, thus reducing diversity. In
contrast, we transform scalar rewards into a normalized target distribution
using a learnable partition functio...
ID: 2509.15207v1
cs.LG, cs.AI, cs.CL