ToMPO: Training LLM Strategic Decision Making from a Multi-Agent Perspective
2509.21134v1
cs.AI, cs.MA
2025-09-27
Авторы:
Yiwen Zhang, Ziang Chen, Fanqi Kong, Yizhe Huang, Xue Feng
Резюме на русском
## Контекст
Стратегическое принятие решений требует логического рассуждения, осознания различных субъектов и их стратегий. Однако существующие решения, основанные на глубоком познании, часто не учитывают взаимодействия с другими агентами. Это приводит к несоответствию решений и неэффективности взаимодействия. Большинство исследований сосредоточены на учебных средах или эмулируемых задачах, где нет глубокого взаимодействия. Мы призваны разработать метод, который бы учитывал взаимодействие в целом, включая рассуждения о стратегиях других субъектов и их влияние на решения.
## Метод
Мы предлагаем ToMPO (Training LLM Strategic Decision Making from a Multi-Agent Perspective) — метод, оптимизирующий стратегии моделей, рассуждая о стратегиях других. ToMPO включает два ключевых элемента: 1) генерируя роллауты на основе стратегий других агентов, 2) вычисляя преимущества на уровне графа и отдельных примеров. Мы также предлагаем балансировку между глобальным и частным вознаграждением. Этот подход учитывает взаимосвязи и отдает предпочтение совместным решениям. Результаты показывают, что ToMPO улучшает соответствие модели критериям взаимодействия, увеличивая коэффициент кооперативности на 35% по сравнению с GRPO.
## Результаты
Мы проводили эксперименты на симулируемых задачах, где необходимо учитывать стратегии других агентов. Мы сравнили ToMPO со стандартным GRPO и увидели, что ToMPO повышает уровень кооперативности и соответствия решений. Например, в задаче управления ресурсами, где необходимо понять стратегии других игроков, ToMPO показал лучшие результаты. Мы также проводили эксперименты с моделями различных размеров, демонстрируя, что ToMPO эффективен даже при меньшем размере параметров, показывая улучшение на 18% по сравнению с моделями, имеющими размер 100 раз больше.
## Значимость
Предложенный подход может быть применен в различных сферах, где требуется умение работать с несколькими агентами и рассуждать о своих стратегиях. Он может использоваться в системах, которым требуется оценивать риски и принимать решения в условиях неопределенности. Это демонстрирует значительный прогресс в области стратегического принятия решений, позволяя моделям более эффективно учитывать взаимодействие с другими субъектами.
## Выводы
Мы представили ToMPO, метод, который улучшает стратегическое принятие решений с помощью глубокого рассуждения о стратегиях других агентов. Мы продемонстрировали эффективность этого подхода в симулируемых задачах и сравнили его с GRPO, показав значительное улучшение. Наша работа открывает новые
Abstract
Large Language Models (LLMs) have been used to make decisions in complex
scenarios, where they need models to think deeply, reason logically, and decide
wisely. Many existing studies focus solely on multi-round conversations in
social tasks or simulated environments, neglecting the various types of
decisions and their interdependence. Current reinforcement learning methods
struggle to consider the strategies of others during training. To address these
issues, we first define a strategic decision-making problem that includes two
types of decisions and their temporal dependencies. Furthermore, we propose
**T**heory **o**f **M**ind **P**olicy **O**ptimization **(ToMPO)** algorithm to
optimize the perception of other individual strategies and the game situation
trends. Compared to the Group Relative Policy Optimization (GRPO) algorithm,
ToMPO enhances the LLM's strategic decision-making mainly by: 1) generating
rollouts based on reasoning the strategies of other individuals, 2) estimating
advantages at both the graph-level and sample-level, and 3) balancing global
and partial rewards. The ToMPO algorithm outperforms the GRPO method by 35% in
terms of model output compliance and cooperative outcomes. Additionally, when
compared to models with parameter sizes 100 times larger, it shows an 18%
improvement. This demonstrates the effectiveness of the ToMPO algorithm in
enhancing the model's strategic decision-making capabilities.
Ссылки и действия
Дополнительные ресурсы: