CTTS: Collective Test-Time Scaling
2508.03333v1
cs.CL, cs.AI
2025-08-06
Авторы:
Zhende Song, Shengji Tang, Peng Ye, Jiayuan Fan, Tao Chen
Резюме на русском
**Резюме**
Test-time scaling (TTS) является перспедвидной областью исследований, направленной на повышение эффективности больших языковых моделей (LLMs) без дополнительного обучения. Однако существующие подходы, такие как Best-of-N и Self-Consistency, ограничены моделью с одним агентом, взаимодействующим с моделью вознаграждения (SA-SR), что не позволяет полностью реализовать потенциал метода. Недавние исследования показывают, что методы, основанные на коллективных агентах, могут преодолевать пределы производительности одноагентных систем за счёт координации разнообразных моделей.
В данной работе предлагается новый подход Collective Test-Time Scaling (CTTS), охватывающий три основных парадигмы взаимодействия: один агент с несколькими моделями вознаграждения (SA-MR), несколько агентов с одной моделью вознаграждения (MA-SR) и несколько агентов с несколькими моделями вознаграждения (MA-MR). Результаты экспериментов показывают, что MA-MR является наиболее эффективной парадигмой. На этой основе разработан новый фреймворк CTTS-MM, который объединяет совместную работу нескольких агентов (Agent Collaboration Search, ACS) и нескольких моделей вознаграждения (Mixture of Reward Models, MoR) для оптимизации вывода. Эксперименты на семи популярных бенчмарках подтверждают превосходство CTTS-MM.
Abstract
Test-time scaling (TTS) has emerged as a promising research field for
enhancing the effectiveness of large language models (LLMs) without extra
training. However, most existing approaches, e.g., Best-of-N and
Self-Consistency rely on a single agent interacting with a reward model
(SA-SR), constrained by limited capabilities of a single test-time scaling
(STTS) paradigm. On the other hand, recent works demonstrate that
collective-agent methods can break through the upper bound of single-agent
systems by orchestrating diverse models. Thus, in this paper, we take a first
step towards exploring Collective Test-Time Scaling (CTTS). Consider the
different interaction types of single and multiple models, we design three
primary paradigms to investigate the optimal paradigm of CTTS: (1) single agent
to multiple reward models (SA-MR); (2) multiple agents to single reward model
(MA-SR); and (3) multiple agents to multiple reward models (MA-MR). Extensive
experiments demonstrate that MA-MR consistently achieves the best performance.
Based on this, we propose a novel framework named CTTS-MM that effectively
leverages both multi-agent and multi-reward-model collaboration for enhanced
inference. Specifically, for multi-agent collaboration, we propose an Agent
Collaboration Search (ACS), which searches for the most effective combination
of LLM agents from a large candidate pool; for multi-reward-model
collaboration, we propose Mixture of Reword Models (MoR), which consists of a
curated question pool and a Prior Reward model Ensemble Selection (PRES) to
select the optimal combinations of reward models via Pair-wise Reward Ranking
(PRR) metric. Experiments across seven mainstream benchmarks demonstrate that
the proposed CTTS-MM consistently obtains superior performance. Code will be
released at https://github.com/magent4aci/CTTS-MM.
Ссылки и действия
Дополнительные ресурсы: