Best-of-$\infty$ -- Asymptotic Performance of Test-Time Compute

2509.21091v1 stat.ML, cs.AI, cs.LG 2025-09-27
Авторы:

Junpei Komiyama, Daisuke Oba, Masafumi Oyamada

Резюме на русском

#### Контекст Область исследований — тест-тайм компьютерные возможности с большими языковыми моделями (LLMs). Наблюдается увеличение интереса к распределенному вычислению данных в задачах тестирования моделей лингвистических моделей. Однако существуют теоретические и практические ограничения, включая сложность выбора наилучших моделей и оптимального количества этих моделей. Целью данного исследования является изучение асимптотического поведения классической техники "Best-of-$N$" для большинства языковых моделей. Данное построение предлагает новый подход к оптимальному выбору моделей в тест-тайме с помощью адаптивного подхода, который эффективно ставит в соответствии количество вычислений с объемом данных. #### Метод Исследование базируется на методологии "Best-of-$N$", где $N$ — число моделей, голосующих за предпочтительный вывод. Для асимптотического поведения когда $N \to \infty$, используется метод "Best-of-$\infty$". Для улучшения эффективности реализован адаптивный генерационный механизм, который определяет $N$ на основе уровня согласования ответов. Для улучшения точности решений, рассмотрены взвешенные сочетания моделей, которые позволяют многократно улучшить производительность. Аппроксимация весов элементов взвешенных сочетаний выполнена с помощью микрованных программ оптимизации . Эксперименты проводились на обширном датасете, включающем различные типы задач тестирования моделей языковых моделей. #### Результаты Изучены результаты тестирования моделей в тест-тайме на оптимальном выборе $N$. Оказалось, что адаптивный подход не только эффективно решает задачу выбора $N$, но и существенно уменьшает требуемый объем вычислительных ресурсов. Были получены результаты, указывающие на более высокую точность вывода при взвешенных сочетаниях моделей. Также было установлено, что взвешенные сочетания моделей могут существенно превышать производительность отдельных моделей. Эксперименты подтвердили эффективность подхода в разных сценариях, в том числе в сложных задачах тестирования языковых моделей. #### Значимость Данный подход может быть применен в различных областях, включая машинное обучение, тестирование языковых моделей и приложения в области глубокого обучения. Он предоставляет значительные преимущества, такие как уменьшение требуемого объема вычислений и улучшение точности решений. Полученные результаты открывают пути для будущих исследований в подобных областях, таких как развитие новых методов оптимального взвешивания моделей и оптимизации распределенных вычислений в тест-тайме. #### Выводы Основным достижением является уста

Abstract

We study best-of-$N$ for large language models (LLMs) where the selection is based on majority voting. In particular, we analyze the limit $N \to \infty$, which we denote as Best-of-$\infty$. While this approach achieves impressive performance in the limit, it requires an infinite test-time budget. To address this, we propose an adaptive generation scheme that selects $N$ based on answer agreement, thereby efficiently allocating inference-time computation. Beyond adaptivity, we extend the framework to weighted ensembles of multiple LLMs, showing that such mixtures can outperform any individual model. The optimal ensemble weighting is formulated and efficiently computed as a mixed-integer linear program. Extensive experiments demonstrate the effectiveness of our approach.

Ссылки и действия