Sticker-TTS: Learn to Utilize Historical Experience with a Sticker-driven Test-Time Scaling Framework

2509.05007v2 cs.AI, cs.CL, I.2.7 2025-09-09

Авторы:

Jie Chen, Jinhao Jiang, Yingqian Min, Zican Dong, Shijie Wang, Wayne Xin Zhao, Ji-Rong Wen

Резюме на русском

#### Контекст Модели большого размера для решения задач логического и математического разума (Large Reasoning Models, LRMs) показали сильный потенциал при решении сложных задач. Однако, несмотря на высокую точность, эти модели требуют больших вычислительных ресурсов во время инференса. Для улучшения эффективности используются методы тест-тайм скейлинга (Test-Time Scaling, TTS), которые направляют модели на повторное рассмотрение задач с целью улучшения результатов. Однако, существующие методы часто ограничиваются лишь перезапуском модели на тех же данных, не используя предыдущие попытки, что приводит к значительному увеличению времени и затрат. Мы предлагаем Sticker-TTS — новую архитектуру TTS, которая использует историческую информацию для эффективного решения задач. #### Метод Sticker-TTS основывается на механизме "стикер-драйвен" (sticker-driven), который обеспечивает координацию трех LRMs в итеративном процессе. Стикеры — это ключевые метки-контексты, которые помогают моделям выделять, уточнять и повторно использовать важные сведения во время решения. Мы вводим два этапа оптимизации: 1) имитационное обучение (imitation learning) для подготовки моделей к работе, и 2) самоулучшение (self-improvement) для дальнейшего улучшения результатов. Эта двухэтапная стратегия позволяет моделям не только использовать предыдущие результаты, но и продолжать улучшаться с каждым циклом. #### Результаты Мы проверяли эффективность Sticker-TTS на трех сложных задачах: AIME-24, AIME-25 и OlymMATH. Наши результаты показали, что Sticker-TTS показывает более высокую точность по сравнению с другими методами TTS, включая самосогласованность и сложные методы глубокого обучения. Мы также провели эксперименты, демонстрирующие, как стикеры позволяют моделям эффективнее использовать информацию, сократив время и снижая затраты ресурсов. #### Значимость Sticker-TTS может применяться в области математического и логического моделирования, где высокая точность и эффективность ключевые. Наша модель позволяет повысить эффективность больших моделей, используя исторические результаты, что может снизить затраты вычислительных ресурсов. Это также открывает новые возможности для применения TTS в реальных системах, где максимальная эффективность важна. #### Выводы Sticker-TTS демонстрирует значительные преимущества в использовании исторических результатов для улучшения решений. Мы планируем расширить нашу модель для работы с другими видами решений задач, включая текстовое моделирование и динамические системы. Это позволит улучшать эффективность и точность моделей в различных областях, где тест-тай

Abstract

Large reasoning models (LRMs) have exhibited strong performance on complex reasoning tasks, with further gains achievable through increased computational budgets at inference. However, current test-time scaling methods predominantly rely on redundant sampling, ignoring the historical experience utilization, thereby limiting computational efficiency. To overcome this limitation, we propose Sticker-TTS, a novel test-time scaling framework that coordinates three collaborative LRMs to iteratively explore and refine solutions guided by historical attempts. At the core of our framework are distilled key conditions-termed stickers-which drive the extraction, refinement, and reuse of critical information across multiple rounds of reasoning. To further enhance the efficiency and performance of our framework, we introduce a two-stage optimization strategy that combines imitation learning with self-improvement, enabling progressive refinement. Extensive evaluations on three challenging mathematical reasoning benchmarks, including AIME-24, AIME-25, and OlymMATH, demonstrate that Sticker-TTS consistently surpasses strong baselines, including self-consistency and advanced reinforcement learning approaches, under comparable inference budgets. These results highlight the effectiveness of sticker-guided historical experience utilization. Our code and data are available at https://github.com/RUCAIBox/Sticker-TTS.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Sticker-TTS: Learn to Utilize Historical Experience with a Sticker-driven Test-Time Scaling Framework

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Semantic-Condition Tuning: Fusing Graph Context with Large Language Models for K...

Artificial Phantasia: Evidence for Propositional Reasoning-Based Mental Imagery ...

Instructional Agents: LLM Agents on Automated Course Material Generation for Tea...

Навигация