Input Time Scaling

2508.13654v2 cs.LG, cs.AI, cs.CL 2025-08-21
Авторы:

Rapheal Huang, Weilong Guo

Резюме на русском

## Контекст Input Time Scaling (ITS) — это новый подход к масштабированию бо LARGE LANGUAGE MODELS (LLMs), который фокусируется на максимизации эффективности ввода данных (input time). Исследование адресует проблемы, связанные с традиционным подходом к масштабированию, включая data scaling, training scaling и inference time scaling. Несмотря на то, что эти подходы доказали свою эффективность, они часто игнорируют влияние ввода данных на процесс обучения и вывода. ITS предлагает новый взгляд на этот вопрос, раскрывая возможность применения мета-знаний LLMs для оптимизации ввода и улучшения результатов. ## Метод ITS основывается на совмещении мета-знаний LLMs с новыми стратегиями ввода для повышения качества обучения и вывода. Методология включает: 1. **Мета-знания LLMs:** Использование мета-знаний модели для изменения ввода данных во время обучения и тестирования. 2. **Различные стратегии ввода:** Включая добавление неполностью отфильтрованных данных, случайного выбора примеров и добавление нерелевантных данных в запросы. 3. **Обучение и тестирование с помощью ITS:** Наблюдение за взаимодействием мета-знаний и стратегий ввода в течение всего цикла тренировки и проверки. 4. **Параллельная интерпретация:** ITS проверяет, как разные стратегии ввода влияют на поведение модели в разных сценариях. ## Результаты Эксперименты показали, что ITS может достичь следующих результатов: 1. **Более высокий пропускный показатель (pass@1):** Модели, обученные с использованием ITS, достигли сверхуровневых результатов на AIME24 (76.7%) и AIME25 (76.7%). 2. **Комбинация моделей:** Множественные модели могут давать еще более высокие результаты при оценке по множеству примеров. 3. **Пониженная индуктивная биас:** ITS противоречит широко распространенному мнению, что "плохой ввод — плохой вывод". Даже с использованием некачественных данных можно достичь высоких результатов. 4. **Границы данных:** Данные с небольшим размером, но с применением ITS, могут превосходить данные с большим размером, но с более низким качеством. ## Значимость ITS открывает новые возможности для лучшего использования LLMs: 1. **Практическое применение:** ITS может быть использован в ситуациях, где качество ввода данных ограничено, но требуется высокий уровень разума. 2. **Экономия ресурсов:** Этот подход снижает требования к объему и качеству данных, необходимым для обучения моделей. 3. **Новые направления исследований:** ITS может привести к новым архитектурам моделей, стратегиям тренировки и методам оптимизации. ## Выводы ITS представляет собой новый и эффективный подход к масштабированию LLMs, который может улучшить способность моделей к высокому уровню рассуждения. Он открывает

Abstract

Current Large Language Models (LLMs) are usually post-trained on large-scale carefully curated datasets (data & training scaling) and doing reasoning in test time (inference time scaling). In this work, we present a new scaling paradigm, Input Time Scaling, to complement previous scaling methods by putting resources on queries (input time). During training and testing, we combine meta-knowledge from LLMs to refine inputs with different strategies. We also find a new phenomenon, training-testing co-design there. We need to apply query strategies during both training and testing. Only applying strategies on training or testing would seriously degrade the performance. We are also surprised to find that seemingly low data quality datasets can gain high performance. Adding irrelevant information to the queries, randomly selecting examples from a minimally filtered dataset, can even perform the best. These findings contradict the widely held inductive bias, "garbage in, garbage out". Curating datasets with seemingly high-quality data can even potentially limit the performance ceiling. In addition, models trained on more data with similar quality (15k VS 1k) perform worse, simple dataset size scaling should also be carefully inspected. The good news is that our findings are compatible with the Less is More phenomenon. A small set of examples is enough to evoke high-level reasoning ability. With experiments on models trained on Qwen2.5-32B-Instruct, we are able to reach SOTA performance among 32B models on AIME24(76.7%) and AIME25(76.7%) pass@1. We can further achieve AIME24(76.7%) and AIME25(80%) with a majority vote of three models. Starting from DeepSeek-R1-Distill-Qwen-32B, the best result would be 86.7% on AIME24 and 76.7% on AIME25. To facilitate reproducibility and further research, we are working on open-source our datasets, data pipelines, evaluation results, and checkpoints.

Ссылки и действия