Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency
2509.13990v1
cs.CL, cs.AI, cs.LG, I.2.7
2025-09-19
Авторы:
Colin Hong, Xu Guo, Anand Chaanan Singh, Esha Choukse, Dmitrii Ustiugov
Резюме на русском
## Контекст
Исследования в области обучения глубоким сетям становятся все более актуальными в связи с повышением спроса на эффективные и быстрые методы обработки информации. Одним из актуальных направлений является улучшение реального времени ответа Large Language Models (LLM), чтобы они могли быстрее и точнее решать сложные задачи. Одной из популярных техник, которая получила внимание в этой области, является Self-Consistency (SC). SC использует множество параллельных цепочек рассуждений и выбирает решение на основе голосования большинством. Хотя SC показала себя эффективной, её значительная вычислительная стоимость ограничивает широкое развёртывание в реальном времени. Необходимо разработать более эффективные стратегии, которые сохранят эффективность SC, но снимут свои ограничения по ресурсам.
## Метод
Мы разработали новую методику Slim-SC, основанную на анализе интер-цепочечной схожести в рассуждениях. Slim-SC использует стратегию шага по шагу позволяющую удалить ненужные рассуждения, оставив только самые важные. Мы проводили анализ теоретических неэффективностей SC и использовали эмпирические данные для проверки наших выводов. Наша методика включает в себя техники, которые позволяют уменьшить вычислительный оверхед, не уменьшая точности решений. Мы применили Slim-SC к трём STEM-датасетам и двум LLM-архитектурам, чтобы проверить её эффективность.
## Результаты
Наши эксперименты показали, что Slim-SC эффективно уменьшает latency и количество вычислительных операций (KVC) до 45% при использовании R1-Distill, при этом сохраняя или даже улучшая точность решений. Это демонстрирует что Slim-SC является простым, но эффективным аналогом SC в случае решения STEM-задач. Мы также показали, что наши результаты могут быть расширены для других LLM-архитектур, что делает Slim-SC широко применимым в ситуациях, где необходима высокая эффективность и скорость работы.
## Значимость
Этот подход может быть применён в различных областях, где требуется быстрая и эффективная обработка текста, таких как NLP, решение STEM-задач и даже в сфере машинного обучения. Slim-SC не только уменьшает вычислительные затраты, но и улучшает производительность моделей в реальном времени. Это открывает новые возможности для развития моделей LLM, в том числе в ситуациях, где ресурсы ограничены и необходима высокая производительность.
## Выводы
Мы доказали, что Slim-SC является эффективным альтернативным подходом к Self-Consistency, который снимает препятствия, связанные с высоким потреблением ресурсов, при этом сохраняя точность решений. В дальнейшем нам предстоит расширить нашу мето
Abstract
Recently, Test-Time Scaling (TTS) has gained increasing attention for
improving LLM reasoning performance at test time without retraining the model.
A notable TTS technique is Self-Consistency (SC), which generates multiple
reasoning chains in parallel and selects the final answer via majority voting.
While effective, the order-of-magnitude computational overhead limits its broad
deployment. Prior attempts to accelerate SC mainly rely on model-based
confidence scores or heuristics with limited empirical support. For the first
time, we theoretically and empirically analyze the inefficiencies of SC and
reveal actionable opportunities for improvement. Building on these insights, we
propose Slim-SC, a step-wise pruning strategy that identifies and removes
redundant chains using inter-chain similarity at the thought level. Experiments
on three STEM reasoning datasets and two recent LLM architectures show that
Slim-SC reduces inference latency and KVC usage by up to 45% and 26%,
respectively, with R1-Distill, while maintaining or improving accuracy, thus
offering a simple yet efficient TTS alternative for SC.