Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency

2509.13990v1 cs.CL, cs.AI, cs.LG, I.2.7 2025-09-19

Авторы:

Colin Hong, Xu Guo, Anand Chaanan Singh, Esha Choukse, Dmitrii Ustiugov

Резюме на русском

## Контекст Исследования в области обучения глубоким сетям становятся все более актуальными в связи с повышением спроса на эффективные и быстрые методы обработки информации. Одним из актуальных направлений является улучшение реального времени ответа Large Language Models (LLM), чтобы они могли быстрее и точнее решать сложные задачи. Одной из популярных техник, которая получила внимание в этой области, является Self-Consistency (SC). SC использует множество параллельных цепочек рассуждений и выбирает решение на основе голосования большинством. Хотя SC показала себя эффективной, её значительная вычислительная стоимость ограничивает широкое развёртывание в реальном времени. Необходимо разработать более эффективные стратегии, которые сохранят эффективность SC, но снимут свои ограничения по ресурсам. ## Метод Мы разработали новую методику Slim-SC, основанную на анализе интер-цепочечной схожести в рассуждениях. Slim-SC использует стратегию шага по шагу позволяющую удалить ненужные рассуждения, оставив только самые важные. Мы проводили анализ теоретических неэффективностей SC и использовали эмпирические данные для проверки наших выводов. Наша методика включает в себя техники, которые позволяют уменьшить вычислительный оверхед, не уменьшая точности решений. Мы применили Slim-SC к трём STEM-датасетам и двум LLM-архитектурам, чтобы проверить её эффективность. ## Результаты Наши эксперименты показали, что Slim-SC эффективно уменьшает latency и количество вычислительных операций (KVC) до 45% при использовании R1-Distill, при этом сохраняя или даже улучшая точность решений. Это демонстрирует что Slim-SC является простым, но эффективным аналогом SC в случае решения STEM-задач. Мы также показали, что наши результаты могут быть расширены для других LLM-архитектур, что делает Slim-SC широко применимым в ситуациях, где необходима высокая эффективность и скорость работы. ## Значимость Этот подход может быть применён в различных областях, где требуется быстрая и эффективная обработка текста, таких как NLP, решение STEM-задач и даже в сфере машинного обучения. Slim-SC не только уменьшает вычислительные затраты, но и улучшает производительность моделей в реальном времени. Это открывает новые возможности для развития моделей LLM, в том числе в ситуациях, где ресурсы ограничены и необходима высокая производительность. ## Выводы Мы доказали, что Slim-SC является эффективным альтернативным подходом к Self-Consistency, который снимает препятствия, связанные с высоким потреблением ресурсов, при этом сохраняя точность решений. В дальнейшем нам предстоит расширить нашу мето

Abstract

Recently, Test-Time Scaling (TTS) has gained increasing attention for improving LLM reasoning performance at test time without retraining the model. A notable TTS technique is Self-Consistency (SC), which generates multiple reasoning chains in parallel and selects the final answer via majority voting. While effective, the order-of-magnitude computational overhead limits its broad deployment. Prior attempts to accelerate SC mainly rely on model-based confidence scores or heuristics with limited empirical support. For the first time, we theoretically and empirically analyze the inefficiencies of SC and reveal actionable opportunities for improvement. Building on these insights, we propose Slim-SC, a step-wise pruning strategy that identifies and removes redundant chains using inter-chain similarity at the thought level. Experiments on three STEM reasoning datasets and two recent LLM architectures show that Slim-SC reduces inference latency and KVC usage by up to 45% and 26%, respectively, with R1-Distill, while maintaining or improving accuracy, thus offering a simple yet efficient TTS alternative for SC.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Zero-Shot Cross-Lingual Transfer using Prefix-Based Adaptation

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual...

Навигация