StyleBench: Evaluating thinking styles in Large Language Models

2509.20868v1 cs.LG, cs.AI, cs.CL 2025-09-27
Авторы:

Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei

Резюме на русском

## Контекст Ларже Лангуэдж Моделы (LLMs) широко используются для решения различных задач, включая генерацию текста, ответы на вопросы, трансформацию форматов, контентную генерацию и др. Однако эффективность этих моделей сильно зависит от используемых в процессе работы разума и согласованности стиля мышления. На данный момент, существует несколько стилей мышления, таких как Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT) и Chain-of-Draft (CoD). Несмотря на то, что у каждого стиля есть свои преимущества и недостатки, большинство тестирований проводились на отдельных моделях и задачах, что не позволяет получить полную картину их влияния на различные задачи и модели. В результате, возникает необходимость в разработке комплексного бенчмарка для тестирования и сравнения различных стилей мышления в LLMs. ## Метод Проведено значительное количество экспериментов, в которых 15 открытых моделей (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, DeepSeek) с параметрами от 270M до 120B были оценены на 5 различных задачах, используя 5 опций стиля мышления. Эти задачи включали в себя простые задачи форматирования, сложные задачи логического размышления и задачи с требованиями к поисковому процессу. Модели протестированы на различных уровнях параметров, чтобы понять, как масштаб модели влияет на ее возможности решать задачи с различными стилями мышления. Также были изучены архитектурные особенности моделей в различных задачах, чтобы понять, как они влияют на результат. ## Результаты На основе проведенных экспериментов выяснилось, что нет одного оптимального стиля мышления, который был бы эффективен для всех задач и моделей. Например, для работы с открытыми задачами (например, трансформация форматов), были самыми эффективными стили "Tree of Thought" (ToT) и "Algorithm of Thought" (AoT), которые демонстрировали высокую точность решений. Однако для задач с малой степенью неопределенности (таких как составление простых отчетов), были эффективными более короткие стили, такие как "Sketch of Thought" (SoT) и "Chain-of-Draft" (CoD), которые позволили экономить ресурсы, но при этом не уменьшили качество решения. Также были выявлены тенденции, когда малые модели часто не смогли выполнить инструкции или ошибались в выводах из-за недостатка параметров. ## Значимость Результаты данного исследования имеют значительное значение для развития систем машинного обучения. Бенчмарк StyleBench дает возможность глубокого понимания того, как различные стили мышления влияют на решения различных задач и модели. Это может быть использовано для выбора оптимальных стилей для конкретных задач, чтобы максимально эффективно использовать моде

Abstract

The effectiveness of Large Language Models (LLMs) is heavily influenced by the reasoning strategies, or styles of thought, employed in their prompts. However, the interplay between these reasoning styles, model architecture, and task type remains poorly understood. To address this, we introduce StyleBench, a comprehensive benchmark for systematically evaluating reasoning styles across diverse tasks and models. We assess five representative reasoning styles, including Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT), and Chain-of-Draft (CoD) on five reasoning tasks, using 15 open-source models from major families (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, and DeepSeek) ranging from 270M to 120B parameters. Our large-scale analysis reveals that no single style is universally optimal. We demonstrate that strategy efficacy is highly contingent on both model scale and task type: search-based methods (AoT, ToT) excel in open-ended problems but require large-scale models, while concise styles (SoT, CoD) achieve radical efficiency gains on well-defined tasks. Furthermore, we identify key behavioral patterns: smaller models frequently fail to follow output instructions and default to guessing, while reasoning robustness emerges as a function of scale. Our findings offer a crucial roadmap for selecting optimal reasoning strategies based on specific constraints, we open source the benchmark in https://github.com/JamesJunyuGuo/Style_Bench.

Ссылки и действия