Your thoughts tell who you are: Characterize the reasoning patterns of LRMs

2509.24147v1 cs.CL, cs.AI, cs.LG 2025-10-01
Авторы:

Yida Chen, Yuning Mao, Xianjun Yang, Suyu Ge, Shengjie Bi, Lijuan Liu, Saghar Hosseini, Liang Tan, Yixin Nie, Shaoliang Nie

Резюме на русском

#### Контекст Большие логические модели (Large Reasoning Models, LRMs) становятся все более важными для решения задач, требующих рационального подхода. Однако существует ограниченное понимание того, как различные LRMs обрабатывают задачи, а также отличительные черты их мышления. Этот вопрос значительно ограничивает нашу возможность понять, как модели принимают решения, и почему они достигают разных результатов. Эта неясность является мотивацией для создания метода, позволяющего категоризировать и описывать различия в мышлении LRMs в человекочитаемом виде. Такая информация может быть полезна для улучшения этикологичности, настройки моделей и глубжего понимания их поведения. #### Метод Мы предлагаем LLM-proposed Open Taxonomy (LOT) — метод, который использует генерирующую модель языка для сравнения логических трасс (reasoning traces) двух LRMs и определяет их отличительные черты. LOT использует эти черты для классификации отдельных рассуждений и строит так называемый Open Taxonomy — человекочитаемую категорию, которая описывает как разные LRMs думают. Этот процесс повторяется над большим набором выборок, чтобы получить подробный анализ. Метод LOT также используется для проверки того, как различия в мышлении LRMs влияют на их производительность. Например, мы изучаем, как модели Qwen3 могут улучшить свою производительность, если их мышление будет более похожим на Qwen3 более крупного размера. #### Результаты Мы применяем LOT для сравнения 12 открытых LRMs, охватывающих задачи в области математики, науки и программирования. LOT достигает 80-100% точности при классификации отдельных рассуждений, показывая отличительные черты мышления LRMs. Это демонстрируется на примере того, как модели разных размеров, семейства и областей применения различаются в способе рационализации решений. Мы также изучаем, как эти различия в мышлении влияют на производительность. Например, мы проводим эксперимент, в котором Qwen3 модели с меньшим размером были настроены на мышление, более похожее на более крупную модель Qwen3, что привело к увеличению точности на задаче GPQA на 3.3-5.7%. #### Значимость Результаты LOT имеют значительное значение для нескольких областей. Во-первых, они позволяют понять, как разные LRMs принимают решения, что может улучшить понимание их поведения. Во-вторых, LOT может использоваться для оптимизации моделей, например, для улучшения производительности при различных задачах. В-третьих, эта работа может быть полезна для создания более этичных моделей, которые будут думать с учетом конкретных целей. Таким образом, LOT добавляет важной составляющей в понимание и улучшение логических моделей, позволяя лучше понять, как они работают в разных условиях. ####

Abstract

Current comparisons of large reasoning models (LRMs) focus on macro-level statistics such as task accuracy or reasoning length. Whether different LRMs reason differently remains an open question. To address this gap, we introduce the LLM-proposed Open Taxonomy (LOT), a classification method that uses a generative language model to compare reasoning traces from two LRMs and articulate their distinctive features in words. LOT then models how these features predict the source LRM of a reasoning trace based on their empirical distributions across LRM outputs. Iterating this process over a dataset of reasoning traces yields a human-readable taxonomy that characterizes how models think. We apply LOT to compare the reasoning of 12 open-source LRMs on tasks in math, science, and coding. LOT identifies systematic differences in their thoughts, achieving 80-100% accuracy in distinguishing reasoning traces from LRMs that differ in scale, base model family, or objective domain. Beyond classification, LOT's natural-language taxonomy provides qualitative explanations of how LRMs think differently. Finally, in a case study, we link the reasoning differences to performance: aligning the reasoning style of smaller Qwen3 models with that of the largest Qwen3 during test time improves their accuracy on GPQA by 3.3-5.7%.

Ссылки и действия