Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful Post-hoc Rationalisation?

2508.19827v1 cs.AI, cs.CL 2025-08-29
Авторы:

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, Nikolaos Aletras

Резюме на русском

#### Контекст Проблема анализа цепи мыслительных операций (Chain of Thought, CoT) в искусственном интеллекте заключается в том, что данный подход часто дает ограниченные выгоды в решении задач мягкой расуждения (soft-reasoning), таких как аналитическое и коммонсенс-решение. Более того, CoT может быть недостоверным в отражении истинных мыслительных процессов модели. Недостаточность CoT особенно заметна в случае задач, требующих логического рассуждения и интуитивного понимания контекста. Исследователи стараются развить методы, позволяющие более точно проанализировать и стабилизировать цепь мыслительных операций в таких задачах. Это включает исследования воздействия различных архитектур моделей, включая instruction-tuned, reasoning и reasoning-distilled, на качество и надежность цепи мыслительных операций. #### Метод Для исследования динамики и надежности CoT в мягких задачах рассуждения (soft-reasoning), авторы применяют метод экспериментального сравнения моделей с различными архитектурами. Модели instruction-tuned, reasoning и reasoning-distilled проверяются на задачах, требующих аналитических и коммонсенс-решений. Для оценки доверия к CoT используется метод сравнения результатов моделей с примерами ручного рассуждения. Также в рамках исследования используются метрики, позволяющие оценить качество проделанной работы и точность CoT. Было проведено ряд экспериментов с разным набором данных, включая как синтетические, так и реальные ситуации. #### Результаты Отчет о результатах работы показывает различия в зависимости от архитектуры модели. Было выявлено, что instruction-tuned модели гораздо эффективнее в производительности CoT на задачах, требующих анализа и коммонсенса. Наблюдается то, что CoT может быть недостоверным в отражении истинных мыслительных процессов. Также исследователи выявили ситуации, когда увеличение надежности CoT приводит к ухудшению качества решения задач. В целом, результаты показывают, что есть различия в качестве CoT между разными моделями и что CoT не всегда отражает точно мыслительные операции модели. #### Значимость Результаты исследования могут быть применены для улучшения алгоритмов в АПИ и ИИ, которые используются в различных сферах, включая медицину, финансы и юриспруденцию. Изучение CoT может помочь в создании более надежной и прозрачной модели мышления в искусственном интеллекте. Преимущества исследования в том, что оно позволяет детально проанализировать взаимосвязь между CoT и реальными мыслительными процессами, и может привести к развитию моделей, которые будут более достоверно отражать свои мыслительные процессы. Это может положительно сказаться на доверии пользователей к

Abstract

Recent work has demonstrated that Chain-of-Thought (CoT) often yields limited gains for soft-reasoning problems such as analytical and commonsense reasoning. CoT can also be unfaithful to a model's actual reasoning. We investigate the dynamics and faithfulness of CoT in soft-reasoning tasks across instruction-tuned, reasoning and reasoning-distilled models. Our findings reveal differences in how these models rely on CoT, and show that CoT influence and faithfulness are not always aligned.

Ссылки и действия