Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful Post-hoc Rationalisation?
2508.19827v1
cs.AI, cs.CL
2025-08-29
Авторы:
Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, Nikolaos Aletras
Резюме на русском
#### Контекст
Проблема анализа цепи мыслительных операций (Chain of Thought, CoT) в искусственном интеллекте заключается в том, что данный подход часто дает ограниченные выгоды в решении задач мягкой расуждения (soft-reasoning), таких как аналитическое и коммонсенс-решение. Более того, CoT может быть недостоверным в отражении истинных мыслительных процессов модели. Недостаточность CoT особенно заметна в случае задач, требующих логического рассуждения и интуитивного понимания контекста. Исследователи стараются развить методы, позволяющие более точно проанализировать и стабилизировать цепь мыслительных операций в таких задачах. Это включает исследования воздействия различных архитектур моделей, включая instruction-tuned, reasoning и reasoning-distilled, на качество и надежность цепи мыслительных операций.
#### Метод
Для исследования динамики и надежности CoT в мягких задачах рассуждения (soft-reasoning), авторы применяют метод экспериментального сравнения моделей с различными архитектурами. Модели instruction-tuned, reasoning и reasoning-distilled проверяются на задачах, требующих аналитических и коммонсенс-решений. Для оценки доверия к CoT используется метод сравнения результатов моделей с примерами ручного рассуждения. Также в рамках исследования используются метрики, позволяющие оценить качество проделанной работы и точность CoT. Было проведено ряд экспериментов с разным набором данных, включая как синтетические, так и реальные ситуации.
#### Результаты
Отчет о результатах работы показывает различия в зависимости от архитектуры модели. Было выявлено, что instruction-tuned модели гораздо эффективнее в производительности CoT на задачах, требующих анализа и коммонсенса. Наблюдается то, что CoT может быть недостоверным в отражении истинных мыслительных процессов. Также исследователи выявили ситуации, когда увеличение надежности CoT приводит к ухудшению качества решения задач. В целом, результаты показывают, что есть различия в качестве CoT между разными моделями и что CoT не всегда отражает точно мыслительные операции модели.
#### Значимость
Результаты исследования могут быть применены для улучшения алгоритмов в АПИ и ИИ, которые используются в различных сферах, включая медицину, финансы и юриспруденцию. Изучение CoT может помочь в создании более надежной и прозрачной модели мышления в искусственном интеллекте. Преимущества исследования в том, что оно позволяет детально проанализировать взаимосвязь между CoT и реальными мыслительными процессами, и может привести к развитию моделей, которые будут более достоверно отражать свои мыслительные процессы. Это может положительно сказаться на доверии пользователей к
Abstract
Recent work has demonstrated that Chain-of-Thought (CoT) often yields limited
gains for soft-reasoning problems such as analytical and commonsense reasoning.
CoT can also be unfaithful to a model's actual reasoning. We investigate the
dynamics and faithfulness of CoT in soft-reasoning tasks across
instruction-tuned, reasoning and reasoning-distilled models. Our findings
reveal differences in how these models rely on CoT, and show that CoT influence
and faithfulness are not always aligned.
Ссылки и действия
Дополнительные ресурсы: