LLM Assertiveness can be Mechanistically Decomposed into Emotional and Logical Components

2508.17182v1 cs.LG, cs.AI, cs.CL 2025-08-27
Авторы:

Hikaru Tsujimura, Arush Tagade

Резюме на русском

Описание: Статья LLM Assertiveness Can Be Mechanistically Decomposed into Emotional and Logical Components изучает проблему высокой уверенности (assertiveness) в выдаче ответов бо LARGE LANGUAGE MODELS (LLMs). Эта проблема возникает в высоком контексте, когда LLMs придают свои позиции особой уверенностью, несмотря на недостаточную или несокращенную доказательственную базу. Такое поведение может быть опасным в критически важных ситуациях. Авторы предпринимают попытку разобраться в причинах этого поведения, анализируя внутренние механизмы, которые приводят к тем или иным решениям. ## Контекст В настоящее время LLMs становятся все более присутствующими в нашей повседневной жизни, особенно в сферах, где точность и качество ответов критически важны. Тем не менее, при работе с LLMs возникают некоторые проблемы, вроде превосходства их уверенности в ответах, которая иногда берется на себя более тщательно рассмотренные выводы. Этот "склонность к уверенности" может привести к неверным выводам, особенно когда требуется специализированная информация. Общий характер данной проблемы заключается в том, что LLMs не всегда достаточно тщательно разбираются в поставленной задаче, а скорее говорят то, что могут показаться достаточно уверенными. Авторы исследуют этот вопрос, взяв за основу исследование определённого механизма, называемого **assertiveness**, и пытаются разобраться, каким образом он влияет на работу LLMs. ## Метод Чтобы изучить проблему с assertiveness в LLMs, авторы применяют модель Llama 3.2, которая была приучена на открытые наборы данных, связанных с assertiveness. Эта модель позволяет изучать внутренние механизмы LLMs, разбирая данные по каждому выходу модели. Авторы используют специальные методы интерпретации моделей, такие как расчёт сходства между реакциями модели и откликами на assertiveness в заданных данных. Таким образом, они могут выявить, какие слои модели наиболее влияют на уровень assertiveness в ответах. Для определения того, каким образом assertiveness влияет на модель, авторы построили специальные векторы, которые позволяют явно заметить как эмоциональные, так и логические стороны уверенности в ответах. ## Результаты В результате исследований авторы выявили, что assertiveness в LLMs может быть разделена на две основные компоненты: эмоциональную и логическую. Эмоциональная компонента, как правило, влияет на общий характер ответа, в то время как логическая компонента оказывает более локализованное влияние на конкретные части ответа. Авторы также выявили, что каждая из компонент имеет свои характерные влияния. Например, эмоциональный вектор влияет на общую степень точности ответа, в то время как логический вектор влияет только на конкретные части ответ

Abstract

Large Language Models (LLMs) often display overconfidence, presenting information with unwarranted certainty in high-stakes contexts. We investigate the internal basis of this behavior via mechanistic interpretability. Using open-sourced Llama 3.2 models fine-tuned on human annotated assertiveness datasets, we extract residual activations across all layers, and compute similarity metrics to localize assertive representations. Our analysis identifies layers most sensitive to assertiveness contrasts and reveals that high-assertive representations decompose into two orthogonal sub-components of emotional and logical clusters-paralleling the dual-route Elaboration Likelihood Model in Psychology. Steering vectors derived from these sub-components show distinct causal effects: emotional vectors broadly influence prediction accuracy, while logical vectors exert more localized effects. These findings provide mechanistic evidence for the multi-component structure of LLM assertiveness and highlight avenues for mitigating overconfident behavior.

Ссылки и действия