From Indirect Object Identification to Syllogisms: Exploring Binary Mechanisms in Transformer Circuits

2508.16109v1 cs.CL, cs.LG 2025-08-26
Авторы:

Karim Saraipour, Shichang Zhang

Резюме на русском

#### Контекст Transformer-based language models (LMs) стали мощным инструментом для решения различных задач, от генерации текста до экспертных выводов. Однако, несмотря на их выдающиеся результаты, есть относительно мало исследований, которые раскрывают механизмы, позволяющие им выполнять такие задачи. Механистическая интерпретируемость (MI) целиком базируется на этом понятии, стремясь разбить модели на отдельные компоненты, чтобы детально изучить их функционирование. До этого широко изучались такие задачи, как Indirect Object Identification (IOI), но они требуют менее сложного логического рассуждения. В этой работе мы исследуем GPT-2 small с помощью бинарных логических задач силлогизмов, таких как: "Объект A имеет свойство P. Объект B также имеет свойство P. Объект B также имеет свойство Q." Это требует гораздо большего уровня логического мозгового штурма, чем IOI. #### Метод Мы строим наши эксперименты на основе GPT-2 small, используя специально сконструированные силлогистические задачи, которые включают в себя сложные логические выводы. Для этого мы исследуем работу нескольких моделей, включая нейросетевые архитектуры, и используем метрики для оценки точности их вывода. Мы также проводим вычислительные эксперименты, чтобы проанализировать вклад отдельных слоев модели в выполнение сложных задач. Особое внимание уделяется поведению модели при работе с негативными токенами, которые не присутствуют в исходном вводе. #### Результаты Мы выявляем несколько отдельных системных механизмов, которые обеспечивают выполнение задач силлогизмов. Например, мы обнаруживаем, что GPT-2 small может производить негативные токены, которые не присутствуют в исходном вводе, при помощи специальных "негативных голов" (negative heads). Мы измеряем степень вклада каждого отдельного элемента модели в выполнение задачи, используя метрику faithfulness (точность). Наши результаты показывают, что модель способна решать задачи силлогизмов с уровнем достоверности, превышающим 90% от стандартного результата модели. Также мы выявляем, как различные слои модели взаимодействуют в ходе выполнения задач. #### Значимость Наши находки могут быть применимы в широком кругу задач, включая логическое моделирование, восприятие языка и системы управления. Изучение бинарных механизмов может способствовать созданию более эффективных алгоритмов для работы с логическими задачами. Также наши результаты могут иметь влияние на развитие новых методов механистической интерпретации, включая улучшение интеллектуальных систем и расширение возможностей трансформеров. #### Выводы Мы демонстрируем, что G

Abstract

Transformer-based language models (LMs) can perform a wide range of tasks, and mechanistic interpretability (MI) aims to reverse engineer the components responsible for task completion to understand their behavior. Previous MI research has focused on linguistic tasks such as Indirect Object Identification (IOI). In this paper, we investigate the ability of GPT-2 small to handle binary truth values by analyzing its behavior with syllogistic prompts, e.g., "Statement A is true. Statement B matches statement A. Statement B is", which requires more complex logical reasoning compared to IOI. Through our analysis of several syllogism tasks of varying difficulty, we identify multiple circuits that mechanistically explain GPT-2's logical-reasoning capabilities and uncover binary mechanisms that facilitate task completion, including the ability to produce a negated token not present in the input prompt through negative heads. Our evaluation using a faithfulness metric shows that a circuit comprising five attention heads achieves over 90% of the original model's performance. By relating our findings to IOI analysis, we provide new insights into the roles of specific attention heads and MLPs in LMs. These insights contribute to a broader understanding of model reasoning and support future research in mechanistic interpretability.

Ссылки и действия