Activation Transport Operators

2508.17540v1 cs.LG, cs.AI, cs.CL 2025-08-27
Авторы:

Andrzej Szablewski, Marek Masiak

Резюме на русском

#################### ## Контекст #################### В последние несколько лет трансформеры стали основополагающей архитектурой для различных задач машинного обучения, включая текстовую подготовку, генерацию текста и даже обработку изображений. Одна из ключевых особенностей трансформеров — это их слои, которые обрабатывают информацию с помощью нелинейных операций. Однако механизм, по которому эта информация перемещается между слоями, часто остается недостаточно исследованным. Это может привести к непредсказуемым поведениям моделей, в том числе к нежелательным эффектам, таким как jailbreaking. Более того, понимание этого процесса может помочь в раннем выявлении и исправлении ошибок модели. В данной работе мы формулируем цель: изучить, как линейные и нелинейные операции взаимодействуют внутри моделей трансформеров, сформулировать универсальные методы для определения линейного характера перемещения информации и оценить его важность в работе моделей. #################### ## Метод #################### Мы предлагаем Activation Transport Operators (ATO) — новую методологию для изучения линейного перемещения информации в моделях трансформеров. ATO представляют собой линейные операторы, которые могут определить, была ли некоторая информация линейно перенесена из одного слоя в другой, или была синтезирована нелинейной слойскими операциями. Мы используем SAE-проекции для оценки этих операторов в пространстве признаков. Для оценки эффективности линейного перемещения мы вводим понятие "transport efficiency" — меру того, насколько значительна линейная составляющая в перемещении информации. Также мы оцениваем размер подпространства в residual stream, которое принадлежит линейному перемещению. Одним из основных преимуществ ATO является их низкий расход вычислительных ресурсов — метод не требует тюнинга модели и может быть запущен за несколько часов на GPU. #################### ## Результаты #################### Мы проводим эксперименты на нескольких моделях transformer, включая GPT-2 и GPT-3. Мы проверяем, насколько хорошо ATO могут определить, была ли некоторая информация линейно перенесена из одного слоя в другой. Наши результаты показывают, что ATO демонстрирует высокую точность в определении линейного характера перемещения информации. Мы также исследуем размер подпространства, ответственного за линейный перемещение, и демонстрируем, что он составляет примерно 10-20% от общего размера резидуального потока. Эти результаты подтверждают, что многие операции в моделях transformer проходят через линейные механизмы, что может быть использовано для более точного моделирования и надежнейных защит от jailbreaking. #################### ## Значимость #################### Наши результаты име

Abstract

The residual stream mediates communication between transformer decoder layers via linear reads and writes of non-linear computations. While sparse-dictionary learning-based methods locate features in the residual stream, and activation patching methods discover circuits within the model, the mechanism by which features flow through the residual stream remains understudied. Understanding this dynamic can better inform jailbreaking protections, enable early detection of model mistakes, and their correction. In this work, we propose Activation Transport Operators (ATO), linear maps from upstream to downstream residuals $k$ layers later, evaluated in feature space using downstream SAE decoder projections. We empirically demonstrate that these operators can determine whether a feature has been linearly transported from a previous layer or synthesised from non-linear layer computation. We develop the notion of transport efficiency, for which we provide an upper bound, and use it to estimate the size of the residual stream subspace that corresponds to linear transport. We empirically demonstrate the linear transport, report transport efficiency and the size of the residual stream's subspace involved in linear transport. This compute-light (no finetuning, <50 GPU-h) method offers practical tools for safety, debugging, and a clearer picture of where computation in LLMs behaves linearly.

Ссылки и действия