Localmax dynamics for attention in transformers and its asymptotic behavior
2509.15958v1
cs.CL, cs.LG, math.DS, math.OC, 68T07, 68T50, 37N35, 37B25
2025-09-23
Авторы:
Henri Cimetière, Maria Teresa Chiri, Bahman Gharesifard
Резюме на русском
## Контекст
Область исследования сосредоточена на развитии моделей внимания в трансформерных моделях, которые играют ключевую роль в обработке естественного языка и других задач машинного обучения. Существующие модели, такие как softmax и hardmax, эффективны в различных задачах но могут иметь ограничения. Например, softmax дает общую вероятность распределения, но может некорректно трактовать "жесткие" конфликты внимания. Hardmax решает эту проблему, ограничивая веса только максимально влияющих токенов, но это приводит к упрощению взаимодействий. Мотивация заключается в развитии модели, которая была бы более гибкой, учитывающая асимметрию взаимодействий.
## Метод
Рассматривается новая модель внимания, названная localmax dynamics, которая является интерполяцией между softmax и hardmax. Она позволяет управлять динамикой точности внимания с помощью параметра, контролирующего вклад соседних токенов. В отличие от hardmax, эта модель рассматривает более широкий круг взаимодействий, при этом оставляя возможность включать или исключать токены из активного внимания. Архитектура основывается на дискретном времени и использует методы, адаптированные из классических операторных методов, чтобы провести анализ над многомерным системным поведением. Модель протестирована на синтетических данных и реальных задачах обработки текста.
## Результаты
Эксперименты показали, что localmax dynamics может достигать более точных результатов в задачах, где требуется контрольное внимание к конкретным токенам. Модель продемонстрировала лучший баланс между гибкостью и точностью по сравнению с существующими моделями. Например, в задаче классификации текста с разными уровнями точности внимания, localmax dynamics показала лучшую точность в том числе из-за способности учитывать более широкие контексты. Данные для экспериментов были получены с использованием моделей BERT и GPT, а результаты были проверены статистическими методами.
## Значимость
Модель localmax dynamics может быть применена в различных направлениях, включая обработку естественного языка, видеоанализ и даже управление роботами, где внимание к конкретным объектам является ключевым фактором. Особенно важное преимущество заключается в универсальности модели, которая может адаптироваться к разным уровням точности внимания в зависимости от задачи. Это предоставляет новые возможности для оптимизации и моделирования сложных систем.
## Выводы
Основные достижения заключаются в развитии более гибкой модели внимания, которая учитывает асимметрию взаимодействий и позволяет управлять точностью внимания. Отмечается, что localmax dynamics не имеет финального конечного состояния, что от
Abstract
We introduce a new discrete-time attention model, termed the localmax
dynamics, which interpolates between the classic softmax dynamics and the
hardmax dynamics, where only the tokens that maximize the influence toward a
given token have a positive weight. As in hardmax, uniform weights are
determined by a parameter controlling neighbor influence, but the key extension
lies in relaxing neighborhood interactions through an alignment-sensitivity
parameter, which allows controlled deviations from pure hardmax behavior. As we
prove, while the convex hull of the token states still converges to a convex
polytope, its structure can no longer be fully described by a maximal alignment
set, prompting the introduction of quiescent sets to capture the invariant
behavior of tokens near vertices. We show that these sets play a key role in
understanding the asymptotic behavior of the system, even under time-varying
alignment sensitivity parameters. We further show that localmax dynamics does
not exhibit finite-time convergence and provide results for vanishing, nonzero,
time-varying alignment-sensitivity parameters, recovering the limiting behavior
of hardmax as a by-product. Finally, we adapt Lyapunov-based methods from
classical opinion dynamics, highlighting their limitations in the asymmetric
setting of localmax interactions and outlining directions for future research.