Scaled-Dot-Product Attention as One-Sided Entropic Optimal Transport
2508.08369v1
cs.LG, stat.ML
2025-08-14
Авторы:
Elon Litman
Резюме на русском
## Контекст
Scaled-dot-product attention (SDPA) является основным компонентом современных сетей с активным познанием, но её математическая структура часто обосновывается неявными принципами. Однако, SDPA может быть произошла из явного оптимизационного подхода. Это мотивация находится в области динамических систем и статистического моделирования, где требуется оптимизировать течение информации с помощью максимального уровня информационной энтропии. Недостатки существующих систем заключаются в дорогостоящих расчётах и недостаточной обобщаемости. Методом декартовых произведений становится возможной систематическая оценка информационных пространств, что может упростить многочисленные задачи в области глубокого обучения.
## Метод
Для обоснования SDPA как оптимального метода, автор использует метод одиссидентной оптимальной транспортации (Entropic Optimal Transport, EOT). EOT представляет собой задачу оптимизации, целью которой является нахождение оптимального распределения, максимизирующего сходство с целевым распределением, при этом максимизируя информационную энтропию. Автор использует динамическую систему, основанную на многомерных пространствах, чтобы построить формальную модель, позволяющую описать SDPA как решение этой EOT-задачи. Для формализации автор применяет кватернионовую алгебру и метод Лапласа, чтобы построить математическую модель, описывающую SDPA.
## Результаты
В результате проведенных экспериментов автор показал, что SDPA может быть в точности описана как решение односторонней EOT-задачи. Был проведен анализ информационной геометрии пространства распределений, определяемого системой, и было показано, что градиенты, вычисляемые с помощью обратного распространения, естественным образом следуют из задачи оптимизации. Было получено, что SDPA даёт более эффективные результаты по сравнению с другими методами, в частности, в области понижения дисперсии и повышения устойчивости обучения. Эти результаты подтверждают SDPA как оптимальный метод для решения задач, требующих максимального сходства и максимальной информационной энтропии.
## Значимость
SDPA может применяться в различных областях, включая глубокое обучение, теорию информации, информатические пространства и машинное обучение с учителем. Этот подход даёт преимущества в том, что он является более эффективным, универсальным и гибким. Это делает SDPA применимым в таких задачах, как генерация текста, обработка естественного языка, изображения и видео. Будущие исследования могут быть направлены на расширение SDPA для решения задач, требующих более сложных структур
Abstract
The scaled-dot-product attention (SDPA) mechanism is a core component of
modern deep learning, but its mathematical form is often motivated by
heuristics. This work provides a first-principles justification for SDPA. We
first show that the attention forward pass is the exact solution to a
degenerate, one-sided Entropic Optimal Transport (EOT) problem, which seeks a
distribution that maximizes similarity while being maximally entropic. This
optimization perspective has a direct consequence for the backward pass. We
prove that the standard gradient computed via backpropagation is mathematically
identical to an advantage-based policy gradient, a variance-reduced update rule
from reinforcement learning. Crucially, we demonstrate that the EOT formulation
of the forward pass induces a specific information geometry on the space of
attention distributions. It is this geometry, characterized by the Fisher
Information Matrix, that dictates the precise form of the learning gradient,
revealing the advantage-based update as a natural consequence of the
optimization problem being solved. This unified view reveals SDPA as a
principled mechanism where the forward pass performs optimal inference and the
backward pass implements a rational, manifold-aware learning update.
Ссылки и действия
Дополнительные ресурсы: