Scaled-Dot-Product Attention as One-Sided Entropic Optimal Transport

2508.08369v1 cs.LG, stat.ML 2025-08-14

Авторы:

Elon Litman

Резюме на русском

## Контекст Scaled-dot-product attention (SDPA) является основным компонентом современных сетей с активным познанием, но её математическая структура часто обосновывается неявными принципами. Однако, SDPA может быть произошла из явного оптимизационного подхода. Это мотивация находится в области динамических систем и статистического моделирования, где требуется оптимизировать течение информации с помощью максимального уровня информационной энтропии. Недостатки существующих систем заключаются в дорогостоящих расчётах и недостаточной обобщаемости. Методом декартовых произведений становится возможной систематическая оценка информационных пространств, что может упростить многочисленные задачи в области глубокого обучения. ## Метод Для обоснования SDPA как оптимального метода, автор использует метод одиссидентной оптимальной транспортации (Entropic Optimal Transport, EOT). EOT представляет собой задачу оптимизации, целью которой является нахождение оптимального распределения, максимизирующего сходство с целевым распределением, при этом максимизируя информационную энтропию. Автор использует динамическую систему, основанную на многомерных пространствах, чтобы построить формальную модель, позволяющую описать SDPA как решение этой EOT-задачи. Для формализации автор применяет кватернионовую алгебру и метод Лапласа, чтобы построить математическую модель, описывающую SDPA. ## Результаты В результате проведенных экспериментов автор показал, что SDPA может быть в точности описана как решение односторонней EOT-задачи. Был проведен анализ информационной геометрии пространства распределений, определяемого системой, и было показано, что градиенты, вычисляемые с помощью обратного распространения, естественным образом следуют из задачи оптимизации. Было получено, что SDPA даёт более эффективные результаты по сравнению с другими методами, в частности, в области понижения дисперсии и повышения устойчивости обучения. Эти результаты подтверждают SDPA как оптимальный метод для решения задач, требующих максимального сходства и максимальной информационной энтропии. ## Значимость SDPA может применяться в различных областях, включая глубокое обучение, теорию информации, информатические пространства и машинное обучение с учителем. Этот подход даёт преимущества в том, что он является более эффективным, универсальным и гибким. Это делает SDPA применимым в таких задачах, как генерация текста, обработка естественного языка, изображения и видео. Будущие исследования могут быть направлены на расширение SDPA для решения задач, требующих более сложных структур

Abstract

The scaled-dot-product attention (SDPA) mechanism is a core component of modern deep learning, but its mathematical form is often motivated by heuristics. This work provides a first-principles justification for SDPA. We first show that the attention forward pass is the exact solution to a degenerate, one-sided Entropic Optimal Transport (EOT) problem, which seeks a distribution that maximizes similarity while being maximally entropic. This optimization perspective has a direct consequence for the backward pass. We prove that the standard gradient computed via backpropagation is mathematically identical to an advantage-based policy gradient, a variance-reduced update rule from reinforcement learning. Crucially, we demonstrate that the EOT formulation of the forward pass induces a specific information geometry on the space of attention distributions. It is this geometry, characterized by the Fisher Information Matrix, that dictates the precise form of the learning gradient, revealing the advantage-based update as a natural consequence of the optimization problem being solved. This unified view reveals SDPA as a principled mechanism where the forward pass performs optimal inference and the backward pass implements a rational, manifold-aware learning update.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Scaled-Dot-Product Attention as One-Sided Entropic Optimal Transport

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in ...

Tuning-Free Structured Sparse Recovery of Multiple Measurement Vectors using Imp...

GaussDetect-LiNGAM:Causal Direction Identification without Gaussianity test

Parameter-Efficient Augment Plugin for Class-Incremental Learning

Mitigating the Curse of Detail: Scaling Arguments for Feature Learning and Sampl...

Навигация