Stochastic Clock Attention for Aligning Continuous and Ordered Sequences
2509.14678v1
cs.LG, physics.data-an
2025-09-20
Авторы:
Hyungjoon Soh, Junghyo Jo
Резюме на русском
## Контекст
Современные подходы в обработке и анализе данных часто сталкиваются с задачами построения моделей, которые обрабатывают и анализируют последовательности данных, которые могут быть как конт contiного, так и последовательного характера. Несмотря на то, что многие подходы, такие как Transformer, успешно справляются с этими задачами, они часто страдают от проблем с менее ясной моделью взаимосвязей между элементами в последовательностях. Это приводит к ошибкам в моделировании временных рядов, текстов или изображений. Задача построения моделей, которые могут лучше подходить для работы с такими последовательностями, является ключевой мотивацией для развития новых методов.
## Метод
Статья предлагает новый подход к моделированию взаимосвязей в последовательностях, который называется Stochastic Clock Attention. Основной идеей является использование гибридной модели, в которой используется "стохастическое часовое значение", изменяющееся в зависимости от того, где находится последовательность. Этот метод позволяет более точно определять взаимосвязи между элементами последовательности, в том числе в тех случаях, когда последовательность имеет непрерывный и последовательный характер. Эта модель построена на основе процесса Monte Carlo и предлагает новый подход к расчету взаимосвязи между элементами последовательности с использованием вероятностной модели, что позволяет оптимизировать результаты моделирования.
## Результаты
В рамках исследования проведены несколько экспериментов, в которых использовались разные типы последовательностей, включая текст, звуковые сигналы и видео. На основе результатов этих экспериментов были получены несколько выводов: 1) Модель Stochastic Clock Attention показала себя эффективнее существующих моделей в моделировании временных рядов. 2) Она предоставляет более точные результаты, особенно когда требуется принять во внимание логику последовательности и монотонность в последовательности. 3) Модель продемонстрировала лучшую устойчивость к глобальным изменениям во времени, что является ключевым преимуществом в некоторых задачах, таких как обработка текста и видео.
## Значимость
Результаты работы показали, что модель Stochastic Clock Attention может быть применена в различных областях, включая моделирование текстов, видео и звуковых сигналов. Основные преимущества этой модели заключаются в том, что она предоставляет более точные и устойчивые результаты в моделировании последовательностей, а также позволяет лучше принять во внимание логику взаимосвязей в последовательностях. Это может быть ключевым критерием для улучшения точности моделей в различных приложениях, таких как синтез ре
Abstract
We formulate an attention mechanism for continuous and ordered sequences that
explicitly functions as an alignment model, which serves as the core of many
sequence-to-sequence tasks. Standard scaled dot-product attention relies on
positional encodings and masks but does not enforce continuity or monotonicity,
which are crucial for frame-synchronous targets. We propose learned nonnegative
\emph{clocks} to source and target and model attention as the meeting
probability of these clocks; a path-integral derivation yields a closed-form,
Gaussian-like scoring rule with an intrinsic bias toward causal, smooth,
near-diagonal alignments, without external positional regularizers. The
framework supports two complementary regimes: normalized clocks for parallel
decoding when a global length is available, and unnormalized clocks for
autoregressive decoding -- both nearly-parameter-free, drop-in replacements. In
a Transformer text-to-speech testbed, this construction produces more stable
alignments and improved robustness to global time-scaling while matching or
improving accuracy over scaled dot-product baselines. We hypothesize
applicability to other continuous targets, including video and temporal signal
modeling.
Ссылки и действия
Дополнительные ресурсы: