Stochastic Clock Attention for Aligning Continuous and Ordered Sequences

2509.14678v1 cs.LG, physics.data-an 2025-09-20
Авторы:

Hyungjoon Soh, Junghyo Jo

Резюме на русском

## Контекст Современные подходы в обработке и анализе данных часто сталкиваются с задачами построения моделей, которые обрабатывают и анализируют последовательности данных, которые могут быть как конт contiного, так и последовательного характера. Несмотря на то, что многие подходы, такие как Transformer, успешно справляются с этими задачами, они часто страдают от проблем с менее ясной моделью взаимосвязей между элементами в последовательностях. Это приводит к ошибкам в моделировании временных рядов, текстов или изображений. Задача построения моделей, которые могут лучше подходить для работы с такими последовательностями, является ключевой мотивацией для развития новых методов. ## Метод Статья предлагает новый подход к моделированию взаимосвязей в последовательностях, который называется Stochastic Clock Attention. Основной идеей является использование гибридной модели, в которой используется "стохастическое часовое значение", изменяющееся в зависимости от того, где находится последовательность. Этот метод позволяет более точно определять взаимосвязи между элементами последовательности, в том числе в тех случаях, когда последовательность имеет непрерывный и последовательный характер. Эта модель построена на основе процесса Monte Carlo и предлагает новый подход к расчету взаимосвязи между элементами последовательности с использованием вероятностной модели, что позволяет оптимизировать результаты моделирования. ## Результаты В рамках исследования проведены несколько экспериментов, в которых использовались разные типы последовательностей, включая текст, звуковые сигналы и видео. На основе результатов этих экспериментов были получены несколько выводов: 1) Модель Stochastic Clock Attention показала себя эффективнее существующих моделей в моделировании временных рядов. 2) Она предоставляет более точные результаты, особенно когда требуется принять во внимание логику последовательности и монотонность в последовательности. 3) Модель продемонстрировала лучшую устойчивость к глобальным изменениям во времени, что является ключевым преимуществом в некоторых задачах, таких как обработка текста и видео. ## Значимость Результаты работы показали, что модель Stochastic Clock Attention может быть применена в различных областях, включая моделирование текстов, видео и звуковых сигналов. Основные преимущества этой модели заключаются в том, что она предоставляет более точные и устойчивые результаты в моделировании последовательностей, а также позволяет лучше принять во внимание логику взаимосвязей в последовательностях. Это может быть ключевым критерием для улучшения точности моделей в различных приложениях, таких как синтез ре

Abstract

We formulate an attention mechanism for continuous and ordered sequences that explicitly functions as an alignment model, which serves as the core of many sequence-to-sequence tasks. Standard scaled dot-product attention relies on positional encodings and masks but does not enforce continuity or monotonicity, which are crucial for frame-synchronous targets. We propose learned nonnegative \emph{clocks} to source and target and model attention as the meeting probability of these clocks; a path-integral derivation yields a closed-form, Gaussian-like scoring rule with an intrinsic bias toward causal, smooth, near-diagonal alignments, without external positional regularizers. The framework supports two complementary regimes: normalized clocks for parallel decoding when a global length is available, and unnormalized clocks for autoregressive decoding -- both nearly-parameter-free, drop-in replacements. In a Transformer text-to-speech testbed, this construction produces more stable alignments and improved robustness to global time-scaling while matching or improving accuracy over scaled dot-product baselines. We hypothesize applicability to other continuous targets, including video and temporal signal modeling.

Ссылки и действия

Связанные статьи

Detail Across Scales: Multi-Scale Enhancement for Full Spectrum Neural Represent...

## Контекст Implicit neural representations (INRs) представляют собой мощный подход к кодированию данных, использующий н...

2025-09-23

OASIS: A Deep Learning Framework for Universal Spectroscopic Analysis Driven by ...

## Контекст Спектроскопические данные широко распространены в различных научных и инженерных областях, требуя эффективн...

2025-09-17