CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization
2508.04566v1
cs.CV, cs.AI, cs.MM
2025-08-08
Авторы:
Jinxing Zhou, Ziheng Zhou, Yanghao Zhou, Yuxin Mao, Zhangling Duan, Dan Guo
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Задача Dense Audio-Visual Event Localization (DAVEL) заключается в выявлении и точной временной локализации событий в нетриммированных видеозаписях, которые происходят одновременно в аудио- и визуальных модальностях. Традиционные подходы к DAVEL полагаются на полное временное аннотирование данных, где для каждого события указаны точные начальные и конечные временные границы. Однако создание таких детализированных аннотаций требует значительных человеческих ресурсов и временных затрат, что ограничивает масштабируемость решений и применимость методов в реальных сценариях.
Новая и более сложная постановка задачи, предложенная в статье - Weakly-supervised Dense Audio-Visual Event Localization (W-DAVEL) - устраняет необходимость в детальных временных аннотациях. В этой постановке доступны только видео-уровневые метки событий, без какой-либо информации о том, когда именно эти события происходят в течение видео. Это создает фундаментальную проблему: как обучить модель точно локализовать события во времени, имея только информацию о наличии событий в видео в целом?
Основная сложность W-DAVEL заключается в необходимости одновременно справляться с двумя типами неопределенности: во-первых, неопределенностью временных границ событий из-за отсутствия детальных аннотаций, и во-вторых, неопределенностью межмодального соответствия между аудио и визуальными сигналами. Традиционные методы обучения слабой супервизии, такие как Multiple Instance Learning (MIL), плохо переносятся на межмодальную аудио-визуальную локализацию из-за сложности установления соответствия между двумя различными модальностями и необходимости учета их временной синхронизации.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы предлагают инновационный метод CLASP (Cross-modal Salient Anchor-based Semantic Propagation), который решает проблему W-DAVEL через идентификацию и использование "кросс-модальных салиентных якорей" - надежных временных меток, которые хорошо предсказываются даже при слабом супервизии и демонстрируют высокую консистентность семантики событий между аудио- и визуальными модальностями.
Методология CLASP состоит из трех ключевых компонентов. Первый - модуль Mutual Event Agreement Evaluation (MEAE), который генерирует согласованную оценку, измеряя расхождение между предсказанными аудио- и визуальными классами событий. Этот модуль работает путем сравнения вероятностных распределений событий, полученных из каждой модальности, и вычисления метрики согласия, которая указывает на степень межмодальной консистентности в каждый момент времени.
Второй компонент - Cross-modal Salient Anchor Identification (CSAI), который использует оценки согласия для идентификации якорных признаков в аудио и визуальных потоках. Этот модуль работает на двух уровнях: глобальном (на уровне всего видео) и локальном (в пределах временных окон). На глобальном уровне выбираются наиболее надежные временные метки, которые демонстрируют наивысшее согласие между модальностями. На локальном уровне происходит уточнение выбора в контексте временных соседей для обеспечения временной гладкости и устойчивости.
Третий компонент - Anchor-based Temporal Propagation (ATP) - использует идентифицированные якорные признаки для улучшения семантического кодирования событий в исходных временных аудио- и визуальных признаках. Это достигается через механизм распространения семантической информации от якорных точек к соседним временным меткам, что позволяет улучшить качество временной локализации событий даже при слабом супервизии. Межмодальная интеграция якорных признаков обеспечивает синхронизацию аудио-визуальной информации и усиление сигналов, подтверждающих наличие событий.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели обширную экспериментальную оценку предложенного метода на двух крупных датасетах: UnAV-100 и ActivityNet1.3, которые были адаптированы для задачи W-DAVEL. Эти датасеты представляют собой разнообразные видеоматериалы с аудио-визуальными событиями, охватывающие широкий спектр жанров и сценариев, от повседневных активностей до специализированных действий.
В экспериментах использовались стандартные метрики оценки качества временной локализации событий, включая mean Average Precision (m
Abstract
The Dense Audio-Visual Event Localization (DAVEL) task aims to temporally
localize events in untrimmed videos that occur simultaneously in both the audio
and visual modalities. This paper explores DAVEL under a new and more
challenging weakly-supervised setting (W-DAVEL task), where only video-level
event labels are provided and the temporal boundaries of each event are
unknown. We address W-DAVEL by exploiting \textit{cross-modal salient anchors},
which are defined as reliable timestamps that are well predicted under weak
supervision and exhibit highly consistent event semantics across audio and
visual modalities. Specifically, we propose a \textit{Mutual Event Agreement
Evaluation} module, which generates an agreement score by measuring the
discrepancy between the predicted audio and visual event classes. Then, the
agreement score is utilized in a \textit{Cross-modal Salient Anchor
Identification} module, which identifies the audio and visual anchor features
through global-video and local temporal window identification mechanisms. The
anchor features after multimodal integration are fed into an
\textit{Anchor-based Temporal Propagation} module to enhance event semantic
encoding in the original temporal audio and visual features, facilitating
better temporal localization under weak supervision. We establish benchmarks
for W-DAVEL on both the UnAV-100 and ActivityNet1.3 datasets. Extensive
experiments demonstrate that our method achieves state-of-the-art performance.
Ссылки и действия
Дополнительные ресурсы: