AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition

2508.07608v1 cs.MM, cs.CV, cs.SD, eess.AS 2025-08-13
Авторы:

Junxiao Xue, Xiaozhen Liu, Xuecheng Wu, Xinyi Yin, Danlei Huang, Fei Yu

Резюме на русском

## Контекст Аудио-визуальная речевая распознавание (AVSR) широко применяется для улучшения распознавания речи в шумных условиях, слиянием сигналов аудио и визуальных модальностей. Однако, большинство существующих подходов ограничиваются простыми моделями симметричного объединения модальностей или единонаправленным усилением, что приводит к неэффективной обработке характерных асимметрий во входных данных. Это снижает работу моделей в условиях, где аудио и визуальные сигналы имеют разные уровни важности. Наша модель AD-AVSR предлагает новую архитектуру, основанную на бинарной модальной поддержке, чтобы улучшить глубину и точность распознавания в таких ситуациях. ## Метод Мы предлагаем фреймворм AD-AVSR, основанный на бинарной модальной расширяющей стратегии. Аудио-сигнал обрабатывается двумя разными потоками, чтобы охватить разные аспекты сигнала, и искусственно сформировать неоднородность, которая помогает в будущем совместном использовании аудио и визуальных модальностей. Модули, используемые для улучшения, включают: Audio-aware Visual Refinement Module, который улучшает визуальные сигналы, и Cross-modal Noise Suppression Masking Module, который улучшает аудио-сигналы с помощью визуальных указателей. Это создает замкнутый цикл обработки, в котором аудио и визуальные модальности взаимодействуют друг с другом. Для улучшения корреляции мы также применяем механизм уточненного выбора, который отсеивает неудачные пары. ## Результаты Мы проводили эксперименты на двух наборах данных: LRS2 и LRS3. Наши результаты показали, что AD-AVSR превышает существующие методы в роде noise robustness и speech recognition accuracy. Мы также провели анализ дополнительных экспериментов, подтверждающих эффективность нашей модели в условиях асимметричных входных данных. Наша модель демонстрирует значительное улучшение сравнительно с однонаправленными подходами. ## Значимость Предложенная модель AD-AVSR имеет широкое применение в сценариях, где качество распознавания речи требует высокой точности в шумных условиях, таких как беспроводные устройства, звонки в шумных местах и видеоконференции. Модель эффективно обрабатывает асимметричные сигналы и показывает высокую устойчивость к шумам. Благодаря своей архитектуре, AD-AVSR может быть применена в различных приложениях, включая видео-сенсорные системы, автоматическое распознавание речи в разговорных ситуациях и улучшение речевых интерфейсов в системах контроля голосом. ## Выводы Мы представили новую модель AD-AVSR для AVSR, основанную на бинарной модальной поддержке. Наши эксперименты показали, что она превосходи

Abstract

Audio-visual speech recognition (AVSR) combines audio-visual modalities to improve speech recognition, especially in noisy environments. However, most existing methods deploy the unidirectional enhancement or symmetric fusion manner, which limits their capability to capture heterogeneous and complementary correlations of audio-visual data-especially under asymmetric information conditions. To tackle these gaps, we introduce a new AVSR framework termed AD-AVSR based on bidirectional modality enhancement. Specifically, we first introduce the audio dual-stream encoding strategy to enrich audio representations from multiple perspectives and intentionally establish asymmetry to support subsequent cross-modal interactions. The enhancement process involves two key components, Audio-aware Visual Refinement Module for enhanced visual representations under audio guidance, and Cross-modal Noise Suppression Masking Module which refines audio representations using visual cues, collaboratively leading to the closed-loop and bidirectional information flow. To further enhance correlation robustness, we adopt a threshold-based selection mechanism to filter out irrelevant or weakly correlated audio-visual pairs. Extensive experimental results on the LRS2 and LRS3 datasets indicate that our AD-AVSR consistently surpasses SOTA methods in both performance and noise robustness, highlighting the effectiveness of our model design.

Ссылки и действия

Связанные статьи

VAInpaint: Zero-Shot Video-Audio inpainting framework with LLMs-driven Module

## Контекст Восстановление пропущенных частей видео и аудио является ключевым заданием в области мультимедиа-редактирова...

2025-09-24