📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
📄 Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
2025-08-09Авторы:
Junan Lin, Daizong Liu, Xianke Chen, Xiaoye Qu, Xun Yang, Jixiang Zhu, Sanyuan Zhang, Jianfeng Dong
**Резюме**
В задаче Video Moment Retrieval (VMR) цель состоит в поиске конкретного момента, семантически связанного с заданным запросом. Однако большинство существующих подходов сосредоточены только на визуальной и текстовой информации, недооценивая аудиомодуль. Несмотря на недавние работы, опробовавшие joint reasoning для всех модулей, их дизайн тREметьющих все модальности одинаково, не учитывает их различную полезность и влияние на результат. Например, аудио может нести за собой полезную информацию или же быть полностью шумовым.
Мы предлагаем Importance-aware Multi-Granularity Fusion (IMG) model, которая адаптивно использует аудио, визуальную и текстовую информацию. Модель оценивает важность аудио-данных, используя псевдометки, и применяет контекстную связь на разных уровнях — локальном, событийном и общем. Также предложена cross-modal knowledge distillation, которая позволяет обучать модель даже при отсутствии аудио на этапе инференса.
Мы также создали новую VMR-датасет, Charades-AudioMatter, для валидации модели. Эксперименты показали, что наш подход позволяет достигать state-of-the-art результатов в audio-video fusion для VMR. Исходный код доступен на GitHub.
Annotation:
Video Moment Retrieval (VMR) aims to retrieve a specific moment semantically
related to the given query. To tackle this task, most existing VMR methods
solely focus on the visual and textual modalities while neglecting the
complementary but important audio modality. Although a few recent works try to
tackle the joint audio-vision-text reasoning, they treat all modalities equally
and simply embed them without fine-grained interaction for moment retrieval.
These designs are counter-practical as: N...