📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

2025-12-04

Авторы:

Jiahua Wang, Shannan Yan, Leqi Zheng, Jialong Wu, Yaoxin Mao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

World models simulate environmental dynamics to enable agents to plan and reason about future states. While existing approaches have primarily focused on visual observations, real-world perception inherently involves multiple sensory modalities. Audio provides crucial spatial and temporal cues such as sound source localization and acoustic scene properties, yet its integration into world models remains largely unexplored. No prior work has formally defined what constitutes an audio-visual world ...

ID: 2512.00883v1 cs.MM, cs.CV, cs.SD

arXiv PDF

📄 AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control

2025-11-28

Авторы:

Xinyue Guo, Xiaoran Yang, Lipan Zhang, Jianxuan Yang, Zhao Wang, Jian Luan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Sound effect editing-modifying audio by adding, removing, or replacing elements-remains constrained by existing approaches that rely solely on low-level signal processing or coarse text prompts, often resulting in limited flexibility and suboptimal audio quality. To address this, we propose AV-Edit, a generative sound effect editing framework that enables fine-grained editing of existing audio tracks in videos by jointly leveraging visual, audio, and text semantics. Specifically, the proposed me...

ID: 2511.21146v1 cs.MM, cs.CV, cs.SD

arXiv PDF

📄 AccKV: Towards Efficient Audio-Video LLMs Inference via Adaptive-Focusing and Cross-Calibration KV Cache Optimization

2025-11-18

Авторы:

Zhonghua Jiang, Kui Chen, Kunxi Li, Keting Yin, Yiyun Zhou, Zhaode Wang, Chengfei Lv, Shengyu Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advancements in Audio-Video Large Language Models (AV-LLMs) have enhanced their capabilities in tasks like audio-visual question answering and multimodal dialog systems. Video and audio introduce an extended temporal dimension, resulting in a larger key-value (KV) cache compared to static image embedding. A naive optimization strategy is to selectively focus on and retain KV caches of audio or video based on task. However, in the experiment, we observed that the attention of AV-LLMs to va...

ID: 2511.11106v1 cs.MM, cs.CV, cs.SD

arXiv PDF

📄 Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

2025-10-04

Авторы:

Chetwin Low, Weimin Wang, Calder Katyal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Audio-video generation has often relied on complex multi-stage architectures or sequential synthesis of sound and visuals. We introduce Ovi, a unified paradigm for audio-video generation that models the two modalities as a single generative process. By using blockwise cross-modal fusion of twin-DiT modules, Ovi achieves natural synchronization and removes the need for separate pipelines or post hoc alignment. To facilitate fine-grained multimodal fusion modeling, we initialize an audio tower wit...

ID: 2510.01284v1 cs.MM, cs.CV, cs.SD, eess.AS

arXiv PDF

📄 MultiSoundGen: Video-to-Audio Generation for Multi-Event Scenarios via SlowFast Contrastive Audio-Visual Pretraining and Direct Preference Optimization

2025-09-26

Авторы:

Jianxuan Yang, Xiaoran Yang, Lipan Zhang, Xinyue Guo, Zhao Wang, Gongping Huang

## Контекст В настоящее время, методы видео-к-звуку (V2A) сталкиваются с значительными трудностями при работе в сложных многособытийных сценариях, где видео содержит несколько звуковых источников, событий или звуковых переходов. Эти ограничения могут быть связаны с недостаточной точностью выравнивания семантической информации и динамических черт, а также с недостатком количественных подходов для оптимизации критериев качества звука и временных характеристик. Эти проблемы приводят к недостаточности генерируемого аудио по сравнению с реальными сценариями. Наша мотивация заключается в развитии эффективного алгоритма, который может справиться с этими вызовами и повысить качество генерируемого аудио, даже в сложных многособытийных сценариях. ## Метод Мы предлагаем MultiSoundGen, новую V2A-модель, которая впервые внедряет метод прямой оптимизации предпочтений (DPO) в этот класс задач. Модель основывается на SlowFast Contrastive Audio-Visual Pretraining (SF-CAVP), которая разработана как универсальный подход к алгоритму AVP. SF-CAVP имеет двойную структуру потоков (два уровня времени: быстрый и медленный), что позволяет ей эффективно учитывать как статические, так и динамические аспекты видео и звука. Кроме того, мы внедряем AVP-Ranked Preference Optimization (AVP-RPO), который использует SF-CAVP в качестве модели награды для оценки и оптимизации критериев качества звука и приоритезации семантических и временных соответствий. Это позволяет нашей модели преодолевать трудности, связанные с многособытийными сценариями. ## Результаты Мы проводили многочисленные эксперименты для оценки эффективности нашего подхода. Для этого использовались различные данные, включая многособытийные сценарии с множеством звуковых источников и динамических переходов. У нас были получены замечательные результаты, показавшие существенное улучшение по сравнению с текущими методами в ключевых аспектах: распределения звуков, качество звука, семантическое выравнивание и временное синхронизирование. Наши эксперименты показали, что MultiSoundGen не только подходит для сложных сценариев, но и показывает новый состояний лучшего результата (SOTA) в этом классе задач. ## Значимость Наша модель имеет широкие возможности для применения в различных сферах, таких как разработка виртуальной реальности, интерактивных систем, аудио-визуальных моделей и даже в сфере искусственного интеллекта. Обладая высоким качеством генерируемого аудио и точной семантической алгоритмизацией, MultiSoundGen может сделать системы более удобными для пользователей и эффективными для приложений. Этот подход также открывает новы

Annotation:

Current video-to-audio (V2A) methods struggle in complex multi-event scenarios (video scenarios involving multiple sound sources, sound events, or transitions) due to two critical limitations. First, existing methods face challenges in precisely aligning intricate semantic information together with rapid dynamic features. Second, foundational training lacks quantitative preference optimization for semantic-temporal alignment and audio quality. As a result, it fails to enhance integrated generati...

ID: 2509.19999v1 cs.MM, cs.CV, cs.SD

arXiv PDF

📄 VAInpaint: Zero-Shot Video-Audio inpainting framework with LLMs-driven Module

2025-09-24

Авторы:

Kam Man Wu, Zeyue Tian, Liya Ji, Qifeng Chen

## Контекст Восстановление пропущенных частей видео и аудио является ключевым заданием в области мультимедиа-редактирования. Однако точное удаление объектов и соответствующих им звуков из видео, не вредя остальной части сцены, остается сложной проблемой. Традиционные подходы часто не удавались в полной синхронизации между видео и аудио. В этом исследовании мы предлагаем VAInpaint — новую методологию, которая объединяет мощь машинного обучения, видео- и аудио-инпейнтинга, чтобы решить эту проблему. ## Метод VAInpaint состоит из нескольких модулей, которые обрабатывают видео и аудио с разными уровнями детализации. На первом этапе используется модель сегментации для генерации масок, отражающих области для удаления. Затем, модель inpainting видео восстанавливает удаленные области, принимая во внимание маски. Для аудио-входа, мы разработали текстово-управляемую модель сепарации, которая использует глобальные и региональные описания, сгенерированные глубокими моделями текстового понимания (LLM). Модель LLM обрабатывает общую информацию о сцене и разбирает детали регионального контента. Наконец, все входы обрабатываются моделью inpainting видео и аудио, чтобы восстановить пропущенные части. ## Результаты Мы проверили нашу модель на широком диапазоне сцен и задач видео- и аудио-вставок. Наши эксперименты показали, что VAInpaint достигает результатов, которые соответствуют или превосходят текущие лучшие решения в области inpainting. Мы также проверили эффективность нашей модели в разных условиях, включая видео с большим количеством движения и сложным аудио-содержимым. Особое внимание уделено тому, что модель VAInpaint обеспечивает высокую синхронизацию между видео и аудио. ## Значимость Наше решение может применяться в различных областях, таких как редактирование видео, виртуальная реальность, и музыкальное видео. Оно предлагает улучшенную точность и синхронизацию, что делает его полезным в различных профессиональных приложениях, включая трансляции, рекламу и домашнее видео-редактирование. Метод VAInpaint также открывает новые возможности для видео-анализа, динамического контента, и искусственного интеллекта в мультимедиа. ## Выводы Мы предлагаем VAInpaint — новую мощную методологию для видео- и аудио-вставок, которая использует модели LLM для генерации текстовых запросов. Мы продемонстрировали, что наш подход является эффективным и надежным в различных условиях, показав высокую точность и качество восстановления. В следующих исследованиях мы планируем расширить нашу модель для работы с более сложными видео и а

Annotation:

Video and audio inpainting for mixed audio-visual content has become a crucial task in multimedia editing recently. However, precisely removing an object and its corresponding audio from a video without affecting the rest of the scene remains a significant challenge. To address this, we propose VAInpaint, a novel pipeline that first utilizes a segmentation model to generate masks and guide a video inpainting model in removing objects. At the same time, an LLM then analyzes the scene globally, wh...

ID: 2509.17022v1 cs.MM, cs.CV, cs.SD, eess.AS

arXiv PDF

📄 AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition

2025-08-13

Авторы:

Junxiao Xue, Xiaozhen Liu, Xuecheng Wu, Xinyi Yin, Danlei Huang, Fei Yu

## Контекст Аудио-визуальная речевая распознавание (AVSR) широко применяется для улучшения распознавания речи в шумных условиях, слиянием сигналов аудио и визуальных модальностей. Однако, большинство существующих подходов ограничиваются простыми моделями симметричного объединения модальностей или единонаправленным усилением, что приводит к неэффективной обработке характерных асимметрий во входных данных. Это снижает работу моделей в условиях, где аудио и визуальные сигналы имеют разные уровни важности. Наша модель AD-AVSR предлагает новую архитектуру, основанную на бинарной модальной поддержке, чтобы улучшить глубину и точность распознавания в таких ситуациях. ## Метод Мы предлагаем фреймворм AD-AVSR, основанный на бинарной модальной расширяющей стратегии. Аудио-сигнал обрабатывается двумя разными потоками, чтобы охватить разные аспекты сигнала, и искусственно сформировать неоднородность, которая помогает в будущем совместном использовании аудио и визуальных модальностей. Модули, используемые для улучшения, включают: Audio-aware Visual Refinement Module, который улучшает визуальные сигналы, и Cross-modal Noise Suppression Masking Module, который улучшает аудио-сигналы с помощью визуальных указателей. Это создает замкнутый цикл обработки, в котором аудио и визуальные модальности взаимодействуют друг с другом. Для улучшения корреляции мы также применяем механизм уточненного выбора, который отсеивает неудачные пары. ## Результаты Мы проводили эксперименты на двух наборах данных: LRS2 и LRS3. Наши результаты показали, что AD-AVSR превышает существующие методы в роде noise robustness и speech recognition accuracy. Мы также провели анализ дополнительных экспериментов, подтверждающих эффективность нашей модели в условиях асимметричных входных данных. Наша модель демонстрирует значительное улучшение сравнительно с однонаправленными подходами. ## Значимость Предложенная модель AD-AVSR имеет широкое применение в сценариях, где качество распознавания речи требует высокой точности в шумных условиях, таких как беспроводные устройства, звонки в шумных местах и видеоконференции. Модель эффективно обрабатывает асимметричные сигналы и показывает высокую устойчивость к шумам. Благодаря своей архитектуре, AD-AVSR может быть применена в различных приложениях, включая видео-сенсорные системы, автоматическое распознавание речи в разговорных ситуациях и улучшение речевых интерфейсов в системах контроля голосом. ## Выводы Мы представили новую модель AD-AVSR для AVSR, основанную на бинарной модальной поддержке. Наши эксперименты показали, что она превосходи

Annotation:

Audio-visual speech recognition (AVSR) combines audio-visual modalities to improve speech recognition, especially in noisy environments. However, most existing methods deploy the unidirectional enhancement or symmetric fusion manner, which limits their capability to capture heterogeneous and complementary correlations of audio-visual data-especially under asymmetric information conditions. To tackle these gaps, we introduce a new AVSR framework termed AD-AVSR based on bidirectional modality enha...

ID: 2508.07608v1 cs.MM, cs.CV, cs.SD, eess.AS

arXiv PDF