📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

2025-10-04

Авторы:

Chetwin Low, Weimin Wang, Calder Katyal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Audio-video generation has often relied on complex multi-stage architectures or sequential synthesis of sound and visuals. We introduce Ovi, a unified paradigm for audio-video generation that models the two modalities as a single generative process. By using blockwise cross-modal fusion of twin-DiT modules, Ovi achieves natural synchronization and removes the need for separate pipelines or post hoc alignment. To facilitate fine-grained multimodal fusion modeling, we initialize an audio tower wit...

ID: 2510.01284v1 cs.MM, cs.CV, cs.SD, eess.AS

arXiv PDF

📄 VAInpaint: Zero-Shot Video-Audio inpainting framework with LLMs-driven Module

2025-09-24

Авторы:

Kam Man Wu, Zeyue Tian, Liya Ji, Qifeng Chen

## Контекст Восстановление пропущенных частей видео и аудио является ключевым заданием в области мультимедиа-редактирования. Однако точное удаление объектов и соответствующих им звуков из видео, не вредя остальной части сцены, остается сложной проблемой. Традиционные подходы часто не удавались в полной синхронизации между видео и аудио. В этом исследовании мы предлагаем VAInpaint — новую методологию, которая объединяет мощь машинного обучения, видео- и аудио-инпейнтинга, чтобы решить эту проблему. ## Метод VAInpaint состоит из нескольких модулей, которые обрабатывают видео и аудио с разными уровнями детализации. На первом этапе используется модель сегментации для генерации масок, отражающих области для удаления. Затем, модель inpainting видео восстанавливает удаленные области, принимая во внимание маски. Для аудио-входа, мы разработали текстово-управляемую модель сепарации, которая использует глобальные и региональные описания, сгенерированные глубокими моделями текстового понимания (LLM). Модель LLM обрабатывает общую информацию о сцене и разбирает детали регионального контента. Наконец, все входы обрабатываются моделью inpainting видео и аудио, чтобы восстановить пропущенные части. ## Результаты Мы проверили нашу модель на широком диапазоне сцен и задач видео- и аудио-вставок. Наши эксперименты показали, что VAInpaint достигает результатов, которые соответствуют или превосходят текущие лучшие решения в области inpainting. Мы также проверили эффективность нашей модели в разных условиях, включая видео с большим количеством движения и сложным аудио-содержимым. Особое внимание уделено тому, что модель VAInpaint обеспечивает высокую синхронизацию между видео и аудио. ## Значимость Наше решение может применяться в различных областях, таких как редактирование видео, виртуальная реальность, и музыкальное видео. Оно предлагает улучшенную точность и синхронизацию, что делает его полезным в различных профессиональных приложениях, включая трансляции, рекламу и домашнее видео-редактирование. Метод VAInpaint также открывает новые возможности для видео-анализа, динамического контента, и искусственного интеллекта в мультимедиа. ## Выводы Мы предлагаем VAInpaint — новую мощную методологию для видео- и аудио-вставок, которая использует модели LLM для генерации текстовых запросов. Мы продемонстрировали, что наш подход является эффективным и надежным в различных условиях, показав высокую точность и качество восстановления. В следующих исследованиях мы планируем расширить нашу модель для работы с более сложными видео и а

Annotation:

Video and audio inpainting for mixed audio-visual content has become a crucial task in multimedia editing recently. However, precisely removing an object and its corresponding audio from a video without affecting the rest of the scene remains a significant challenge. To address this, we propose VAInpaint, a novel pipeline that first utilizes a segmentation model to generate masks and guide a video inpainting model in removing objects. At the same time, an LLM then analyzes the scene globally, wh...

ID: 2509.17022v1 cs.MM, cs.CV, cs.SD, eess.AS

arXiv PDF

📄 AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition

2025-08-13

Авторы:

Junxiao Xue, Xiaozhen Liu, Xuecheng Wu, Xinyi Yin, Danlei Huang, Fei Yu

## Контекст Аудио-визуальная речевая распознавание (AVSR) широко применяется для улучшения распознавания речи в шумных условиях, слиянием сигналов аудио и визуальных модальностей. Однако, большинство существующих подходов ограничиваются простыми моделями симметричного объединения модальностей или единонаправленным усилением, что приводит к неэффективной обработке характерных асимметрий во входных данных. Это снижает работу моделей в условиях, где аудио и визуальные сигналы имеют разные уровни важности. Наша модель AD-AVSR предлагает новую архитектуру, основанную на бинарной модальной поддержке, чтобы улучшить глубину и точность распознавания в таких ситуациях. ## Метод Мы предлагаем фреймворм AD-AVSR, основанный на бинарной модальной расширяющей стратегии. Аудио-сигнал обрабатывается двумя разными потоками, чтобы охватить разные аспекты сигнала, и искусственно сформировать неоднородность, которая помогает в будущем совместном использовании аудио и визуальных модальностей. Модули, используемые для улучшения, включают: Audio-aware Visual Refinement Module, который улучшает визуальные сигналы, и Cross-modal Noise Suppression Masking Module, который улучшает аудио-сигналы с помощью визуальных указателей. Это создает замкнутый цикл обработки, в котором аудио и визуальные модальности взаимодействуют друг с другом. Для улучшения корреляции мы также применяем механизм уточненного выбора, который отсеивает неудачные пары. ## Результаты Мы проводили эксперименты на двух наборах данных: LRS2 и LRS3. Наши результаты показали, что AD-AVSR превышает существующие методы в роде noise robustness и speech recognition accuracy. Мы также провели анализ дополнительных экспериментов, подтверждающих эффективность нашей модели в условиях асимметричных входных данных. Наша модель демонстрирует значительное улучшение сравнительно с однонаправленными подходами. ## Значимость Предложенная модель AD-AVSR имеет широкое применение в сценариях, где качество распознавания речи требует высокой точности в шумных условиях, таких как беспроводные устройства, звонки в шумных местах и видеоконференции. Модель эффективно обрабатывает асимметричные сигналы и показывает высокую устойчивость к шумам. Благодаря своей архитектуре, AD-AVSR может быть применена в различных приложениях, включая видео-сенсорные системы, автоматическое распознавание речи в разговорных ситуациях и улучшение речевых интерфейсов в системах контроля голосом. ## Выводы Мы представили новую модель AD-AVSR для AVSR, основанную на бинарной модальной поддержке. Наши эксперименты показали, что она превосходи

Annotation:

Audio-visual speech recognition (AVSR) combines audio-visual modalities to improve speech recognition, especially in noisy environments. However, most existing methods deploy the unidirectional enhancement or symmetric fusion manner, which limits their capability to capture heterogeneous and complementary correlations of audio-visual data-especially under asymmetric information conditions. To tackle these gaps, we introduce a new AVSR framework termed AD-AVSR based on bidirectional modality enha...

ID: 2508.07608v1 cs.MM, cs.CV, cs.SD, eess.AS

arXiv PDF