📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Gehui Chen, Guan'an Wang, Xiaowen Huang, Jitao Sang
#### Контекст
Тема исследования — Efficient Video-to-Audio (V2A) Generation via Multiple Foundation Models Mapper — затрагивает адаптацию изображений видео в аудиосигналы с использованием множества основных моделей. Традиционный подход к V2A требует значительных ресурсов для обучения моделей, что ограничивает их применение. Новые методы, основанные на многоцелевых моделях (foundation models, FMs), позволяют передавать полезные свойства из одной модели в другую, уменьшая необходимость в тренировочных данных. Данная работа отвечает на рост интереса к эффективному использованию FMs в области V2A.
#### Метод
MFM-Mapper является усовершенствованным подходом к мапперу. Он включает в себя фуссирование информации из двух визуальных энкодеров, что позволяет увеличить количество семантических и темпоральных данных. В качестве латентного пространства для синтеза аудио используется GPT-2, что позволяет улучшить автокодирование и горизонтальное выравнивание между визуальными и аудио моделями. Это подход гарантирует более плавный переход между различными стилямми аудио-визуальных сигналов, чем в предыдущих моделях. Такая архитектура позволяет эффективно использовать преимущества FMs, уменьшая требования к вычислительным ресурсам.
#### Результаты
Проведенные эксперименты показали, что MFM-Mapper получает значительные улучшения в семантической и темпоральной консистенции с COMPARISON_WITH_BASELINE 16\% тренировочных данных (MSME_TRIPLETS), по сравнению с предыдущими моделями. Модель демонстрирует лучшую стабильность и точность в своих прогнозах, чтобы обеспечить эффективное преобразование видео в аудио. Это означает, что MFM-Mapper имеет большую эффективность, не теряя в качестве результатов.
#### Значимость
Модель MFM-Mapper может быть применена в различных областях, таких как разработка аудио-видео синтеза, видео-анализ и создание звуков для игр и мультимедиа. Она предлагает значительные преимущества, такие как эффективность, точность и гибкость. Это может привести к развитию новых технологий для видео-аудио-синтеза, что может быть полезно в различных профессиональных и технологических областях.
#### Выводы
MFM-Mapper демонстрирует новую эффективность в подходе к V2A, которая может быть использована для разных целей. Будущие исследования могут направляться на расширение применения MFM-Mapper к другим типам данных и моделей, а также на улучшение методов кодирования и декодирования в данной области.
Annotation:
Recent Video-to-Audio (V2A) generation relies on extracting semantic and
temporal features from video to condition generative models. Training these
models from scratch is resource intensive. Consequently, leveraging foundation
models (FMs) has gained traction due to their cross-modal knowledge transfer
and generalization capabilities. One prior work has explored fine-tuning a
lightweight mapper network to connect a pre-trained visual encoder with a
text-to-audio generation model for V2A. Inspir...
📄 Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation
2025-08-26Авторы:
Weiting Tan, Jiachen Lian, Hirofumi Inaguma, Paden Tomasello, Philipp Koehn, Xutai Ma
## Контекст
Общение через речевые интерфейсы становится все более важной областью исследований, особенно в контексте развития искусственного интеллекта и видеокоммуникации. Однако существуют значительные проблемы, связанные с точностью и эмоциональным содержанием речи, которые затрудняют полноценную интерактивность. Наиболее распространенные модели генерируют речь, опираясь только на текст или аудиосигнал, что зачастую приводит к потере информации об эмоциональном настроении и выразительности. Мотивацией для этого исследования является развитие моделей, которые бы способствовали более эмоционально настроенной и экспрессивной речи.
## Метод
Для решения этой задачи предложена модель Audio-Visual Language Model (AVLM), которая интегрирует полное лицо как визуальные сигналы в модель экспрессивной речи. Модель использует несколько визуальных энкодеров и стратегий мультимодальной фузии в процессе предварительного обучения (pre-training). Эта методика позволяет выявить самый эффективный подход к интеграции визуальных сигналов в модель. Далее проводится последовательное окно fine-tuning на задачах распознавания эмоций и экспрессивного диалога. Такое подход позволяет улучшить точность модели и сделать ее более эмоционально уразумевающей.
## Результаты
На экспериментах, проведенных с использованием корпусов данных для распознавания эмоций и диалогов, AVLM показала существенное улучшение в сравнении с основными моделями, основанными только на аудиосигнале. Таким образом, модель достигла повышения F1-меры на 5 баллов в задаче распознавания эмоций. Эти результаты доказывают, что визуальные сигналы могут существенно повысить точность и эмоциональную нагрузку в речевых моделях, делая их более совершенными для использования в реальных ситуациях.
## Значимость
Полученные результаты открывают новые возможности для развития выразительных речевых моделей, которые могут использоваться в различных областях, таких как ассистентские системы, робототехника, и видеокоммуникация. Это демонстрирует потенциал для улучшения качества интерактивности и эмоциональной коммуникации. Также, модель AVLM предоставляет новый подход к моделированию языка с учетом визуальных сигналов, что может быть ключевым для развития будущих мультимодальных систем.
## Выводы
Результаты экспериментов показывают, что интеграция визуальных сигналов в модели экспрессивной речи может значительно улучшить точность и эмоциональный состав речи. Эти достижения открывают новые пути для развития моделей, которые могут быть использованы в многомодальных системах. Будущие исследования будут сфокусированы
Annotation:
We present an Audio-Visual Language Model (AVLM) for expressive speech
generation by integrating full-face visual cues into a pre-trained expressive
speech model. We explore multiple visual encoders and multimodal fusion
strategies during pre-training to identify the most effective integration
approach. Subsequent fine-tuning on emotion recognition and expressive dialogue
tasks yields substantial gains over speech-only baselines (e.g., +5 F1 in
emotion recognition). AVLM highlights the value of ...
📄 Audio-Assisted Face Video Restoration with Temporal and Identity Complementary Learning
2025-08-09Авторы:
Yuqin Cao, Yixuan Gao, Wei Sun, Xiaohong Liu, Yulun Zhang, Xiongkuo Min
Загрузка лиц в потоковых видеороликах часто страдает различными дефектами, влияя на качество видео. Известные методы восстановления видео недостаточно учитывают взаимосвязь между звуковыми и визуальными признаками, особенно в области горла и уст lip-reading. Данная работа предлагает General Audio-assisted Face Video Restoration Network (GAVN), решающий эту проблему с помощью темпорального и идентичностного дополнения. GAVN применяет низкорезольвентную модель для восстановления интерфреймовых признаков и высокорезольвентную модель с использованием аудиосигналов и знаков лица для улучшения детализации. Модель объединяет эти признаки для полного восстановления лиц в высококачественных видеороликах. Эксперименты показали, что GAVN превосходит современные методы в решении проблем, таких как сжатие, размытие и увеличение разрешения, демонстрируя его эффективность в области видеовосстановления.
Annotation:
Face videos accompanied by audio have become integral to our daily lives,
while they often suffer from complex degradations. Most face video restoration
methods neglect the intrinsic correlations between the visual and audio
features, especially in mouth regions. A few audio-aided face video restoration
methods have been proposed, but they only focus on compression artifact
removal. In this paper, we propose a General Audio-assisted face Video
restoration Network (GAVN) to address various types ...
📄 Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
2025-08-09Авторы:
Junan Lin, Daizong Liu, Xianke Chen, Xiaoye Qu, Xun Yang, Jixiang Zhu, Sanyuan Zhang, Jianfeng Dong
**Резюме**
В задаче Video Moment Retrieval (VMR) цель состоит в поиске конкретного момента, семантически связанного с заданным запросом. Однако большинство существующих подходов сосредоточены только на визуальной и текстовой информации, недооценивая аудиомодуль. Несмотря на недавние работы, опробовавшие joint reasoning для всех модулей, их дизайн тREметьющих все модальности одинаково, не учитывает их различную полезность и влияние на результат. Например, аудио может нести за собой полезную информацию или же быть полностью шумовым.
Мы предлагаем Importance-aware Multi-Granularity Fusion (IMG) model, которая адаптивно использует аудио, визуальную и текстовую информацию. Модель оценивает важность аудио-данных, используя псевдометки, и применяет контекстную связь на разных уровнях — локальном, событийном и общем. Также предложена cross-modal knowledge distillation, которая позволяет обучать модель даже при отсутствии аудио на этапе инференса.
Мы также создали новую VMR-датасет, Charades-AudioMatter, для валидации модели. Эксперименты показали, что наш подход позволяет достигать state-of-the-art результатов в audio-video fusion для VMR. Исходный код доступен на GitHub.
Annotation:
Video Moment Retrieval (VMR) aims to retrieve a specific moment semantically
related to the given query. To tackle this task, most existing VMR methods
solely focus on the visual and textual modalities while neglecting the
complementary but important audio modality. Although a few recent works try to
tackle the joint audio-vision-text reasoning, they treat all modalities equally
and simply embed them without fine-grained interaction for moment retrieval.
These designs are counter-practical as: N...