📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Gehui Chen, Guan'an Wang, Xiaowen Huang, Jitao Sang

#### Контекст Тема исследования — Efficient Video-to-Audio (V2A) Generation via Multiple Foundation Models Mapper — затрагивает адаптацию изображений видео в аудиосигналы с использованием множества основных моделей. Традиционный подход к V2A требует значительных ресурсов для обучения моделей, что ограничивает их применение. Новые методы, основанные на многоцелевых моделях (foundation models, FMs), позволяют передавать полезные свойства из одной модели в другую, уменьшая необходимость в тренировочных данных. Данная работа отвечает на рост интереса к эффективному использованию FMs в области V2A. #### Метод MFM-Mapper является усовершенствованным подходом к мапперу. Он включает в себя фуссирование информации из двух визуальных энкодеров, что позволяет увеличить количество семантических и темпоральных данных. В качестве латентного пространства для синтеза аудио используется GPT-2, что позволяет улучшить автокодирование и горизонтальное выравнивание между визуальными и аудио моделями. Это подход гарантирует более плавный переход между различными стилямми аудио-визуальных сигналов, чем в предыдущих моделях. Такая архитектура позволяет эффективно использовать преимущества FMs, уменьшая требования к вычислительным ресурсам. #### Результаты Проведенные эксперименты показали, что MFM-Mapper получает значительные улучшения в семантической и темпоральной консистенции с COMPARISON_WITH_BASELINE 16\% тренировочных данных (MSME_TRIPLETS), по сравнению с предыдущими моделями. Модель демонстрирует лучшую стабильность и точность в своих прогнозах, чтобы обеспечить эффективное преобразование видео в аудио. Это означает, что MFM-Mapper имеет большую эффективность, не теряя в качестве результатов. #### Значимость Модель MFM-Mapper может быть применена в различных областях, таких как разработка аудио-видео синтеза, видео-анализ и создание звуков для игр и мультимедиа. Она предлагает значительные преимущества, такие как эффективность, точность и гибкость. Это может привести к развитию новых технологий для видео-аудио-синтеза, что может быть полезно в различных профессиональных и технологических областях. #### Выводы MFM-Mapper демонстрирует новую эффективность в подходе к V2A, которая может быть использована для разных целей. Будущие исследования могут направляться на расширение применения MFM-Mapper к другим типам данных и моделей, а также на улучшение методов кодирования и декодирования в данной области.
Annotation:
Recent Video-to-Audio (V2A) generation relies on extracting semantic and temporal features from video to condition generative models. Training these models from scratch is resource intensive. Consequently, leveraging foundation models (FMs) has gained traction due to their cross-modal knowledge transfer and generalization capabilities. One prior work has explored fine-tuning a lightweight mapper network to connect a pre-trained visual encoder with a text-to-audio generation model for V2A. Inspir...
ID: 2509.04957v1 cs.CV, cs.MM, cs.SD, eess.AS
Авторы:

Weiting Tan, Jiachen Lian, Hirofumi Inaguma, Paden Tomasello, Philipp Koehn, Xutai Ma

## Контекст Общение через речевые интерфейсы становится все более важной областью исследований, особенно в контексте развития искусственного интеллекта и видеокоммуникации. Однако существуют значительные проблемы, связанные с точностью и эмоциональным содержанием речи, которые затрудняют полноценную интерактивность. Наиболее распространенные модели генерируют речь, опираясь только на текст или аудиосигнал, что зачастую приводит к потере информации об эмоциональном настроении и выразительности. Мотивацией для этого исследования является развитие моделей, которые бы способствовали более эмоционально настроенной и экспрессивной речи. ## Метод Для решения этой задачи предложена модель Audio-Visual Language Model (AVLM), которая интегрирует полное лицо как визуальные сигналы в модель экспрессивной речи. Модель использует несколько визуальных энкодеров и стратегий мультимодальной фузии в процессе предварительного обучения (pre-training). Эта методика позволяет выявить самый эффективный подход к интеграции визуальных сигналов в модель. Далее проводится последовательное окно fine-tuning на задачах распознавания эмоций и экспрессивного диалога. Такое подход позволяет улучшить точность модели и сделать ее более эмоционально уразумевающей. ## Результаты На экспериментах, проведенных с использованием корпусов данных для распознавания эмоций и диалогов, AVLM показала существенное улучшение в сравнении с основными моделями, основанными только на аудиосигнале. Таким образом, модель достигла повышения F1-меры на 5 баллов в задаче распознавания эмоций. Эти результаты доказывают, что визуальные сигналы могут существенно повысить точность и эмоциональную нагрузку в речевых моделях, делая их более совершенными для использования в реальных ситуациях. ## Значимость Полученные результаты открывают новые возможности для развития выразительных речевых моделей, которые могут использоваться в различных областях, таких как ассистентские системы, робототехника, и видеокоммуникация. Это демонстрирует потенциал для улучшения качества интерактивности и эмоциональной коммуникации. Также, модель AVLM предоставляет новый подход к моделированию языка с учетом визуальных сигналов, что может быть ключевым для развития будущих мультимодальных систем. ## Выводы Результаты экспериментов показывают, что интеграция визуальных сигналов в модели экспрессивной речи может значительно улучшить точность и эмоциональный состав речи. Эти достижения открывают новые пути для развития моделей, которые могут быть использованы в многомодальных системах. Будущие исследования будут сфокусированы
Annotation:
We present an Audio-Visual Language Model (AVLM) for expressive speech generation by integrating full-face visual cues into a pre-trained expressive speech model. We explore multiple visual encoders and multimodal fusion strategies during pre-training to identify the most effective integration approach. Subsequent fine-tuning on emotion recognition and expressive dialogue tasks yields substantial gains over speech-only baselines (e.g., +5 F1 in emotion recognition). AVLM highlights the value of ...
ID: 2508.16188v1 cs.CL, cs.CV, cs.MM, cs.SD, eess.AS
Авторы:

Yuqin Cao, Yixuan Gao, Wei Sun, Xiaohong Liu, Yulun Zhang, Xiongkuo Min

Загрузка лиц в потоковых видеороликах часто страдает различными дефектами, влияя на качество видео. Известные методы восстановления видео недостаточно учитывают взаимосвязь между звуковыми и визуальными признаками, особенно в области горла и уст lip-reading. Данная работа предлагает General Audio-assisted Face Video Restoration Network (GAVN), решающий эту проблему с помощью темпорального и идентичностного дополнения. GAVN применяет низкорезольвентную модель для восстановления интерфреймовых признаков и высокорезольвентную модель с использованием аудиосигналов и знаков лица для улучшения детализации. Модель объединяет эти признаки для полного восстановления лиц в высококачественных видеороликах. Эксперименты показали, что GAVN превосходит современные методы в решении проблем, таких как сжатие, размытие и увеличение разрешения, демонстрируя его эффективность в области видеовосстановления.
Annotation:
Face videos accompanied by audio have become integral to our daily lives, while they often suffer from complex degradations. Most face video restoration methods neglect the intrinsic correlations between the visual and audio features, especially in mouth regions. A few audio-aided face video restoration methods have been proposed, but they only focus on compression artifact removal. In this paper, we propose a General Audio-assisted face Video restoration Network (GAVN) to address various types ...
ID: 2508.04161v1 cs.CV, cs.MM, cs.SD, eess.AS
Авторы:

Junan Lin, Daizong Liu, Xianke Chen, Xiaoye Qu, Xun Yang, Jixiang Zhu, Sanyuan Zhang, Jianfeng Dong

**Резюме** В задаче Video Moment Retrieval (VMR) цель состоит в поиске конкретного момента, семантически связанного с заданным запросом. Однако большинство существующих подходов сосредоточены только на визуальной и текстовой информации, недооценивая аудиомодуль. Несмотря на недавние работы, опробовавшие joint reasoning для всех модулей, их дизайн тREметьющих все модальности одинаково, не учитывает их различную полезность и влияние на результат. Например, аудио может нести за собой полезную информацию или же быть полностью шумовым. Мы предлагаем Importance-aware Multi-Granularity Fusion (IMG) model, которая адаптивно использует аудио, визуальную и текстовую информацию. Модель оценивает важность аудио-данных, используя псевдометки, и применяет контекстную связь на разных уровнях — локальном, событийном и общем. Также предложена cross-modal knowledge distillation, которая позволяет обучать модель даже при отсутствии аудио на этапе инференса. Мы также создали новую VMR-датасет, Charades-AudioMatter, для валидации модели. Эксперименты показали, что наш подход позволяет достигать state-of-the-art результатов в audio-video fusion для VMR. Исходный код доступен на GitHub.
Annotation:
Video Moment Retrieval (VMR) aims to retrieve a specific moment semantically related to the given query. To tackle this task, most existing VMR methods solely focus on the visual and textual modalities while neglecting the complementary but important audio modality. Although a few recent works try to tackle the joint audio-vision-text reasoning, they treat all modalities equally and simply embed them without fine-grained interaction for moment retrieval. These designs are counter-practical as: N...
ID: 2508.04273v1 cs.IR, cs.CV, cs.MM, cs.SD, eess.AS