📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation

2025-08-26

Авторы:

Weiting Tan, Jiachen Lian, Hirofumi Inaguma, Paden Tomasello, Philipp Koehn, Xutai Ma

## Контекст Общение через речевые интерфейсы становится все более важной областью исследований, особенно в контексте развития искусственного интеллекта и видеокоммуникации. Однако существуют значительные проблемы, связанные с точностью и эмоциональным содержанием речи, которые затрудняют полноценную интерактивность. Наиболее распространенные модели генерируют речь, опираясь только на текст или аудиосигнал, что зачастую приводит к потере информации об эмоциональном настроении и выразительности. Мотивацией для этого исследования является развитие моделей, которые бы способствовали более эмоционально настроенной и экспрессивной речи. ## Метод Для решения этой задачи предложена модель Audio-Visual Language Model (AVLM), которая интегрирует полное лицо как визуальные сигналы в модель экспрессивной речи. Модель использует несколько визуальных энкодеров и стратегий мультимодальной фузии в процессе предварительного обучения (pre-training). Эта методика позволяет выявить самый эффективный подход к интеграции визуальных сигналов в модель. Далее проводится последовательное окно fine-tuning на задачах распознавания эмоций и экспрессивного диалога. Такое подход позволяет улучшить точность модели и сделать ее более эмоционально уразумевающей. ## Результаты На экспериментах, проведенных с использованием корпусов данных для распознавания эмоций и диалогов, AVLM показала существенное улучшение в сравнении с основными моделями, основанными только на аудиосигнале. Таким образом, модель достигла повышения F1-меры на 5 баллов в задаче распознавания эмоций. Эти результаты доказывают, что визуальные сигналы могут существенно повысить точность и эмоциональную нагрузку в речевых моделях, делая их более совершенными для использования в реальных ситуациях. ## Значимость Полученные результаты открывают новые возможности для развития выразительных речевых моделей, которые могут использоваться в различных областях, таких как ассистентские системы, робототехника, и видеокоммуникация. Это демонстрирует потенциал для улучшения качества интерактивности и эмоциональной коммуникации. Также, модель AVLM предоставляет новый подход к моделированию языка с учетом визуальных сигналов, что может быть ключевым для развития будущих мультимодальных систем. ## Выводы Результаты экспериментов показывают, что интеграция визуальных сигналов в модели экспрессивной речи может значительно улучшить точность и эмоциональный состав речи. Эти достижения открывают новые пути для развития моделей, которые могут быть использованы в многомодальных системах. Будущие исследования будут сфокусированы

Annotation:

We present an Audio-Visual Language Model (AVLM) for expressive speech generation by integrating full-face visual cues into a pre-trained expressive speech model. We explore multiple visual encoders and multimodal fusion strategies during pre-training to identify the most effective integration approach. Subsequent fine-tuning on emotion recognition and expressive dialogue tasks yields substantial gains over speech-only baselines (e.g., +5 F1 in emotion recognition). AVLM highlights the value of ...

ID: 2508.16188v1 cs.CL, cs.CV, cs.MM, cs.SD, eess.AS

arXiv PDF