📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
📄 Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation
2025-08-26Авторы:
Weiting Tan, Jiachen Lian, Hirofumi Inaguma, Paden Tomasello, Philipp Koehn, Xutai Ma
## Контекст
Общение через речевые интерфейсы становится все более важной областью исследований, особенно в контексте развития искусственного интеллекта и видеокоммуникации. Однако существуют значительные проблемы, связанные с точностью и эмоциональным содержанием речи, которые затрудняют полноценную интерактивность. Наиболее распространенные модели генерируют речь, опираясь только на текст или аудиосигнал, что зачастую приводит к потере информации об эмоциональном настроении и выразительности. Мотивацией для этого исследования является развитие моделей, которые бы способствовали более эмоционально настроенной и экспрессивной речи.
## Метод
Для решения этой задачи предложена модель Audio-Visual Language Model (AVLM), которая интегрирует полное лицо как визуальные сигналы в модель экспрессивной речи. Модель использует несколько визуальных энкодеров и стратегий мультимодальной фузии в процессе предварительного обучения (pre-training). Эта методика позволяет выявить самый эффективный подход к интеграции визуальных сигналов в модель. Далее проводится последовательное окно fine-tuning на задачах распознавания эмоций и экспрессивного диалога. Такое подход позволяет улучшить точность модели и сделать ее более эмоционально уразумевающей.
## Результаты
На экспериментах, проведенных с использованием корпусов данных для распознавания эмоций и диалогов, AVLM показала существенное улучшение в сравнении с основными моделями, основанными только на аудиосигнале. Таким образом, модель достигла повышения F1-меры на 5 баллов в задаче распознавания эмоций. Эти результаты доказывают, что визуальные сигналы могут существенно повысить точность и эмоциональную нагрузку в речевых моделях, делая их более совершенными для использования в реальных ситуациях.
## Значимость
Полученные результаты открывают новые возможности для развития выразительных речевых моделей, которые могут использоваться в различных областях, таких как ассистентские системы, робототехника, и видеокоммуникация. Это демонстрирует потенциал для улучшения качества интерактивности и эмоциональной коммуникации. Также, модель AVLM предоставляет новый подход к моделированию языка с учетом визуальных сигналов, что может быть ключевым для развития будущих мультимодальных систем.
## Выводы
Результаты экспериментов показывают, что интеграция визуальных сигналов в модели экспрессивной речи может значительно улучшить точность и эмоциональный состав речи. Эти достижения открывают новые пути для развития моделей, которые могут быть использованы в многомодальных системах. Будущие исследования будут сфокусированы
Annotation:
We present an Audio-Visual Language Model (AVLM) for expressive speech
generation by integrating full-face visual cues into a pre-trained expressive
speech model. We explore multiple visual encoders and multimodal fusion
strategies during pre-training to identify the most effective integration
approach. Subsequent fine-tuning on emotion recognition and expressive dialogue
tasks yields substantial gains over speech-only baselines (e.g., +5 F1 in
emotion recognition). AVLM highlights the value of ...