Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech
2509.14627v1
cs.HC, cs.AI, cs.CL
2025-09-20
Авторы:
Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim
Резюме на русском
#### Контекст
В современной КИБЕРНЕТИКЕ (Computational Intelligence and Big Data Engineering) и ИИ (Искусственный Интеллект) наблюдается значительный интерес к развитию говорящих агентов, которые могут общаться с людьми на естественном языке. Однако существуют технические и когнитивные задачи, связанные с генерацией натурального и динамичного говорения, которое было бы похоже на человеческого репликанта. Эти технологии могут быть применены в различных областях, включая ИнТЕРНЕТ-сервисы (Internet Services) и системы компьютерной графики. Несмотря на развитие технологий традиционного текстового понимания и генерации, меньше внимания уделяется созданию систем, которые бы понимали и генерировали естественный говорящий язык со всеми его паралингвистическими особенностями, такими как тон и эмоциональный цвет.
#### Метод
Мы предлагаем методологию, основанную на мультимодальных LLM (Многомодальные Многослойные Линейные Модели), для решения задачи генерации говорящих агентов. Модель использует данные, наблюдаемые в разговорах, включая текст, звук и визуальные сигналы. Мы создали новый многомерный концептуальный датасет MultiSensory Conversation Dataset, ориентированный на говорящий агент. Модель состоит из нескольких модулей: текстовой генерации, звуковой генерации и генерации графических сигналов. Мы разработали алгоритм, который может анализировать данные из разных модалей, определять настроение и стиль ответа, и генерировать естественный говорящий текст и голос с паралингвистическими характеристиками.
#### Результаты
Мы провели эксперименты с использованием нашего MultiSensory Conversation Dataset. Мы сравнили нашу модель с другими существующими методами генерации говорящих агентов. Результаты показали, что наша модель лучше подходит для генерации натурального говорящего голоса, который учитывает звуковые и визуальные модали. Эксперименты показали, что включение визуальных данных, таких как лицевые выражения и жестов, повышает точность генерации и делает ответы более привлекательными.
#### Значимость
Мы предлагаем новую архитектуру для говорящих агентов, которая может генерировать естественный и привлекательный голос на основе текста, звука и визуальных сигналов. Эта технология может быть применена в различных областях, таких как ИнТЕРНЕТ-сервисы, графические системы и системы развлечений. Наши достижения могут повысить качество коммуникации между людьми и роботами, сделав её более естественной и динамичной.
#### Выводы
Мы достигли значительных улучшений в области выработки естественного говорящего голоса. Наши ре
Abstract
Human conversation involves language, speech, and visual cues, with each
medium providing complementary information. For instance, speech conveys a vibe
or tone not fully captured by text alone. While multimodal LLMs focus on
generating text responses from diverse inputs, less attention has been paid to
generating natural and engaging speech. We propose a human-like agent that
generates speech responses based on conversation mood and responsive style
information. To achieve this, we build a novel MultiSensory Conversation
dataset focused on speech to enable agents to generate natural speech. We then
propose a multimodal LLM-based model for generating text responses and voice
descriptions, which are used to generate speech covering paralinguistic
information. Experimental results demonstrate the effectiveness of utilizing
both visual and audio modalities in conversation to generate engaging speech.
The source code is available in https://github.com/kimtaesu24/MSenC
Ссылки и действия
Дополнительные ресурсы: