Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

2509.14627v1 cs.HC, cs.AI, cs.CL 2025-09-20
Авторы:

Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim

Резюме на русском

#### Контекст В современной КИБЕРНЕТИКЕ (Computational Intelligence and Big Data Engineering) и ИИ (Искусственный Интеллект) наблюдается значительный интерес к развитию говорящих агентов, которые могут общаться с людьми на естественном языке. Однако существуют технические и когнитивные задачи, связанные с генерацией натурального и динамичного говорения, которое было бы похоже на человеческого репликанта. Эти технологии могут быть применены в различных областях, включая ИнТЕРНЕТ-сервисы (Internet Services) и системы компьютерной графики. Несмотря на развитие технологий традиционного текстового понимания и генерации, меньше внимания уделяется созданию систем, которые бы понимали и генерировали естественный говорящий язык со всеми его паралингвистическими особенностями, такими как тон и эмоциональный цвет. #### Метод Мы предлагаем методологию, основанную на мультимодальных LLM (Многомодальные Многослойные Линейные Модели), для решения задачи генерации говорящих агентов. Модель использует данные, наблюдаемые в разговорах, включая текст, звук и визуальные сигналы. Мы создали новый многомерный концептуальный датасет MultiSensory Conversation Dataset, ориентированный на говорящий агент. Модель состоит из нескольких модулей: текстовой генерации, звуковой генерации и генерации графических сигналов. Мы разработали алгоритм, который может анализировать данные из разных модалей, определять настроение и стиль ответа, и генерировать естественный говорящий текст и голос с паралингвистическими характеристиками. #### Результаты Мы провели эксперименты с использованием нашего MultiSensory Conversation Dataset. Мы сравнили нашу модель с другими существующими методами генерации говорящих агентов. Результаты показали, что наша модель лучше подходит для генерации натурального говорящего голоса, который учитывает звуковые и визуальные модали. Эксперименты показали, что включение визуальных данных, таких как лицевые выражения и жестов, повышает точность генерации и делает ответы более привлекательными. #### Значимость Мы предлагаем новую архитектуру для говорящих агентов, которая может генерировать естественный и привлекательный голос на основе текста, звука и визуальных сигналов. Эта технология может быть применена в различных областях, таких как ИнТЕРНЕТ-сервисы, графические системы и системы развлечений. Наши достижения могут повысить качество коммуникации между людьми и роботами, сделав её более естественной и динамичной. #### Выводы Мы достигли значительных улучшений в области выработки естественного говорящего голоса. Наши ре

Abstract

Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a novel MultiSensory Conversation dataset focused on speech to enable agents to generate natural speech. We then propose a multimodal LLM-based model for generating text responses and voice descriptions, which are used to generate speech covering paralinguistic information. Experimental results demonstrate the effectiveness of utilizing both visual and audio modalities in conversation to generate engaging speech. The source code is available in https://github.com/kimtaesu24/MSenC

Ссылки и действия

Связанные статьи

Perspectra: Choosing Your Experts Enhances Critical Thinking in Multi-Agent Rese...

## Контекст Одним из самых захватывающих направлений в ИИ является развитие мультиагентских систем (MAS), которые способ...

2025-09-26