Emotion-Aware Speech Generation with Character-Specific Voices for Comics

2509.15253v1 cs.SD, cs.AI, cs.MM, eess.AS 2025-09-22
Авторы:

Zhiwen Qian, Jinhua Liang, Huan Zhang

Резюме на русском

## Контекст Современные комиксы, помимо текстов и картинок, часто включают сюжетные линии и персонажей со специфичными характеристиками, в том числе их эмоциональным состоянием. Однако существующие методы генерации речи для персонажей комиксов обычно не учитывают эмоциональный аспект или не достаточно учитывают контекст. Это приводит к люмпенному генерированию речи и неубедительному представлению персонажей. Мотивация исследования заключается в разработке метода, который бы автоматически создавал эмоционально окрашенную речь, которая была привязана к конкретному персонажу и его эмоциональному состоянию, а также была адаптирована к контексту сюжета. ## Метод Разработанная система представляет собой интегрированный подход к генерации речи, который берет в качестве входных данных целые тома комиксов и выводит речь, привязанную к каждому персонажу и его эмоциональному состоянию. Основная модель состоит из трех компонентов: модуля обработки изображений, модели текстового распознавания и модели тексто-речи. Модуль обработки изображений выполняет детекцию персонажей, распознавание текста на изображениях и определение эмоционального тона. Модель текстового распознавания использует языковую модель, интегрируя информацию из визуальных ресурсов с эволюцией сюжета. Тексто-речевая модель синтезирует речь, используя специфичные для каждого персонажа и эмоции профили голоса. Эта система позволяет автоматически генерировать речь, соответствующую эмоциональному состоянию каждого персонажа, что вносит реализм и жизневую атмосферу в комиксы. ## Результаты В ходе экспериментов было протестировано набор комиксов с различными стилями и героями. Модель была обучена на большом количестве текстов и визуальных данных с разными эмоциональными состояниями персонажей. Эксперименты показали, что система способна точно распознавать персонажей и их эмоциональный тон, а также генерировать речь, которая соответствует стилю каждого героя и его эмоциональному состоянию. Особое внимание было уделено сравнению с предыдущими методами, и данное решение показало значительное улучшение в точности распознавания эмоций и генерировании речи, которая звучит более натуральной и символичной. ## Значимость Разработанный подход может быть применен в различных областях, включая компьютерную графику, анимацию и игровой индустрию. Он позволяет автоматически генерировать эмоционально окрашенную речь, что имеет важное значение для создания интерактивных и интерактивных систем. Это предоставляет новые возможност

Abstract

This paper presents an end-to-end pipeline for generating character-specific, emotion-aware speech from comics. The proposed system takes full comic volumes as input and produces speech aligned with each character's dialogue and emotional state. An image processing module performs character detection, text recognition, and emotion intensity recognition. A large language model performs dialogue attribution and emotion analysis by integrating visual information with the evolving plot context. Speech is synthesized through a text-to-speech model with distinct voice profiles tailored to each character and emotion. This work enables automated voiceover generation for comics, offering a step toward interactive and immersive comic reading experience.

Ссылки и действия

Связанные статьи

AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models

## Контекст Область исследования, связанная с выработкой ролевой игры в крупных языковых моделях (LLMs), является важной...

2025-10-01

Disentangling Score Content and Performance Style for Joint Piano Rendering and ...

#### Контекст Изучение музыкальных процессов в области музыкального информационного восстанования (MIR) является ключев...

2025-10-01

Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach

########################## ## Контекст ########################## Область исследования Image-to-Music (I2M) генерировани...

2025-09-30

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

**Резюме:** Музыкальные записи, особенно созданные в непрофессиональных условиях, часто имеют дефекты, такие как избыто...

2025-08-06