Emotion-Aware Speech Generation with Character-Specific Voices for Comics
2509.15253v1
cs.SD, cs.AI, cs.MM, eess.AS
2025-09-22
Авторы:
Zhiwen Qian, Jinhua Liang, Huan Zhang
Резюме на русском
## Контекст
Современные комиксы, помимо текстов и картинок, часто включают сюжетные линии и персонажей со специфичными характеристиками, в том числе их эмоциональным состоянием. Однако существующие методы генерации речи для персонажей комиксов обычно не учитывают эмоциональный аспект или не достаточно учитывают контекст. Это приводит к люмпенному генерированию речи и неубедительному представлению персонажей. Мотивация исследования заключается в разработке метода, который бы автоматически создавал эмоционально окрашенную речь, которая была привязана к конкретному персонажу и его эмоциональному состоянию, а также была адаптирована к контексту сюжета.
## Метод
Разработанная система представляет собой интегрированный подход к генерации речи, который берет в качестве входных данных целые тома комиксов и выводит речь, привязанную к каждому персонажу и его эмоциональному состоянию. Основная модель состоит из трех компонентов: модуля обработки изображений, модели текстового распознавания и модели тексто-речи. Модуль обработки изображений выполняет детекцию персонажей, распознавание текста на изображениях и определение эмоционального тона. Модель текстового распознавания использует языковую модель, интегрируя информацию из визуальных ресурсов с эволюцией сюжета. Тексто-речевая модель синтезирует речь, используя специфичные для каждого персонажа и эмоции профили голоса. Эта система позволяет автоматически генерировать речь, соответствующую эмоциональному состоянию каждого персонажа, что вносит реализм и жизневую атмосферу в комиксы.
## Результаты
В ходе экспериментов было протестировано набор комиксов с различными стилями и героями. Модель была обучена на большом количестве текстов и визуальных данных с разными эмоциональными состояниями персонажей. Эксперименты показали, что система способна точно распознавать персонажей и их эмоциональный тон, а также генерировать речь, которая соответствует стилю каждого героя и его эмоциональному состоянию. Особое внимание было уделено сравнению с предыдущими методами, и данное решение показало значительное улучшение в точности распознавания эмоций и генерировании речи, которая звучит более натуральной и символичной.
## Значимость
Разработанный подход может быть применен в различных областях, включая компьютерную графику, анимацию и игровой индустрию. Он позволяет автоматически генерировать эмоционально окрашенную речь, что имеет важное значение для создания интерактивных и интерактивных систем. Это предоставляет новые возможност
Abstract
This paper presents an end-to-end pipeline for generating character-specific,
emotion-aware speech from comics. The proposed system takes full comic volumes
as input and produces speech aligned with each character's dialogue and
emotional state. An image processing module performs character detection, text
recognition, and emotion intensity recognition. A large language model performs
dialogue attribution and emotion analysis by integrating visual information
with the evolving plot context. Speech is synthesized through a text-to-speech
model with distinct voice profiles tailored to each character and emotion. This
work enables automated voiceover generation for comics, offering a step toward
interactive and immersive comic reading experience.