LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis

2509.04072v1 eess.AS, cs.CL, cs.SD 2025-09-06

Авторы:

Gaspard Michel, Elena V. Epure, Christophe Cerisara

Резюме на русском

#### Контекст Текст-to-speech (TTS) системы достигли значительных у mejoras в создании выразительной и натуральной речи, благодаря обучению на больших корпусах речи. Однако часто неясно, насколько выразительная речь присутствует в этих больших данных. Доступные кросс-речевые хранилища, целесообразно использовать для оценки и тестирования TTS систем, но их масштаб во многом ограничен. В настоящей работе представлен корпус LibriQuote, основанный на английских аудиокнигах, который предназначен для тонкой настройки и оценки выразительных TTS систем. Он содержит 12,7 килочасов невыразительной речи и 5,3 килочасов выразительной речи, извлеченной из цитат персонажей. Каждый выразительный пример сопровождается контекстом, в котором была написана цитата, а также метками, описывающими выражение речи (например, "он говорил медленно и злостно"). Также представлен тестовый набор данных, предназначенный для оценки того, насколько хорошо системы TTS могут передавать желаемую выразительность, сохраняя звучание речи. #### Метод LibriQuote был построен из 12,7 килочасов невыразительной речи, извлеченных из аудиокниг, и 5,3 килочасов выразительной речи, содержащих цитаты персонажей. Эти выразительные примеры аннотированы словами и словосочетаниями, описывающими выражение речи. Разработанный тест позволяет оценить способность TTS систем выделять выразительность в речи, сохраняя звучание. Эксперименты проводились с помощью нескольких моделей TTS, включая те, которые были тонко настроены на LibriQuote. #### Результаты Обучение современных моделей TTS на LibriQuote улучшило ясность и выразительность произносимого текста, особенно в сравнении с невыразительными данными. Однако субъективные и объективные оценки показали, что даже рекордные модели не могут достичь той же выразительности и природности, что и грунтовные звуки. На тестовом наборе был продемонстрирован тот факт, что некоторые модели TTS не могут сохранить голос интереса или эмоции при синтезе речи. #### Значимость LibriQuote может быть использован для тонкой настройки TTS систем, особенно для тех, которые стремятся к выразительной речи. Его могут использовать разработчики и исследователи для создания более природных и выразительных моделей речи. Более выразительные модели TTS могут быть применены в различных областях, включая развлечения, литературу и интерактивные системы. #### Выводы LibriQuote является крупнейшим выразительным TTS корпусом, основанным на аудиокнигах. Исследования показали, что тонкая настройка на этот корпус может значительно улучшить выразительность генерируемой речи. Дальнейшие исследования б

Abstract

Text-to-speech (TTS) systems have recently achieved more expressive and natural speech synthesis by scaling to large speech datasets. However, the proportion of expressive speech in such large-scale corpora is often unclear. Besides, existing expressive speech corpora are typically smaller in scale and primarily used for benchmarking TTS systems. In this paper, we introduce the LibriQuote dataset, an English corpus derived from read audiobooks, designed for both fine-tuning and benchmarking expressive zero-shot TTS system. The training dataset includes 12.7K hours of read, non-expressive speech and 5.3K hours of mostly expressive speech drawn from character quotations. Each utterance in the expressive subset is supplemented with the context in which it was written, along with pseudo-labels of speech verbs and adverbs used to describe the quotation (\textit{e.g. ``he whispered softly''}). Additionally, we provide a challenging 7.5 hour test set intended for benchmarking TTS systems: given a neutral reference speech as input, we evaluate system's ability to synthesize an expressive utterance while preserving reference timbre. We validate qualitatively the test set by showing that it covers a wide range of emotions compared to non-expressive speech, along with various accents. Extensive subjective and objective evaluations show that fine-tuning a baseline TTS system on LibriQuote significantly improves its synthesized speech intelligibility, and that recent systems fail to synthesize speech as expressive and natural as the ground-truth utterances. The dataset and evaluation code are freely available. Audio samples can be found at https://libriquote.github.io/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech E...

Pruning as Regularization: Sensitivity-Aware One-Shot Pruning in ASR

Quantizing Whisper-small: How design choices affect ASR performance

LibriConvo: Simulating Conversations from Read Literature for ASR and Diarizatio...

Навигация