LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis
2509.04072v1
eess.AS, cs.CL, cs.SD
2025-09-06
Авторы:
Gaspard Michel, Elena V. Epure, Christophe Cerisara
Резюме на русском
#### Контекст
Текст-to-speech (TTS) системы достигли значительных у mejoras в создании выразительной и натуральной речи, благодаря обучению на больших корпусах речи. Однако часто неясно, насколько выразительная речь присутствует в этих больших данных. Доступные кросс-речевые хранилища, целесообразно использовать для оценки и тестирования TTS систем, но их масштаб во многом ограничен. В настоящей работе представлен корпус LibriQuote, основанный на английских аудиокнигах, который предназначен для тонкой настройки и оценки выразительных TTS систем. Он содержит 12,7 килочасов невыразительной речи и 5,3 килочасов выразительной речи, извлеченной из цитат персонажей. Каждый выразительный пример сопровождается контекстом, в котором была написана цитата, а также метками, описывающими выражение речи (например, "он говорил медленно и злостно"). Также представлен тестовый набор данных, предназначенный для оценки того, насколько хорошо системы TTS могут передавать желаемую выразительность, сохраняя звучание речи.
#### Метод
LibriQuote был построен из 12,7 килочасов невыразительной речи, извлеченных из аудиокниг, и 5,3 килочасов выразительной речи, содержащих цитаты персонажей. Эти выразительные примеры аннотированы словами и словосочетаниями, описывающими выражение речи. Разработанный тест позволяет оценить способность TTS систем выделять выразительность в речи, сохраняя звучание. Эксперименты проводились с помощью нескольких моделей TTS, включая те, которые были тонко настроены на LibriQuote.
#### Результаты
Обучение современных моделей TTS на LibriQuote улучшило ясность и выразительность произносимого текста, особенно в сравнении с невыразительными данными. Однако субъективные и объективные оценки показали, что даже рекордные модели не могут достичь той же выразительности и природности, что и грунтовные звуки. На тестовом наборе был продемонстрирован тот факт, что некоторые модели TTS не могут сохранить голос интереса или эмоции при синтезе речи.
#### Значимость
LibriQuote может быть использован для тонкой настройки TTS систем, особенно для тех, которые стремятся к выразительной речи. Его могут использовать разработчики и исследователи для создания более природных и выразительных моделей речи. Более выразительные модели TTS могут быть применены в различных областях, включая развлечения, литературу и интерактивные системы.
#### Выводы
LibriQuote является крупнейшим выразительным TTS корпусом, основанным на аудиокнигах. Исследования показали, что тонкая настройка на этот корпус может значительно улучшить выразительность генерируемой речи. Дальнейшие исследования б
Abstract
Text-to-speech (TTS) systems have recently achieved more expressive and
natural speech synthesis by scaling to large speech datasets. However, the
proportion of expressive speech in such large-scale corpora is often unclear.
Besides, existing expressive speech corpora are typically smaller in scale and
primarily used for benchmarking TTS systems. In this paper, we introduce the
LibriQuote dataset, an English corpus derived from read audiobooks, designed
for both fine-tuning and benchmarking expressive zero-shot TTS system. The
training dataset includes 12.7K hours of read, non-expressive speech and 5.3K
hours of mostly expressive speech drawn from character quotations. Each
utterance in the expressive subset is supplemented with the context in which it
was written, along with pseudo-labels of speech verbs and adverbs used to
describe the quotation (\textit{e.g. ``he whispered softly''}). Additionally,
we provide a challenging 7.5 hour test set intended for benchmarking TTS
systems: given a neutral reference speech as input, we evaluate system's
ability to synthesize an expressive utterance while preserving reference
timbre. We validate qualitatively the test set by showing that it covers a wide
range of emotions compared to non-expressive speech, along with various
accents. Extensive subjective and objective evaluations show that fine-tuning a
baseline TTS system on LibriQuote significantly improves its synthesized speech
intelligibility, and that recent systems fail to synthesize speech as
expressive and natural as the ground-truth utterances. The dataset and
evaluation code are freely available. Audio samples can be found at
https://libriquote.github.io/.
Ссылки и действия
Дополнительные ресурсы: