Expressive Speech Retrieval using Natural Language Descriptions of Speaking Style
2508.11187v1
eess.AS, cs.CL, cs.SD
2025-08-19
Авторы:
Wonjune Kang, Deb Roy
Резюме на русском
## Контекст
Существует устойчивая тенденция в развитии звукового поиска, направленная на создание моделей, которые могут выполнять поиск звуковых фрагментов по текстовым описаниям. Однако поисковые запросы, как правило, ограничиваются описанием содержимого речи, не учитывая стиль ее воспроизведения. Это привело к отсутствию методов, работающих с изменениями в стиле речи, таких как эмоциональные оттенки, скорость, тональность и другие экспрессивные особенности. Мотивация для этого исследования заключается в развитии моделей, которые могут выполнять поиск речи не только по содержимому, но и по стилю ее воплощения. Это открывает новые возможности для звукового поиска, в том числе для поиска речи по эмоциональным описаниям, стилям и другим атрибутам.
## Метод
Мы предлагаем фреймворк, объединяющий текстовые описания стиля речи с ее акустическими признаками в единое пространство. Учитывая то, что текст описания и акустические признаки речи являются разными типами данных, мы используем модели генеративного представления, которые могут преобразовывать эти данные в пространство, где они могут быть эффективно сравниваемы. Мы обучаем два вида моделей: модель для текста, которая превращает описания стиля речи в векторы, и модель для звука, которая превращает акустические признаки речи в векторы. Затем эти модели обучаются вместе, чтобы обеспечить эффективную и точную корреляцию между звуковыми и текстовыми данными.
## Результаты
Мы проводим эксперименты на нескольких датасетах, содержащих звуковые записи речи, как описано в тексте. Наши модели обучены на 22 различных эмоциональных и стилистических атрибутах. Мы оцениваем их по точности поиска, используя критерий Recall@k. Наши результаты показывают, что наши модели способны выполнять поиск речи по текстовым описаниям с высокой точностью, особенно когда используются богатые текстовые описания. Мы также проводим серию анализов, включая эффективность различных моделей генерации текста, а также сравниваем результаты с различными модификациями наших моделей.
## Значимость
Наша работа может быть применена в различных областях, включая развитие интеллектуальных систем, ориентированных на звуковый поиск, а также в области моделирования и анализа речи. Этот подход может быть полезен для создания систем, которые могут понимать и идентифицировать эмоциональный тон речи, диалект и другие стилистические атрибуты. В дополнение, наша работа демонстрирует потенциал для улучшения точности в поисковых системах, которые используют естественный язык для выражения потребностей пользователей.
## Выводы
Мы представляем но
Abstract
We introduce the task of expressive speech retrieval, where the goal is to
retrieve speech utterances spoken in a given style based on a natural language
description of that style. While prior work has primarily focused on performing
speech retrieval based on what was said in an utterance, we aim to do so based
on how something was said. We train speech and text encoders to embed speech
and text descriptions of speaking styles into a joint latent space, which
enables using free-form text prompts describing emotions or styles as queries
to retrieve matching expressive speech segments. We perform detailed analyses
of various aspects of our proposed framework, including encoder architectures,
training criteria for effective cross-modal alignment, and prompt augmentation
for improved generalization to arbitrary text queries. Experiments on multiple
datasets encompassing 22 speaking styles demonstrate that our approach achieves
strong retrieval performance as measured by Recall@k.
Ссылки и действия
Дополнительные ресурсы: