Expressive Speech Retrieval using Natural Language Descriptions of Speaking Style

2508.11187v1 eess.AS, cs.CL, cs.SD 2025-08-19
Авторы:

Wonjune Kang, Deb Roy

Резюме на русском

## Контекст Существует устойчивая тенденция в развитии звукового поиска, направленная на создание моделей, которые могут выполнять поиск звуковых фрагментов по текстовым описаниям. Однако поисковые запросы, как правило, ограничиваются описанием содержимого речи, не учитывая стиль ее воспроизведения. Это привело к отсутствию методов, работающих с изменениями в стиле речи, таких как эмоциональные оттенки, скорость, тональность и другие экспрессивные особенности. Мотивация для этого исследования заключается в развитии моделей, которые могут выполнять поиск речи не только по содержимому, но и по стилю ее воплощения. Это открывает новые возможности для звукового поиска, в том числе для поиска речи по эмоциональным описаниям, стилям и другим атрибутам. ## Метод Мы предлагаем фреймворк, объединяющий текстовые описания стиля речи с ее акустическими признаками в единое пространство. Учитывая то, что текст описания и акустические признаки речи являются разными типами данных, мы используем модели генеративного представления, которые могут преобразовывать эти данные в пространство, где они могут быть эффективно сравниваемы. Мы обучаем два вида моделей: модель для текста, которая превращает описания стиля речи в векторы, и модель для звука, которая превращает акустические признаки речи в векторы. Затем эти модели обучаются вместе, чтобы обеспечить эффективную и точную корреляцию между звуковыми и текстовыми данными. ## Результаты Мы проводим эксперименты на нескольких датасетах, содержащих звуковые записи речи, как описано в тексте. Наши модели обучены на 22 различных эмоциональных и стилистических атрибутах. Мы оцениваем их по точности поиска, используя критерий Recall@k. Наши результаты показывают, что наши модели способны выполнять поиск речи по текстовым описаниям с высокой точностью, особенно когда используются богатые текстовые описания. Мы также проводим серию анализов, включая эффективность различных моделей генерации текста, а также сравниваем результаты с различными модификациями наших моделей. ## Значимость Наша работа может быть применена в различных областях, включая развитие интеллектуальных систем, ориентированных на звуковый поиск, а также в области моделирования и анализа речи. Этот подход может быть полезен для создания систем, которые могут понимать и идентифицировать эмоциональный тон речи, диалект и другие стилистические атрибуты. В дополнение, наша работа демонстрирует потенциал для улучшения точности в поисковых системах, которые используют естественный язык для выражения потребностей пользователей. ## Выводы Мы представляем но

Abstract

We introduce the task of expressive speech retrieval, where the goal is to retrieve speech utterances spoken in a given style based on a natural language description of that style. While prior work has primarily focused on performing speech retrieval based on what was said in an utterance, we aim to do so based on how something was said. We train speech and text encoders to embed speech and text descriptions of speaking styles into a joint latent space, which enables using free-form text prompts describing emotions or styles as queries to retrieve matching expressive speech segments. We perform detailed analyses of various aspects of our proposed framework, including encoder architectures, training criteria for effective cross-modal alignment, and prompt augmentation for improved generalization to arbitrary text queries. Experiments on multiple datasets encompassing 22 speaking styles demonstrate that our approach achieves strong retrieval performance as measured by Recall@k.

Ссылки и действия