📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation

2025-09-20

Авторы:

Miseul Kim, Soo Jin Park, Kyungguen Byun, Hyeon-Kyeong Shin, Sunkuk Moon, Shuhua Zhang, Erik Visser

## Контекст Speaker diarization — это процесс определения участников речи в аудиозаписи. Однако она сталкивается с значительными трудностями при работе с высокой внутриговорника (intra-speaker) переменностью. Это включает в себя изменения эмоционального тона, здравоохранения и других стилевых элементов речи. Такие переменности могут привести к ошибкам в классификации, когда один и тот же говорящий может быть неправильно считан за разных людей. Мы предлагаем стилястическую модель управляемого генерирования речи, которая может генерировать речь в различных стилях, но при этом сохранять идентичность речи. Наша модель может уменьшить ошибки в диаризации, используя аугментацию речи на основе фонетической и стилистической разнообразности. ## Метод Мы предлагаем стилястическую модель управляемого генерирования речи, которая может преобразовывать речь в различных стилях. Модель принимает диаризованные фрагменты с помощью стандартного диаризатора и потом генерирует звуковые фрагменты, которые отражают различные стили. Мы используем скрытую репрезентацию в аудиоинформации для создания новых фрагментов с различными стилями, но сохраняя идентичность речи. Эта модель тренируется с помощью кросс-энтропийной функции потерь для стилистического метода. ## Результаты Мы проверили модель на двух датасетах: эмоциональной речи и AMI. Мы сравнили результаты с помощью стандартного метода диаризации. На датасете эмоциональной речи, мы получили реduction эррора на 49%, а на датасете AMI — на 35%. Эти результаты показывают, что наш метод эффективно компенсирует внутриговорника переменность и повышает точность диаризации. ## Значимость Наш метод может быть использован в различных сферах, таких как анализ речи, легальная идентификация, анализ эмоций и другие приложения. Его основным преимуществом является уменьшение ошибок в диаризации, которые могут быть вызваны переменностью речи. Это может повысить точность в распознавании речи и улучшить использование данных речи в различных приложениях. ## Выводы Мы предложили стилястическую модель управляемого генерирования речи, которая может уменьшить ошибки в диаризации, связанные с внутриговорника переменностью. Мы проверили нашу модель на двух разных датасетах, показав её эффективность. Мы планируем провести более подробные эксперименты и расширить область применения этой модели.

Annotation:

Speaker diarization systems often struggle with high intrinsic intra-speaker variability, such as shifts in emotion, health, or content. This can cause segments from the same speaker to be misclassified as different individuals, for example, when one raises their voice or speaks faster during conversation. To address this, we propose a style-controllable speech generation model that augments speech across diverse styles while preserving the target speaker's identity. The proposed system starts w...

ID: 2509.14632v1 eess.AS, cs.AI, eess.SP

arXiv PDF