CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework

2509.08438v1 cs.CL, cs.MM, cs.SD, eess.AS 2025-09-12

Авторы:

Jinzhong Ning, Paerhati Tulajiang, Yingying Le, Yijia Zhang, Yuanyuan Sun, Hongfei Lin, Haifeng Liu

Резюме на русском

#### Контекст Спикеровское извлечение отношений (Speech Relation Extraction, SpeechRE) является важной задачей в области обработки речи, которая стремится извлечь отношения в виде троек (субъект-предикат-объект) непосредственно из аудиоданных. Однако существующие датасеты для этой задачи значительно ограничены двумя ключевыми аспектами: (1) они часто опираются на синтетические данные, чья разнообразность и качество часто недостаточны для эффективного обучения реального мира, и (2) подходы, используемые в существующих моделях, часто ограничены решениями с одним порядком генерации, что приводит к слабой адаптации к контексту и недостаточной уточненности вывода. Это ставит перед исследователями и разработчиками вызовы в поиске решений для эффективного извлечения отношений из реальных данных речи. #### Метод Мы предлагаем **RPG-MoGe (Relation Prompt-Guided Multi-Order Generative Ensemble)** — новую архитектуру, основанную на двух основных компонентах: 1. **Многопорядковая стратегия генерации троек**: Такой подход позволяет эффективно использовать разнообразие порядков элементов (субъекта, предиката, объекта) во время обучения и процесса вывода. Это увеличивает точность и устойчивость модели, давая ей возможность приспособиться к сложным сценариям речи. 2. **CNN-based latent relation prediction heads**: Реляционные головы модели выражают отношения в виде явных генерируемых заголовков-подсказок. Это позволяет лучше синхронизировать кросс-модальные семантические аспекты и улучшить их выравнивание. RPG-MoGe объединяет эти компоненты в единую систему, обеспечивая гибкость и эффективность в различных сценариях SpeechRE. #### Результаты Для оценки эффективности RPG-MoGe в работе проводились тщательные эксперименты на новом датасете **CommonVoice-SpeechRE**, состоящем из 19 779 реальных аудио-примеров, собранных с различных реальных речи. Результаты показали, что наш подход существенно превосходит существующие методы по метрикам F1-score, Precision и Recall. Мы также проводили анализ, показывающий, что вклад каждого компонента RPG-MoGe в обобщенную производительность значительно. Эти результаты подтверждают, что наш подход является эффективным инструментом для решения задач SpeechRE в реальном мире. #### Значимость Предложенный подход имеет широкие возможности применения в сферах, требующих эффективного извлечения отношений из речи, таких как: - **Автоматическое понимание речи**: Улучшение взаимодействия с пользователями в системах распознавания речи (например, смарт-дисплеи или видеоречи). - **Контент-анализ**: Извлечение отношений из голосовых сообщений в социальных сетях и мультимедийных конт

Abstract

Speech Relation Extraction (SpeechRE) aims to extract relation triplets directly from speech. However, existing benchmark datasets rely heavily on synthetic data, lacking sufficient quantity and diversity of real human speech. Moreover, existing models also suffer from rigid single-order generation templates and weak semantic alignment, substantially limiting their performance. To address these challenges, we introduce CommonVoice-SpeechRE, a large-scale dataset comprising nearly 20,000 real-human speech samples from diverse speakers, establishing a new benchmark for SpeechRE research. Furthermore, we propose the Relation Prompt-Guided Multi-Order Generative Ensemble (RPG-MoGe), a novel framework that features: (1) a multi-order triplet generation ensemble strategy, leveraging data diversity through diverse element orders during both training and inference, and (2) CNN-based latent relation prediction heads that generate explicit relation prompts to guide cross-modal alignment and accurate triplet generation. Experiments show our approach outperforms state-of-the-art methods, providing both a benchmark dataset and an effective solution for real-world SpeechRE. The source code and dataset are publicly available at https://github.com/NingJinzhong/SpeechRE_RPG_MoGe.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация