CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework
2509.08438v1
cs.CL, cs.MM, cs.SD, eess.AS
2025-09-12
Авторы:
Jinzhong Ning, Paerhati Tulajiang, Yingying Le, Yijia Zhang, Yuanyuan Sun, Hongfei Lin, Haifeng Liu
Резюме на русском
#### Контекст
Спикеровское извлечение отношений (Speech Relation Extraction, SpeechRE) является важной задачей в области обработки речи, которая стремится извлечь отношения в виде троек (субъект-предикат-объект) непосредственно из аудиоданных. Однако существующие датасеты для этой задачи значительно ограничены двумя ключевыми аспектами: (1) они часто опираются на синтетические данные, чья разнообразность и качество часто недостаточны для эффективного обучения реального мира, и (2) подходы, используемые в существующих моделях, часто ограничены решениями с одним порядком генерации, что приводит к слабой адаптации к контексту и недостаточной уточненности вывода. Это ставит перед исследователями и разработчиками вызовы в поиске решений для эффективного извлечения отношений из реальных данных речи.
#### Метод
Мы предлагаем **RPG-MoGe (Relation Prompt-Guided Multi-Order Generative Ensemble)** — новую архитектуру, основанную на двух основных компонентах:
1. **Многопорядковая стратегия генерации троек**: Такой подход позволяет эффективно использовать разнообразие порядков элементов (субъекта, предиката, объекта) во время обучения и процесса вывода. Это увеличивает точность и устойчивость модели, давая ей возможность приспособиться к сложным сценариям речи.
2. **CNN-based latent relation prediction heads**: Реляционные головы модели выражают отношения в виде явных генерируемых заголовков-подсказок. Это позволяет лучше синхронизировать кросс-модальные семантические аспекты и улучшить их выравнивание.
RPG-MoGe объединяет эти компоненты в единую систему, обеспечивая гибкость и эффективность в различных сценариях SpeechRE.
#### Результаты
Для оценки эффективности RPG-MoGe в работе проводились тщательные эксперименты на новом датасете **CommonVoice-SpeechRE**, состоящем из 19 779 реальных аудио-примеров, собранных с различных реальных речи. Результаты показали, что наш подход существенно превосходит существующие методы по метрикам F1-score, Precision и Recall. Мы также проводили анализ, показывающий, что вклад каждого компонента RPG-MoGe в обобщенную производительность значительно. Эти результаты подтверждают, что наш подход является эффективным инструментом для решения задач SpeechRE в реальном мире.
#### Значимость
Предложенный подход имеет широкие возможности применения в сферах, требующих эффективного извлечения отношений из речи, таких как:
- **Автоматическое понимание речи**: Улучшение взаимодействия с пользователями в системах распознавания речи (например, смарт-дисплеи или видеоречи).
- **Контент-анализ**: Извлечение отношений из голосовых сообщений в социальных сетях и мультимедийных конт
Abstract
Speech Relation Extraction (SpeechRE) aims to extract relation triplets
directly from speech. However, existing benchmark datasets rely heavily on
synthetic data, lacking sufficient quantity and diversity of real human speech.
Moreover, existing models also suffer from rigid single-order generation
templates and weak semantic alignment, substantially limiting their
performance. To address these challenges, we introduce CommonVoice-SpeechRE, a
large-scale dataset comprising nearly 20,000 real-human speech samples from
diverse speakers, establishing a new benchmark for SpeechRE research.
Furthermore, we propose the Relation Prompt-Guided Multi-Order Generative
Ensemble (RPG-MoGe), a novel framework that features: (1) a multi-order triplet
generation ensemble strategy, leveraging data diversity through diverse element
orders during both training and inference, and (2) CNN-based latent relation
prediction heads that generate explicit relation prompts to guide cross-modal
alignment and accurate triplet generation. Experiments show our approach
outperforms state-of-the-art methods, providing both a benchmark dataset and an
effective solution for real-world SpeechRE. The source code and dataset are
publicly available at https://github.com/NingJinzhong/SpeechRE_RPG_MoGe.