📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework

2025-09-12

Авторы:

Jinzhong Ning, Paerhati Tulajiang, Yingying Le, Yijia Zhang, Yuanyuan Sun, Hongfei Lin, Haifeng Liu

#### Контекст Спикеровское извлечение отношений (Speech Relation Extraction, SpeechRE) является важной задачей в области обработки речи, которая стремится извлечь отношения в виде троек (субъект-предикат-объект) непосредственно из аудиоданных. Однако существующие датасеты для этой задачи значительно ограничены двумя ключевыми аспектами: (1) они часто опираются на синтетические данные, чья разнообразность и качество часто недостаточны для эффективного обучения реального мира, и (2) подходы, используемые в существующих моделях, часто ограничены решениями с одним порядком генерации, что приводит к слабой адаптации к контексту и недостаточной уточненности вывода. Это ставит перед исследователями и разработчиками вызовы в поиске решений для эффективного извлечения отношений из реальных данных речи. #### Метод Мы предлагаем **RPG-MoGe (Relation Prompt-Guided Multi-Order Generative Ensemble)** — новую архитектуру, основанную на двух основных компонентах: 1. **Многопорядковая стратегия генерации троек**: Такой подход позволяет эффективно использовать разнообразие порядков элементов (субъекта, предиката, объекта) во время обучения и процесса вывода. Это увеличивает точность и устойчивость модели, давая ей возможность приспособиться к сложным сценариям речи. 2. **CNN-based latent relation prediction heads**: Реляционные головы модели выражают отношения в виде явных генерируемых заголовков-подсказок. Это позволяет лучше синхронизировать кросс-модальные семантические аспекты и улучшить их выравнивание. RPG-MoGe объединяет эти компоненты в единую систему, обеспечивая гибкость и эффективность в различных сценариях SpeechRE. #### Результаты Для оценки эффективности RPG-MoGe в работе проводились тщательные эксперименты на новом датасете **CommonVoice-SpeechRE**, состоящем из 19 779 реальных аудио-примеров, собранных с различных реальных речи. Результаты показали, что наш подход существенно превосходит существующие методы по метрикам F1-score, Precision и Recall. Мы также проводили анализ, показывающий, что вклад каждого компонента RPG-MoGe в обобщенную производительность значительно. Эти результаты подтверждают, что наш подход является эффективным инструментом для решения задач SpeechRE в реальном мире. #### Значимость Предложенный подход имеет широкие возможности применения в сферах, требующих эффективного извлечения отношений из речи, таких как: - **Автоматическое понимание речи**: Улучшение взаимодействия с пользователями в системах распознавания речи (например, смарт-дисплеи или видеоречи). - **Контент-анализ**: Извлечение отношений из голосовых сообщений в социальных сетях и мультимедийных конт

Annotation:

Speech Relation Extraction (SpeechRE) aims to extract relation triplets directly from speech. However, existing benchmark datasets rely heavily on synthetic data, lacking sufficient quantity and diversity of real human speech. Moreover, existing models also suffer from rigid single-order generation templates and weak semantic alignment, substantially limiting their performance. To address these challenges, we introduce CommonVoice-SpeechRE, a large-scale dataset comprising nearly 20,000 real-hum...

ID: 2509.08438v1 cs.CL, cs.MM, cs.SD, eess.AS

arXiv PDF