Neural Speech Extraction with Human Feedback

2508.03041v1 cs.SD, cs.LG, eess.AS 2025-08-09

Авторы:

Malek Itani, Ashton Graves, Sefik Emre Eskimez, Shyamnath Gollakota

Резюме на русском

#### Контекст Нейронные системы для извлечения речи (TSE) широко применяются для звукового декодирования, но лишаются гибкости в обработке пользовательских комментариев. Традиционный подход не рассматривает моменты, где пользователи могут обнаружить ошибки в выводе и просить о редактировании. Это ограничивает эффективность в сценариях, где пользователи хотят контролировать точные сегменты речи. Поэтому, требуется система, которая не только извлекала бы речь, но и позволяла пользователям вносить индивидуальные поправки, улучшая результаты в реальном времени. #### Метод Мы предлагаем новую архитектуру TSE, которая включает пользователя в процесс редактирования. На вход подается исходный звуковой сигнал, который проходит нейронную модель для извлечения речи. Затем пользователь может отметить ошибки в результате. Маска редактирования (edit mask), создаваемая пользователем, используется для регулирования областей, требующих очистки или изменений. Модель обучается на синтетических наборах данных, где разметка используется для произвольных масок, включая функции шума и громкости. Эти модели обучаются для воспроизведения точных результатов, которые подходят пользователям. #### Результаты Мы проводили эксперименты с двумя вариантами масок: шумовой и пробабильной. Результаты показали, что модели, обученные на моделировании шума в dBFS (децибела фонового звука), и применении пробабильных значений, показали наилучший алгоритм. Эта модель близка к результатам, которые предпочитают участники в экспериментах. Мы провели статистический анализ на 22 участниках, которые сравнили нашу модель с базовой TSE. Результаты показали, что пользователи предпочитают результаты, полученные с использованием нашей системы. #### Значимость Наша система демонстрирует мощь людского взаимодействия в процессе извлечения речи. Она может применяться в различных сегментах, таких как видеоредактирование, звуковые синтезеры и улучшение речи для роботов. Здесь преимущество в том, что пользователи могут контролировать точные регионы, чтобы изменить результат в соответствии с их потребностями. Это может повысить качество работы в сфере поиска и анализа звуковых данных. #### Выводы Мы представили первую систему TSE с участием пользователя в редактировании. Наши результаты показывают, что людское взаимодействие может значительно улучшить результаты. Мы планируем расширить эту работу, включив более сложные сценарии и улучшив модельную архитектуру для более точного извлечения речи с интерактивным редактированием.

Abstract

We present the first neural target speech extraction (TSE) system that uses human feedback for iterative refinement. Our approach allows users to mark specific segments of the TSE output, generating an edit mask. The refinement system then improves the marked sections while preserving unmarked regions. Since large-scale datasets of human-marked errors are difficult to collect, we generate synthetic datasets using various automated masking functions and train models on each. Evaluations show that models trained with noise power-based masking (in dBFS) and probabilistic thresholding perform best, aligning with human annotations. In a study with 22 participants, users showed a preference for refined outputs over baseline TSE. Our findings demonstrate that human-in-the-loop refinement is a promising approach for improving the performance of neural speech extraction.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Neural Speech Extraction with Human Feedback

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Fine-tuning Pre-trained Audio Models for COVID-19 Detection: A Technical Report

Transformer Redesign for Late Fusion of Audio-Text Features on Ultra-Low-Power E...

ProGress: Structured Music Generation via Graph Diffusion and Hierarchical Music...

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decodi...

Transcribing Rhythmic Patterns of the Guitar Track in Polyphonic Music

Навигация