Brainprint-Modulated Target Speaker Extraction
2509.17883v1
cs.SD, cs.LG
2025-09-24
Авторы:
Qiushi Han, Yuan Liao, Youhao Si, Liya Huang
Резюме на русском
## Контекст
Улучшение выживаемости и эффективности личносторонней работы нейронаушников требует решения сложных проблем. Одна из основных проблем заключается в нестационарности сигналов EEG, которая снижает эффективность общих моделей. Эти характеристики ограничивают достоверность и качество личностной реакции. Поэтому, необходимо разработать систему, которая будет учитывать персональные особенности пользователя для повышения качества использования нейронаушников.
## Метод
Предлагается Brainprint-Modulated Target Speaker Extraction (BM-TSE), новая архитектурная форма для личностного и высокоточного извлечения голоса. Она включает в себя сеть спектро-временного EEG-кодирования с модулем Adaptive Spectral Gain (ASG), который восстанавливает устойчивые индивидуальные фичи. Центральной частью является модуль личностной модификации, в котором учитываются статические характеристики пользователя и динамические положения внимания. Этот подход использует тренированные модели Subject Identification (SID) и Auditory Attention Decoding (AAD) для динамической регулировки процесса аудио-разделения.
## Результаты
Использованы данные из публичных наборов KUL и Cocktail Party. Испытания показали, что BM-TSE превосходит существующие методы в выделении голоса, особенно в условиях нестационарных и индивидуальных особенностей. Результаты показывают высокую точность и личностную адаптацию, что значительно улучшает качество работы нейронаушников.
## Значимость
Предлагаемый подход может быть применен в разработке более удобных и эффективных нейронаушников. Он обеспечивает более точное и достоверное выделение голоса, что уменьшает риски неточностей и улучшает комфорт использования. Благодаря этому можно повысить качество звука и повысить удобство для пользователя.
## Выводы
BM-TSE достигает нового уровня качества в личностной модификации голоса. Будущие работы будут сфокусированы на улучшении моделей для различных условий и совершенствовании интерфейса для управления. Эти изменения будут улучшить общую эффективность и пользовательский опыт.
Abstract
Achieving robust and personalized performance in neuro-steered Target Speaker
Extraction (TSE) remains a significant challenge for next-generation hearing
aids. This is primarily due to two factors: the inherent non-stationarity of
EEG signals across sessions, and the high inter-subject variability that limits
the efficacy of generalized models. To address these issues, we propose
Brainprint-Modulated Target Speaker Extraction (BM-TSE), a novel framework for
personalized and high-fidelity extraction. BM-TSE first employs a
spatio-temporal EEG encoder with an Adaptive Spectral Gain (ASG) module to
extract stable features resilient to non-stationarity. The core of our
framework is a personalized modulation mechanism, where a unified brainmap
embedding is learned under the joint supervision of subject identification
(SID) and auditory attention decoding (AAD) tasks. This learned brainmap,
encoding both static user traits and dynamic attentional states, actively
refines the audio separation process, dynamically tailoring the output to each
user. Evaluations on the public KUL and Cocktail Party datasets demonstrate
that BM-TSE achieves state-of-the-art performance, significantly outperforming
existing methods. Our code is publicly accessible at:
https://github.com/rosshan-orz/BM-TSE.
Ссылки и действия
Дополнительные ресурсы: