MiSTR: Multi-Modal iEEG-to-Speech Synthesis with Transformer-Based Prosody Prediction and Neural Phase Reconstruction
2508.03166v1
cs.SD, cs.LG, eess.AS
2025-08-09
Авторы:
Mohammed Salah Al-Radhi, Géza Németh, Branislav Gerazov
Резюме на русском
## Контекст
ИнINTELLIGENCE COMMUNICATIONS INTELLIGENCE COMMUNICATIONS синтез речи из интракраниальных электроэнцефалограмм (iEEG) представляет собой обещающую область, способную восстановить утерянную способность говорить у людей с серьезными нарушениями речи. Однако достижение естественного и понятного говорения остается сложной задачей из-за ограниченности методов представления признаков, моделирования просодии и восстановления фазового структуры звука. Нехватка эффективных решений в этих областях ограничивает качество генерируемого звука и затрудняет применение технологий в реальной жизни.
## Метод
MiSTR — это глубокое обучение, которое сочетает несколько революционных техник для решения этих проблем. В частности, оно использует **Wavelet-based feature extraction**, что позволяет получить тонко масштабируемые представления временных, спектральных и нейрофизиологических свойств iEEG-сигналов. Далее, **Transformer-based decoder** применяется для точного предсказания просодии с помощью адаптивного моделирования интонации и пауз. Наконец, **neural phase vocoder** с динамической коррекцией спектра обеспечивает гармоничность звука и точность реконструкции. Этот комплексный подход обеспечивает высококачественную реконструкцию речи, включая тон, интонацию и естественность.
## Результаты
Для оценки MiSTR проведены эксперименты на основе публичного датасета iEEG. Модель достигла следующих результатов: **mean Pearson correlation of 0.91** между генерируемыми и исходными Mel-спектрами, что значительно превосходит результаты лучших существующих моделей. Эти результаты устанавливают новый стандарт в области нейронного синтеза речи, показывая точность и натуральность генерируемого звука.
## Значимость
Модель MiSTR открывает новые перспективы для восстановления речи у пациентов с расстройствами речи, таких как апазия или последствия инсульта. Кроме того, ее уникальный подход к моделированию просодии и реконструкции фазы может быть применен в других областях, таких как робототехника, виртуальные ассистенты и улучшение интеллектуальных систем. Благодаря инновационной архитектуре, MiSTR обеспечивает высокую точность и естественность речи, которая выше классических методов.
## Выводы
MiSTR достигает нового уровня в синтезе речи из iEEG-сигналов, обеспечивая высокую точность и естественность звука. На основе этих результатов, будущие исследования будут сфокусированы на улучшении модели для более сложных ситуаций и расширении ее применения в различных областях, включая медицину и робототехнику.
Abstract
Speech synthesis from intracranial EEG (iEEG) signals offers a promising
avenue for restoring communication in individuals with severe speech
impairments. However, achieving intelligible and natural speech remains
challenging due to limitations in feature representation, prosody modeling, and
phase reconstruction. We introduce MiSTR, a deep-learning framework that
integrates: 1) Wavelet-based feature extraction to capture fine-grained
temporal, spectral, and neurophysiological representations of iEEG signals, 2)
A Transformer-based decoder for prosody-aware spectrogram prediction, and 3) A
neural phase vocoder enforcing harmonic consistency via adaptive spectral
correction. Evaluated on a public iEEG dataset, MiSTR achieves state-of-the-art
speech intelligibility, with a mean Pearson correlation of 0.91 between
reconstructed and original Mel spectrograms, improving over existing neural
speech synthesis baselines.
Ссылки и действия
Дополнительные ресурсы: