MiSTR: Multi-Modal iEEG-to-Speech Synthesis with Transformer-Based Prosody Prediction and Neural Phase Reconstruction

2508.03166v1 cs.SD, cs.LG, eess.AS 2025-08-09
Авторы:

Mohammed Salah Al-Radhi, Géza Németh, Branislav Gerazov

Резюме на русском

## Контекст ИнINTELLIGENCE COMMUNICATIONS INTELLIGENCE COMMUNICATIONS синтез речи из интракраниальных электроэнцефалограмм (iEEG) представляет собой обещающую область, способную восстановить утерянную способность говорить у людей с серьезными нарушениями речи. Однако достижение естественного и понятного говорения остается сложной задачей из-за ограниченности методов представления признаков, моделирования просодии и восстановления фазового структуры звука. Нехватка эффективных решений в этих областях ограничивает качество генерируемого звука и затрудняет применение технологий в реальной жизни. ## Метод MiSTR — это глубокое обучение, которое сочетает несколько революционных техник для решения этих проблем. В частности, оно использует **Wavelet-based feature extraction**, что позволяет получить тонко масштабируемые представления временных, спектральных и нейрофизиологических свойств iEEG-сигналов. Далее, **Transformer-based decoder** применяется для точного предсказания просодии с помощью адаптивного моделирования интонации и пауз. Наконец, **neural phase vocoder** с динамической коррекцией спектра обеспечивает гармоничность звука и точность реконструкции. Этот комплексный подход обеспечивает высококачественную реконструкцию речи, включая тон, интонацию и естественность. ## Результаты Для оценки MiSTR проведены эксперименты на основе публичного датасета iEEG. Модель достигла следующих результатов: **mean Pearson correlation of 0.91** между генерируемыми и исходными Mel-спектрами, что значительно превосходит результаты лучших существующих моделей. Эти результаты устанавливают новый стандарт в области нейронного синтеза речи, показывая точность и натуральность генерируемого звука. ## Значимость Модель MiSTR открывает новые перспективы для восстановления речи у пациентов с расстройствами речи, таких как апазия или последствия инсульта. Кроме того, ее уникальный подход к моделированию просодии и реконструкции фазы может быть применен в других областях, таких как робототехника, виртуальные ассистенты и улучшение интеллектуальных систем. Благодаря инновационной архитектуре, MiSTR обеспечивает высокую точность и естественность речи, которая выше классических методов. ## Выводы MiSTR достигает нового уровня в синтезе речи из iEEG-сигналов, обеспечивая высокую точность и естественность звука. На основе этих результатов, будущие исследования будут сфокусированы на улучшении модели для более сложных ситуаций и расширении ее применения в различных областях, включая медицину и робототехнику.

Abstract

Speech synthesis from intracranial EEG (iEEG) signals offers a promising avenue for restoring communication in individuals with severe speech impairments. However, achieving intelligible and natural speech remains challenging due to limitations in feature representation, prosody modeling, and phase reconstruction. We introduce MiSTR, a deep-learning framework that integrates: 1) Wavelet-based feature extraction to capture fine-grained temporal, spectral, and neurophysiological representations of iEEG signals, 2) A Transformer-based decoder for prosody-aware spectrogram prediction, and 3) A neural phase vocoder enforcing harmonic consistency via adaptive spectral correction. Evaluated on a public iEEG dataset, MiSTR achieves state-of-the-art speech intelligibility, with a mean Pearson correlation of 0.91 between reconstructed and original Mel spectrograms, improving over existing neural speech synthesis baselines.

Ссылки и действия