📚 Саммари научных статей из arXiv

Найдено 80 результатов по запросу 'cs.SD, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Audio Flamingo Sound-CoT Technical Report: Improving Chain-of-Thought Reasoning in Sound Understanding

2025-08-19

Авторы:

Zhifeng Kong, Arushi Goel, Joao Felipe Santos, Sreyan Ghosh, Rafael Valle, Wei Ping, Bryan Catanzaro

## Контекст Область исследования аудио-анализа и обработки звука постоянно развивается, в связи с ростом интереса к обработке естественных языков и сложным прикладным задачам. Несмотря на успехы в области языковых моделей и визуально-языковых моделей, цепочечный (chain-of-thought) подход в рассуждениях, особенно в аудиозадачах, остается недостаточно исследованным. Данное исследование сосредоточено на том, как адаптировать chain-of-thought (CoT) на слуховые данные, чтобы улучшить его модели. Основная мотивация заключается в улучшении логического рассуждения в аудиомоделях, чтобы их можно было использовать для решения задач распознавания звука и оценки звуковых данных. ## Метод Для улучшения chain-of-thought в аудиомоделях предлагается создание собственной корпорации данных, AF-CoT-Train, включающей 1.24 миллиона примеров. Эта корпорация данных генерируется с помощью автоматических трансформационных техник, которые преобразуют существующие задачи связывания вопросов и ответов с звуковыми данными в цепочки рассуждений. Архитектура цепочечного рассуждения включает в себя несколько этапов: преобразование входных задач в структурированные запросы с цепочками, следующим образом, чтобы модель могла лучше понять логику и связи между содержанием, а также улучшить свои решения. Модели Audio Flamingo были применены для обучения и тестирования, с целью улучшения chain-of-thought. ## Результаты Эксперименты проводились на AF-Reasoning-Eval, бенчмарк, разработанный для оценки логических рассуждений в звуковых моделях. Модели Audio Flamingo были обучены AF-CoT-Train и протестированы на AF-Reasoning-Eval. Результаты показали значительные улучшения в производительности, особенно в области выполнения зондных рассуждений и выбора среди близких вариантов. Такие результаты подтвердили эффективность chain-of-thought finetuning для улучшения звукового понимания и рассуждений. ## Значимость Улучшение chain-of-thought в аудиомоделях имеет широкие применения в таких областях, как распознавание звука, оценка звуковых записей, а также в обработке естественного языка и других сложных приложениях. Этот подход демонстрирует повышенную точность и логическую корректность в анализе аудиоматериалов. Это может привести к улучшению приложений, таких как системы распознавания речи, звуковой поиск и визуально-аудио синтез. ## Выводы Этот доклад демонстрирует начальные успехи в применении chain-of-thought на слуховые данные, показывая улучшение производительности на различных задачах звукового понимания. Будущие исследования будут сосредоточены на улучшении логики chain-of-thought для более сложных задач зву

Annotation:

Chain-of-thought reasoning has demonstrated significant improvements in large language models and vision language models, yet its potential for audio language models remains largely unexplored. In this technical report, we take a preliminary step towards closing this gap. For better assessment of sound reasoning, we propose AF-Reasoning-Eval, a benchmark targeting common-sense reasoning and the ability to discriminate among closely related choices. To prepare training corpus for sound reasoning ...

ID: 2508.11818v1 cs.SD, cs.LG

arXiv PDF

📄 Optimizing Neural Architectures for Hindi Speech Separation and Enhancement in Noisy Environments

2025-08-19

Авторы:

Arnav Ramamoorthy

## Контекст В современных условиях, где звукозаписи часто подвергаются помехам и шумам, необходимо развивать методы улучшения и разделения говорения. Эта проблема актуальна не только для работы с английским, но и с другими языками, включая хинди. Хинди является широко распространенным языком, особенно в Индии, где шумы окружающей среды сильно влияют на качество звукозаписи. Существующие методы разделения и улучшения говорения часто неэффективны, так как не приспособлены к специфике хинди и окружающих условий. Мотивацией для этого исследования является необходимость создания более точных и эффективных алгоритмов, которые могут оптимально работать в реальных условиях с шумом. ## Метод Данная работа основывается на рефинированном подходе к модели DEMUCS, которая использует U-Net и LSTM-слои для более тонкого улучшения говорения. Модель была настроена на датасет, состоящий из 400,000 звуковых сэмплов, включая хинди, английский и различные акустические условия. Для увеличения разнообразия данных были включены данные из наборов ESC-50 и MS-SNSD. Для оценки результатов использовались метрики PESQ и STOI, которые позволяют измерить качество разделения и улучшения говорения. Также, для применения на ресурс-констрейнтных устройствах, таких как TWS-бюдзы, рассматривались техники quantization, которые позволяют сократить нагрузку на процессор. ## Результаты Эксперименты показали, что предложенный подход значительно улучшает качество разделения и улучшения говорения в шумных условиях. Метрики PESQ и STOI показали высокую эффективность модели в сравнении с другими методами. Изученные результаты показали, что модель DEMUCS, усовершенствованная с помощью U-Net и LSTM, способна обеспечить лучшую интеллектуальность и четкость говорения, даже при высоких уровнях шума. Также, quantization-техники позволили снизить нагрузку на процессор, чтобы модель могла работать на бюджетных устройствах. ## Значимость Предложенные технологии могут быть применены в различных сферах, включая звукозапись, перевод, аудио-контент и умные гаджеты. Они предоставляют выгоду в улучшении качества говорения в шумных условиях, что существенно повышает комфорт пользователей. Благодаря quantization-техникам, модель может быть применена на бюджетных устройствах, что делает её более доступной для широкой аудитории. Это исследование также открывает возможности для дальнейшего исследования создания более эффективных алгоритмов для работы на edge-устройствах. ## Выводы Исследование показало, что модифицированная DEMUCS-модель, в сочетании с U-Net и LSTM, эффе

Annotation:

This paper addresses the challenges of Hindi speech separation and enhancement using advanced neural network architectures, with a focus on edge devices. We propose a refined approach leveraging the DEMUCS model to overcome limitations of traditional methods, achieving substantial improvements in speech clarity and intelligibility. The model is fine-tuned with U-Net and LSTM layers, trained on a dataset of 400,000 Hindi speech clips augmented with ESC-50 and MS-SNSD for diverse acoustic environm...

ID: 2508.12009v1 cs.SD, cs.LG

arXiv PDF

📄 Multi-Target Backdoor Attacks Against Speaker Recognition

2025-08-14

Авторы:

Alexandrine Fortier, Sonal Joshi, Thomas Thebaud, Jesus Villalba Lopez, Najim Dehak, Patrick Cardinal

## Контекст Существующая проблема в области сигнальных технологий заключается в уязвимости речи и аудиозаписей к злоупотреблению, которое может привести к нежелательным последствиям, таким как фальсификация идентификации. Одним из главных векторов таких атак является использование вредоносных звуковых сигналов, так называемых "бэкдорных атак". Чтобы компенсировать эти угрозы, необходимо развитие более надежных методов обнаружения таких атак. В данной работе авторы сосредотачиваются на разработке методологии, направленной на обнаружение бэкдорных атак против системы распознавания речи, которая представляет собой ключевую задачу в области безопасности и аудиопроцессинга. ## Метод Разработанная методология основывается на использовании позиционно-независимых звуковых сигналов (триггеров) в виде "подергиваний", которые интегрируются в звуковые сигналы. Данный подход позволяет создавать бэкдорные модели, которые могут быть активированы даже при минимальных изменениях в шуме или других внешних факторах. Архитектура построена таким образом, чтобы позволить злоумышленнику применять один и тот же триггер для множества целевых систем, чтобы вызвать подмену идентификации на определенных целевых голосах. Основные факторы, которые влияют на эффективность атаки, включают сигнал-шум, степень похожести подаваемых звуков, а также конфигурацию триггеров. ## Результаты Для оценки эффективности метода были проведены эксперименты с разными уровнями шума и различными звуковыми триггерами. Результаты показали, что метод достигает высокой эффективности при условии, что голос, который требуется подменить, хорошо совпадает с аудио-профилем, использованным для обучения модели. Особенно высокая поправка получена при работе с входными сигналами, имеющими высокий уровень сходства с триггером. Заметно, что в некоторых случаях удавалось достичь до 95.04% успеха в подмене идентификации, что демонстрирует сильную эффективность этого подхода в ситуациях, когда триггер может быть достаточно оптимально подстроен к задаче. ## Значимость Развитие таких методик имеет значительное значение в нескольких областях, включая безопасность цифровых систем, аудио-процессинг, идентификацию речи, а также применение в голосовых помощниках и системах безопасности. Одним из ключевых преимуществ является возможность обнаружения вредоносных атак на распознавание речи, что может существенно повысить уровень защиты данных и устранить потенциальные риски. Эта работа также открывает пути для дальнейшего

Annotation:

In this work, we propose a multi-target backdoor attack against speaker identification using position-independent clicking sounds as triggers. Unlike previous single-target approaches, our method targets up to 50 speakers simultaneously, achieving success rates of up to 95.04%. To simulate more realistic attack conditions, we vary the signal-to-noise ratio between speech and trigger, demonstrating a trade-off between stealth and effectiveness. We further extend the attack to the speaker verifica...

ID: 2508.08559v2 cs.SD, cs.LG

arXiv PDF

📄 Sound Signal Synthesis with Auxiliary Classifier GAN, COVID-19 cough as an example

2025-08-14

Авторы:

Yahya Sherif Solayman Mohamed Saleh, Ahmed Mohammed Dabbous, Lama Alkhaled, Hum Yan Chai, Muhammad Ehsan Rana, Hamam Mokayed

## Контекст Современные технологии искусственного интеллекта (AI) широко применяются в различных областях, включая здравоохранение. Наибольший интерес в этой области вызывает развитие моделей, которые могут помогать врачам в диагностике и лечении болезней. Одна из самых острых проблем в этой области является нехватка данных для обучения моделей. Например, во время распространения COVID-19, многие исследователи занимались разработкой моделей, которые могут диагностировать заболевание на основе различных данных, в том числе звуковых сигналов кушания. Однако получение качественных данных для обучения моделей оказалось сложным из-за нестабильности и множественных факторов, влияющих на звуковые сигналы. Для решения этой проблемы было предложено генерировать синтетические данные для обучения моделей. Этот подход имеет потенциал для улучшения точности диагностики и повышения доступности данных для обучения моделей. ## Метод В работе используется методология синтеза звуковых сигналов с помощью генеративной антропологической сети с вспомогательным классификатором (Auxiliary Classifier GAN, ACGAN). Данная модель генерирует синтетические Mel-спектрограммы звуковых сигналов кушания, как для здоровых людей, так и для людей, страдающих COVID-19. Модель обучается на данных из Coughvid-датасета, после чего производится подбор модели для обучения классификатора. Используются модификации методов для обработки нестабильности в генеративных сетях и исправления ошибок. Также в работе применяются техники для оценки качества синтетических данных и их интеграции в обучающую выборку классификатора. ## Результаты В ходе экспериментов проводилась оценка качества синтетических звуковых сигналов генератора ACGAN. Была получена модель, которая успешно генерирует Mel-спектрограммы для здоровых и больных COVID-19. Эти синтетические данные использовались для расширения выборки обучения CNN-классификатора. Точность классификации на тестовой выборке увеличилась с 72% до 75% при использовании синтетических данных. Эксперименты показали, что использование синтетических данных может улучшить точность диагностики, но при этом требуется внимательное мониторинге некоторых недостатков в процессе обучения. ## Значимость Результаты работы могут быть применены в областях медицины и AI для повышения точности диагностики COVID-19. Использование синтетических данных позволяет увеличить объем данных для обучения моделей, что важно в ситуациях, когда наличие реальных данных ограничено. Помимо этого, этот подход может быть применен для других задач, где требуется генерация звуковых сигналов, таких ка

Annotation:

One of the fastest-growing domains in AI is healthcare. Given its importance, it has been the interest of many researchers to deploy ML models into the ever-demanding healthcare domain to aid doctors and increase accessibility. Delivering reliable models, however, demands a sizable amount of data, and the recent COVID-19 pandemic served as a reminder of the rampant and scary nature of healthcare that makes training models difficult. To alleviate such scarcity, many published works attempted to s...

ID: 2508.08892v1 cs.SD, cs.LG

arXiv PDF

📄 SEF-MK: Speaker-Embedding-Free Voice Anonymization through Multi-k-means Quantization

2025-08-13

Авторы:

Beilong Tang, Xiaoxiao Miao, Xin Wang, Ming Li

#### Контекст Голосовые данные широко применяются в различных областях, включая распознавание речи, голосовые помощники и анализ эмоций. Однако такие данные часто содержат конфиденциальную информацию о голосовых сигнатурах, которая может быть использована для идентификации и нарушения личной приватности. Голосовая анонимизация представляется эффективным способом минимизировать этот риск. Несмотря на то, что существуют методы анонимизации, они часто приводят к потере языковых или эмоциональных свойств, что снижает качество аудиозаписи. Другие же предложения недостаточно эффективны против атак, направленных на восстановление идентичности голоса. Наше исследование стремится решить эти проблемы, создав новую модель анонимизации без использования специальных эмбеддингов голоса. #### Метод Мы предлагаем SEF-MK, рамфреймворк для анонимизации голоса без использования специальных эмбеддингов. Метод основывается на множестве моделей k-means, каждая из которых обучается на отдельном подмножестве спикеров. В отличие от традиционных подходов, которые применяют один общий k-means-модель, SEF-MK использует множество моделей, выбираемых произвольно для обработки каждого аудиоучастка. Это позволяет обеспечить более высокую гибкость и эффективность в защите голосовых сигнатур. Мы исследуем SEF-MK как с точки зрения голосового аутентификатора, так и с точки зрения пользователя, чтобы оценить его эффективность в защите и риск потери качества. #### Результаты Мы провели обширные эксперименты с использованием широко известных голосовых датасетов. Результаты показали, что SEF-MK с множеством k-means моделей значительно улучшает сохранение языковых и эмоциональных свойств воспринимаемых пользователем, в сравнении с одной k-means моделью. Однако риск атак повышается, так как анонимизированные данные становятся более сложными для атаки, но в то же время требуют большего усилия от атакующего. Эти результаты демонстрируют, что SEF-MK предоставляет более сбалансированный подход к приватности голоса, сочетающий в себе качество аудио и защиту от атак. #### Значимость Наш подход SEF-MK может быть применен в различных сценариях, где необходима защита голосовых данных, например, в распознавании речи, анализе эмоций или персонализации устройств. Он предлагает несколько преимуществ, в том числе снижение риска идентификации, сохранение полезных показателей аудио и улучшение отказа от централизованных моделей для обеспечения безопасности. Эти преимущества открывают новые возможности для развития безопасных и эффективных систем голосовой анонимизации. ####

Annotation:

Voice anonymization protects speaker privacy by concealing identity while preserving linguistic and paralinguistic content. Self-supervised learning (SSL) representations encode linguistic features but preserve speaker traits. We propose a novel speaker-embedding-free framework called SEF-MK. Instead of using a single k-means model trained on the entire dataset, SEF-MK anonymizes SSL representations for each utterance by randomly selecting one of multiple k-means models, each trained on a differ...

ID: 2508.07086v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 Training chord recognition models on artificially generated audio

2025-08-12

Авторы:

Martyna Majchrzak, Jacek Mańdziuk

## Контекст Исследование аудиосемантики, в том числе распознавания аккордов в музыке, является важной задачей в области музыкального информационного восстановления (Music Information Retrieval, MIR). Одной из трудностей в этой области является наличие достаточного количества художественно незащищенных аудиозаписей, необходимых для обучения и оценки моделей. Многие работы используют музыкальные композиции, созданные человеком, но это может привести к проблемам с авторскими правами. В этом контексте авторы рассматривают возможность использования искуственно сгенерированных аудиозаписей для обучения моделей распознавания аккордов. ## Метод Авторы сравнивают две модели свёрточных трансфоррмеров для распознавания аккордов в аудиозаписях: Transformer-based Chord Recognition (TCR) и Transformer-based Chord Recognition with Attention (TCRA). Обе модели обучаются на смеси данных из Artificial Audio Multitracks (AAM), Schubert's Winterreise Dataset и McGill Billboard Dataset. Данные AAM генерируются специальным алгоритмом, который моделирует музыку на основе теории музыки, включая информацию о нотах, темпе и аккордах. Модели оцениваются по метрикам Root, MajMin и Chord Content Metric (CCM). ## Результаты Эксперименты показали, что модель TCRA демонстрирует лучшую точность в распознавании аккордов по сравнению с TCR. Также выяснилось, что искусственно сгенерированные данные AAM могут быть полезны для расширения меньших наборов данных, созданных человеком, или даже самостоятельно использованы для обучения моделей, предсказывающих аккорды в поп-музыке, если других данных нет. Однако AAM имеют ограничения в симуляции сложных музыкальных структур, которые могут влиять на точность распознавания в определённых ситуациях. ## Значимость Результаты имеют большое значение для области MIR, поскольку демонстрируют возможность использования искусственно сгенерированных данных в моделировании и распознавании аккордов. Это может существенно снизить затраты и трудоемкость на получение тренировочных данных. Важность такого подхода усиливается в ситуациях, когда доступ к широкому набору художественных записей ограничен, например, из-за авторских прав. ## Выводы Результаты экспериментов подтверждают, что искусственно сгенерированные данные могут быть эффективными инструментами для обучения моделей распознавания аккордов, особенно когда естественные данные недоступны. Будущие исследования могут сфокусироваться на улучшении генерации искусственных записей, чтобы преодолеть текущие ограничения в симуляции сложных музыкальных структур.

Annotation:

One of the challenging problems in Music Information Retrieval is the acquisition of enough non-copyrighted audio recordings for model training and evaluation. This study compares two Transformer-based neural network models for chord sequence recognition in audio recordings and examines the effectiveness of using an artificially generated dataset for this purpose. The models are trained on various combinations of Artificial Audio Multitracks (AAM), Schubert's Winterreise Dataset, and the McGill ...

ID: 2508.05878v1 cs.SD, cs.LG

arXiv PDF

📄 WhiSQA: Non-Intrusive Speech Quality Prediction Using Whisper Encoder Features

2025-08-09

Авторы:

George Close, Kris Hong, Thomas Hain, Stefan Goetze

## Контекст В последние годы активно развивается искусственный интеллект в области речи, в том числе для оценки качества речи (SQ). Одним из основных задач существующих систем является разработка нейронных метрик, которые могут оценивать качество речи без необходимости предоставлять сравнительные референсы. Существуют многочисленные большие выборки аудиоданных с оценками качества, но не всегда они подходят для проведения точных экспериментов. Одним из ключевых трендов является использование представлений из нейросетей, обученных на больших объемах данных без направленной метки, для решения задач оценки качества речи. В данной работе предлагается продвинутый подход, основанный на получении представлений речи из модели АСР (Whisper), что позволяет повысить качество оценки качества речи. ## Метод Предлагаемая модель, WhiSQA, основывается на использовании функций выражения, полученных из модели Whisper, которая обучена неуправляемым способом на большом количестве аудиоданных. Эти представления аудио тщательно проанализированы и оптимизированы в рамках задачи оценки качества речи. Методом стало прогнозирование на основе нейронных сетей, которые используют эти выделенные представления речи. Затем для оценки качества был разработан новый подход, сталкивающий модель с реальными условиями, что позволило повысить точность оценки качества речи. ## Результаты В ходе экспериментов метрика WhiSQA протестирована на нескольких тестовых наборах данных, в том числе на Human MOS, NISQA и DNSMOS. Она показала высокую корреляцию с реальными оценками качества речи, превысив многие из соревновательных моделей, в том числе DNSMOS. Модель WhiSQA также продемонстрировала значительное улучшение в доменной адаптации, что делает ее более универсальной для различных типов сценариев. ## Значимость Данный подход может быть применен в различных областях, в том числе для тестирования систем распознавания речи, а также для выявления ошибок в звуковых сигналах. Модель WhiSQA показывает значительные преимущества в сравнении с конкурентными системами, включая более высокую точность и лучшую общую гибкость. Эти достижения открывают пути для будущих исследований в области нейронных моделей для оценки качества речи с необходимостью меньших ресурсов. ## Выводы Разработанная модель WhiSQA доказала свою эффективность в прогнозировании качества речи. Она превосходит существующие решения по корреляции с реальными оценками качества речи. В будущем планируется расширить функции модели, включая её использование для других задач, таких как выявление и поддержка оптимальных условий для речи.

Annotation:

There has been significant research effort developing neural-network-based predictors of SQ in recent years. While a primary objective has been to develop non-intrusive, i.e.~reference-free, metrics to assess the performance of SE systems, recent work has also investigated the direct inference of neural SQ predictors within the loss function of downstream speech tasks. To aid in the training of SQ predictors, several large datasets of audio with corresponding human labels of quality have been cr...

ID: 2508.02210v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 Neural Speech Extraction with Human Feedback

2025-08-09

Авторы:

Malek Itani, Ashton Graves, Sefik Emre Eskimez, Shyamnath Gollakota

#### Контекст Нейронные системы для извлечения речи (TSE) широко применяются для звукового декодирования, но лишаются гибкости в обработке пользовательских комментариев. Традиционный подход не рассматривает моменты, где пользователи могут обнаружить ошибки в выводе и просить о редактировании. Это ограничивает эффективность в сценариях, где пользователи хотят контролировать точные сегменты речи. Поэтому, требуется система, которая не только извлекала бы речь, но и позволяла пользователям вносить индивидуальные поправки, улучшая результаты в реальном времени. #### Метод Мы предлагаем новую архитектуру TSE, которая включает пользователя в процесс редактирования. На вход подается исходный звуковой сигнал, который проходит нейронную модель для извлечения речи. Затем пользователь может отметить ошибки в результате. Маска редактирования (edit mask), создаваемая пользователем, используется для регулирования областей, требующих очистки или изменений. Модель обучается на синтетических наборах данных, где разметка используется для произвольных масок, включая функции шума и громкости. Эти модели обучаются для воспроизведения точных результатов, которые подходят пользователям. #### Результаты Мы проводили эксперименты с двумя вариантами масок: шумовой и пробабильной. Результаты показали, что модели, обученные на моделировании шума в dBFS (децибела фонового звука), и применении пробабильных значений, показали наилучший алгоритм. Эта модель близка к результатам, которые предпочитают участники в экспериментах. Мы провели статистический анализ на 22 участниках, которые сравнили нашу модель с базовой TSE. Результаты показали, что пользователи предпочитают результаты, полученные с использованием нашей системы. #### Значимость Наша система демонстрирует мощь людского взаимодействия в процессе извлечения речи. Она может применяться в различных сегментах, таких как видеоредактирование, звуковые синтезеры и улучшение речи для роботов. Здесь преимущество в том, что пользователи могут контролировать точные регионы, чтобы изменить результат в соответствии с их потребностями. Это может повысить качество работы в сфере поиска и анализа звуковых данных. #### Выводы Мы представили первую систему TSE с участием пользователя в редактировании. Наши результаты показывают, что людское взаимодействие может значительно улучшить результаты. Мы планируем расширить эту работу, включив более сложные сценарии и улучшив модельную архитектуру для более точного извлечения речи с интерактивным редактированием.

Annotation:

We present the first neural target speech extraction (TSE) system that uses human feedback for iterative refinement. Our approach allows users to mark specific segments of the TSE output, generating an edit mask. The refinement system then improves the marked sections while preserving unmarked regions. Since large-scale datasets of human-marked errors are difficult to collect, we generate synthetic datasets using various automated masking functions and train models on each. Evaluations show that...

ID: 2508.03041v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 TF-MLPNet: Tiny Real-Time Neural Speech Separation

2025-08-09

Авторы:

Malek Itani, Tuochao Chen, Shyamnath Gollakota

#### Контекст Современные hearable устройства (например, наушники) становятся все более сложными, предоставляя пользователям различные функции, включая звуковую сепарацию (разделение говорящих из шума). Эти возможности могут существенно улучшить слуховые функции и обеспечить более удобную и эффективную связь. Однако, существующие решения для разделения речи, основанные на нейронных сетях, не могут выполнять задачи разделения речи в реальном времени на миниатюрных нейронных акселераторах (например, GAP9), которые характеризуются ограниченными вычислительными возможностями. Это ставит перед разработчиками проблему: как создать модель, которая была бы как можно проще и эффективнее, чтобы работала на этих устройствах. #### Метод TF-MLPNet — это модель, разработанная с учетом ограничений производительности миниатюрных устройств. Она работает во времени-частотной области, где каждая часть аудиосигнала (кадр) разбивается на частотные компоненты. Далее, для каждого частотного диапазона применяются сверточные слои, которые оперируют с каналами, а для каждого канала — полносвязные слои, обрабатывающие кадр как полностью. Этот структурный подход позволяет уменьшить количество вычислений, необходимых для работы модели. Для увеличения эффективности используется микроскопическая тренировка с многоуровневым параллелизмом. Это позволяет модели обрабатывать звуковые фрагменты в реальном времени на GAP9. Модель также может работать на минимальном количестве памяти, что делает ее идеальной для миниатюрных девайсов. #### Результаты Замеры производительности TF-MLPNet показали, что она может обрабатывать 6 мс аудио фрагментов в реальном времени на GAP9. Результаты показали, что модель обеспечивает значительное улучшение в скорости и эффективности при сравнении с предыдущими решениями. Например, скорость работы вышла больше 3,5-4 раз по сравнению с потоковыми моделями, ранее применявшимися в сфере разделения речи. Такой уровень производительности делает TF-MLPNet идеальной для применения в hearable устройствах. #### Значимость TF-MLPNet открывает новые возможности для звуковой сепарации в hearable устройствах. Она позволяет реализовать функции, такие как непрерывное разделение речи в шумных условиях или выделение целевого речи в многоголосной среде. Модель эффективна, не только по скорости, но и по степени использования ресурсов процессора, что делает ее подходящей для устройств с ограниченной мощностью. Это может влиять на развитие клинических приложений (например, для людей с ухудшенным слухом), коммуникационных технологий (например, для интеллектуальных голографических у

Annotation:

Speech separation on hearable devices can enable transformative augmented and enhanced hearing capabilities. However, state-of-the-art speech separation networks cannot run in real-time on tiny, low-power neural accelerators designed for hearables, due to their limited compute capabilities. We present TF-MLPNet, the first speech separation network capable of running in real-time on such low-power accelerators while outperforming existing streaming models for blind speech separation and target sp...

ID: 2508.03047v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 MiSTR: Multi-Modal iEEG-to-Speech Synthesis with Transformer-Based Prosody Prediction and Neural Phase Reconstruction

2025-08-09

Авторы:

Mohammed Salah Al-Radhi, Géza Németh, Branislav Gerazov

## Контекст ИнINTELLIGENCE COMMUNICATIONS INTELLIGENCE COMMUNICATIONS синтез речи из интракраниальных электроэнцефалограмм (iEEG) представляет собой обещающую область, способную восстановить утерянную способность говорить у людей с серьезными нарушениями речи. Однако достижение естественного и понятного говорения остается сложной задачей из-за ограниченности методов представления признаков, моделирования просодии и восстановления фазового структуры звука. Нехватка эффективных решений в этих областях ограничивает качество генерируемого звука и затрудняет применение технологий в реальной жизни. ## Метод MiSTR — это глубокое обучение, которое сочетает несколько революционных техник для решения этих проблем. В частности, оно использует **Wavelet-based feature extraction**, что позволяет получить тонко масштабируемые представления временных, спектральных и нейрофизиологических свойств iEEG-сигналов. Далее, **Transformer-based decoder** применяется для точного предсказания просодии с помощью адаптивного моделирования интонации и пауз. Наконец, **neural phase vocoder** с динамической коррекцией спектра обеспечивает гармоничность звука и точность реконструкции. Этот комплексный подход обеспечивает высококачественную реконструкцию речи, включая тон, интонацию и естественность. ## Результаты Для оценки MiSTR проведены эксперименты на основе публичного датасета iEEG. Модель достигла следующих результатов: **mean Pearson correlation of 0.91** между генерируемыми и исходными Mel-спектрами, что значительно превосходит результаты лучших существующих моделей. Эти результаты устанавливают новый стандарт в области нейронного синтеза речи, показывая точность и натуральность генерируемого звука. ## Значимость Модель MiSTR открывает новые перспективы для восстановления речи у пациентов с расстройствами речи, таких как апазия или последствия инсульта. Кроме того, ее уникальный подход к моделированию просодии и реконструкции фазы может быть применен в других областях, таких как робототехника, виртуальные ассистенты и улучшение интеллектуальных систем. Благодаря инновационной архитектуре, MiSTR обеспечивает высокую точность и естественность речи, которая выше классических методов. ## Выводы MiSTR достигает нового уровня в синтезе речи из iEEG-сигналов, обеспечивая высокую точность и естественность звука. На основе этих результатов, будущие исследования будут сфокусированы на улучшении модели для более сложных ситуаций и расширении ее применения в различных областях, включая медицину и робототехнику.

Annotation:

Speech synthesis from intracranial EEG (iEEG) signals offers a promising avenue for restoring communication in individuals with severe speech impairments. However, achieving intelligible and natural speech remains challenging due to limitations in feature representation, prosody modeling, and phase reconstruction. We introduce MiSTR, a deep-learning framework that integrates: 1) Wavelet-based feature extraction to capture fine-grained temporal, spectral, and neurophysiological representations of...

ID: 2508.03166v1 cs.SD, cs.LG, eess.AS

arXiv PDF

1
2
6
7
8

Показано 71 - 80 из 80 записей