📚 Саммари научных статей из arXiv

Найдено 30 результатов по запросу 'cs.SD, cs.LG, eess.AS' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MAIA: An Inpainting-Based Approach for Music Adversarial Attacks

2025-09-09

Авторы:

Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Shengchen Li

Это резюме построено на приведенных вами исходных данных. Если вы хотите создать резюме на основе другой статьи, необходимо предоставить более подробную информацию. ## Контекст Музыкальные адверсарские атаки (Music Adversarial Attacks) являются важной областью исследований в рамках Music Information Retrieval (MIR). Эти атаки нацелены на то, чтобы вывести системы MIR с целью изучения их уязвимостей и совершенствования. Однако существуют сложности в создании эффективных атак, которые были бы незаметными для пользователя, но при этом оказывали бы влияние на модель. Необходимо разработать метод, который бы позволял целенаправленно изменять аудио сегменты, не приводя к значительному снижению качества звука. ## Метод Метод MAIA основан на технике inpainting-based, которая позволяет выполнять целенаправленные изменения в аудио сегментах. В этом подходе используется generative inpainting model, который заполняет пропуски в аудио с использованием гайда от модели MIR. Атака начинается с анализа важности аудио сегментов, чтобы определить те участки, которые имеют наибольшее влияние на модель. Измененные сегменты затем встраиваются обратно в оригинальный аудио файл, чтобы создать адверсарский пример. MAIA работает как в white-box, так и в black-box сценариях атаки. ## Результаты Мы провели эксперименты с помощью нескольких моделей MIR и данных с различных жанров музыки. MAIA показал высокую успешность атак в обоих white-box и black-box сценариях, с минимальными изменениями в качестве звука. Мы также провели субъективные тесты по качеству звука, подтвердив, что адверсарские примеры звучат близко к оригинальным. Эти результаты показывают, что MAIA эффективен в создании адверсарских примеров, которые могут разрушить работу моделей MIR. ## Значимость MAIA открывает новые возможности для исследования уязвимостей MIR систем. Выявленные уязвимости могут помочь в повышении безопасности и надёжности таких систем. Благодаря своей универсальности, MAIA может быть использован в различных областях, таких как защита авторских прав, тестирование моделей и создание музыкальных алтернатив. Это также может привести к развитию новых методов защиты моделей от таких атак. ## Выводы MAIA представляет собой прорыв в области Music Adversarial Attacks. Он показал высокую эффективность и гибкость в создании адверсарских примеров. В дальнейших исследованиях мы планируем расширить MAIA для других типов аудио, таких как речь и звуки окружения, а также исследовать его применение в сценариях защиты аудио от адверсарских атак.

Annotation:

Music adversarial attacks have garnered significant interest in the field of Music Information Retrieval (MIR). In this paper, we present Music Adversarial Inpainting Attack (MAIA), a novel adversarial attack framework that supports both white-box and black-box attack scenarios. MAIA begins with an importance analysis to identify critical audio segments, which are then targeted for modification. Utilizing generative inpainting models, these segments are reconstructed with guidance from the outpu...

ID: 2509.04980v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 Learning Robust Spatial Representations from Binaural Audio through Feature Distillation

2025-08-29

Авторы:

Holger Severin Bovbjerg, Jan Østergaard, Jesper Jensen, Shinji Watanabe, Zheng-Hua Tan

## Контекст Улучшение понимания среды через спектро-саунадовая характеристика звука является ключевым аспектом в многих приложениях, таких как локализация источников звука, системы навигации, и искусственное интеллект. Однако, обучение моделей классификации и оценки звуков часто требует больших объемов меток данных, которые могут быть трудозатратными и дорогостоящими в получении. Бинаurale аудио, с его уникальными монокультарными характеристиками, представляет собой сильный потенциал для повышения понимания среды. Тем не менее, многие существующие методы либо не эффективны при использовании суровых условий (например, шумовых или реверберативных средах), либо требуют полностью меток данных. Мы рассматриваем новую методологию, которая использует предварительную тренировку характеристик с помощью фильтрации представлений, чтобы улучшить обучение моделей бинаулярного звука для оценки направления прибытия (DoA) без требования меток данных. ## Метод Мы предлагаем использовать предварительную тренировку модели через фильтрацию представлений с использованием чистых запиков элементов спектро-саунадов, отформатированных как прогнозные метки. Эти чистые элементы формируются из бинаулярных семплов аудио и затем используются для обучения модели, которая предсказывает эти чистые элементы из обучающих данных. Мы используем аугментированные бинаулярные звуковые данные для получения представлений, которые могут быть прогнозированы с помощью нейронной сети. Чтобы повысить жесткость и универсальность представлений, была применена техника предварительной тренировки. После этого, мы удаляем слой предсказателя и используем веса из обученного энкодера для инициализации модели DoA, которая тренируется для оценки направления прибытия. ## Результаты Мы оценивали нашу модель на двух открытых наборах данных: руководственном сеансе VIRTUAL-HEADSET и данных из нынешнего конкурса LOCATA. Мы сравнивали нашу модель с двумя типами моделей: одной, которая была развита с полностью тренированными данными, и другой, которая тренировалась с использованием классических методов сигнальной обработки. Наши результаты показывают, что предварительно тренированная модель показывает улучшенное поведение в ситуациях с шумом и реверберацией, когда мы применяем технику DoA-оценки после тренировки, в сравнении с полностью тренированными моделями и классическими методами. ## Значимость Наше исследование показывает как предварительная тренировка модели через фильтрацию представлений может значительно повысить эффективность обучения моделей для о

Annotation:

Recently, deep representation learning has shown strong performance in multiple audio tasks. However, its use for learning spatial representations from multichannel audio is underexplored. We investigate the use of a pretraining stage based on feature distillation to learn a robust spatial representation of binaural speech without the need for data labels. In this framework, spatial features are computed from clean binaural speech samples to form prediction labels. These clean features are then ...

ID: 2508.20914v1 cs.SD, cs.LG, eess.AS, 68T10, I.2.6

arXiv PDF

📄 TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

2025-08-27

Авторы:

Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu

## Контекст В статье приводится обзор текущих проблем в области текст-аудио моделей и аудио-текст моделей, определяя основные проблемы, связанные с работой текущих текстовых генераторов. Одним из главных узких мест является необходимость в высокоэффективной архитектуре, обеспечивающей качественную реконструкцию звука с минимальными потерями. Одним из важных мотивов является создание модели, которая будет эффективно работать в текстовых генераторах для преобразования звука или текста, сохраняя качество и эффективность. ## Метод TaDiCodec разработана как первая кодокидж-модель, основанная на текст-аудио-диффузии. Она предлагает энд-то-энд-оптимизацию для звукового сжатия с использованием трансформера-автокодека, а также интеграцию текст-гайда в декодер для повышения эффективности. Модель работает с очень низкой частотой кадров 6.25 Гц и битрейтом 0.0875 кбпс, что позволяет обеспечить эффективное сжатие звука. Из-за единой структуры TaDiCodec обеспечивает лучший тренировочный процесс без необходимости в дополнительных моделях для семантического расширения. ## Результаты Тестирование модели проводилось на задачах текстовой распознавательной речи и текстовой генерации с помощью текстовых генераторов. В результате было получено очень высокое качество реконструкции с минимальными потерями. Модель показала отличные результаты в метриках Word Error Rate (WER), speaker similarity (SIM), и speech quality (UTMOS). Эти результаты доказывают, что TaDiCodec эффективна в работе на задачах с низким разрешением и очень низкими рамками предоставляет лучшие результаты в сравнении с другими моделями. ## Значимость TaDiCodec может быть применена в разных областях, включая текстовые генераторы, текстовую распознавательную речь и генерацию звуков. Она предоставляет значительные преимущества, такие как эффективное сжатие звука, низкий порог для разработки и использования, а также возможность интеграции с различными текстовыми генераторами. В будущем модель может использоваться для создания новых текстовых генераторов с высоким качеством реконструкции с минимальным издержанием ресурсов. ## Выводы TaDiCodec достигла нового уровня эффективности в текстовой генерации и реконструкции с помощью диффузионной модели. Она предлагает новый подход к решению проблем, связанных с существующими моделями, и может стать основой для развития новых моделей в области звукового сжатия. Будущие исследования будут направлены на улучшение точности реконструкции, уменьшение потерь и расширение применения модели в различных задачах текстовой гене

Annotation:

Speech tokenizers serve as foundational components for speech language models, yet current designs exhibit several limitations, including: 1) dependence on multi-layer residual vector quantization structures or high frame rates, 2) reliance on auxiliary pre-trained models for semantic distillation, and 3) requirements for complex two-stage training processes. In this work, we introduce the Text-aware Diffusion Transformer Speech Codec (TaDiCodec), a novel approach designed to overcome these chal...

ID: 2508.16790v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 XAI-Driven Spectral Analysis of Cough Sounds for Respiratory Disease Characterization

2025-08-25

Авторы:

Patricia Amado-Caballero, Luis Miguel San-José-Revuelta, María Dolores Aguilar-García, José Ramón Garmendia-Leiza, Carlos Alberola-López, Pablo Casaseca-de-la-Higuera

## Контекст Область исследования, связанная с использованием ИИ для обработки акустических сигналов, набирает популярность в медицинских применениях, где задача — улучшить диагностические возможности. Акустические признаки, такие как звуки хахей, являются полезными индикаторами различных респираторных заболеваний, но их анализ часто ограничивается неинтерпретируемостью моделей ИИ. Это усложняет доверие к результатам и препятствует широкому применению. Проблема подсветки актуальных регионов в акустических сигналах акустическими методами остается неполной. Хотя существуют методы, такие как occlusion maps, они применяются не в полной мере для работы с акустическими признаками в медицине. Задача достичь более точной диагностики заключается в нахождении мощных инструментов, позволяющих выделить значимые акценты в спектральных сигналах. Мотивация в описании эффективного подхода, который определяет и интерпретирует эти значимости в спектральных сигналах, лежит в основе этой работы. ## Метод Разработанный подход основывается на методах eXplainable Artificial Intelligence (XAI), которые позволяют выявить значимые регионы в спектральных сигналах. Основной архитектурой используется Convolutional Neural Network (CNN), обученный классифицировать записи хахей. Чтобы выделить значимые регионы в спектральных сигналах (спектрограммах), используются occlusion maps. Эти карты представляют собой метод, где процесс классификации зависит от наличия и отсутствия определенных регионов в сигнале. После выделения акцентов в спектрограмме проводится спектральный анализ. Он состоит в сравнении "до" и "после" манипуляций с оккультурными картами. Это позволяет выявить спектральные признаки, которые отличаются в заболеваниях респираторной системы. Таким образом, технология XAI используется для детального выявления и интерпретации этих признаков, чтобы улучшить диагностику респираторных заболеваний. ## Результаты Использовались данные, включающие записи звуков хахей от пациентов с различными респираторными заболеваниями, в том числе хронический обструктивный диафрагменный заболевание (COPD). Затем, с помощью occlusion maps, были выделены значимые регионы в спектрограммах. Спектральный анализ этих регионов показал, что в заболеваниях, таких как COPD, звуковые паттерны хахей демонстрируют более значимые различия в спектральных регионах, чем в здоровом состоянии или других заболеваниях. На основе этих результатов был выявлен паттерн возникновения заболеваний с более выраженными акустическими признаками. Эти различия были отслежены в спектро

Annotation:

This paper proposes an eXplainable Artificial Intelligence (XAI)-driven methodology to enhance the understanding of cough sound analysis for respiratory disease management. We employ occlusion maps to highlight relevant spectral regions in cough spectrograms processed by a Convolutional Neural Network (CNN). Subsequently, spectral analysis of spectrograms weighted by these occlusion maps reveals significant differences between disease groups, particularly in patients with COPD, where cough patte...

ID: 2508.14949v1 cs.SD, cs.LG, eess.AS, eess.SP

arXiv PDF

📄 An Enhanced Audio Feature Tailored for Anomalous Sound Detection Based on Pre-trained Models

2025-08-23

Авторы:

Guirui Zhong, Qing Wang, Jun Du, Lei Wang, Mingqi Cai, Xin Fang

## Контекст Аномальное звучание детекции (Anomalous Sound Detection, ASD) является важной задачей, направленной на выявление нестандартных звуков при эксплуатации машин. Она находит применение в таких областях, как промышленность и техническое обслуживание, где быстрое выявление аномалий может предотвратить крупные убытки и сократить время простоя. Однако существуют ряд проблем, связанных с неопределенностью локализации нестандартных звуков и излишним количеством ненужной информации, такой как шум, в аудио-данных. Эти факторы становятся ограничивающими для создания высокоэффективных систем ASD. Наша мотивация заключается в развитии более точных методов детекции аномалий, улучшающих точность и надежность таких систем. ## Метод Мы предлагаем усовершенствованный подход к детекции аномалий, основывающийся на использовании метода фильтр-банков с равномерно распределенными интервалами. Этот подход обеспечивает равное внимание к всем частотным диапазонам в аудио-данных, увеличивая чувствительность системы к деталям и значимым звуковым признакам. Для уменьшения ненужной информации, такой как шум, мы предложили параметр-свободный метод усиления признаков, основанный на предварительно обученных моделях. Этот подход позволяет эффективно передавать универсальный знаний из предварительно обученных моделей к задаче детекции звуковых аномалий. Мы также использовали предварительно обученные модели для оптимизации модели детекции звуков в условиях нестандатных условий. ## Результаты Мы провели ряд экспериментов на данных с коллекции DCASE 2024 Challenge, которая включает сцены с машинными звуками и аномалиями. Наш подход продемонстрировал существенное повышение точности детекции аномалий в сравнении с существующими методами. Мы измерили производительность с помощью метрик F1-score и AUC-ROC, получив значительное улучшение по сравнению с конкурирующими решениями. Эти результаты подтверждают эффективность предлагаемого метода в обнаружении аномалий и уменьшении шума в аудио-данных. ## Значимость Наш метод может быть применен в различных отраслях, таких как промышленность, информационные системы, автоматизация и безопасность. Он обладает рядом преимуществ, включая улучшение точности детекции, уменьшение количества шума в аудио-данных, а также увеличение универсальности и надежности моделей. Это может привести к сокращению выбытия на техническом обслуживании, повышению эффективности производственных процессов и улучшению общей безопасности систем. ## Выводы Мы представили эффективный подход к детекции а

Annotation:

Anomalous Sound Detection (ASD) aims at identifying anomalous sounds from machines and has gained extensive research interests from both academia and industry. However, the uncertainty of anomaly location and much redundant information such as noise in machine sounds hinder the improvement of ASD system performance. This paper proposes a novel audio feature of filter banks with evenly distributed intervals, ensuring equal attention to all frequency ranges in the audio, which enhances the detecti...

ID: 2508.15334v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 SEF-MK: Speaker-Embedding-Free Voice Anonymization through Multi-k-means Quantization

2025-08-13

Авторы:

Beilong Tang, Xiaoxiao Miao, Xin Wang, Ming Li

#### Контекст Голосовые данные широко применяются в различных областях, включая распознавание речи, голосовые помощники и анализ эмоций. Однако такие данные часто содержат конфиденциальную информацию о голосовых сигнатурах, которая может быть использована для идентификации и нарушения личной приватности. Голосовая анонимизация представляется эффективным способом минимизировать этот риск. Несмотря на то, что существуют методы анонимизации, они часто приводят к потере языковых или эмоциональных свойств, что снижает качество аудиозаписи. Другие же предложения недостаточно эффективны против атак, направленных на восстановление идентичности голоса. Наше исследование стремится решить эти проблемы, создав новую модель анонимизации без использования специальных эмбеддингов голоса. #### Метод Мы предлагаем SEF-MK, рамфреймворк для анонимизации голоса без использования специальных эмбеддингов. Метод основывается на множестве моделей k-means, каждая из которых обучается на отдельном подмножестве спикеров. В отличие от традиционных подходов, которые применяют один общий k-means-модель, SEF-MK использует множество моделей, выбираемых произвольно для обработки каждого аудиоучастка. Это позволяет обеспечить более высокую гибкость и эффективность в защите голосовых сигнатур. Мы исследуем SEF-MK как с точки зрения голосового аутентификатора, так и с точки зрения пользователя, чтобы оценить его эффективность в защите и риск потери качества. #### Результаты Мы провели обширные эксперименты с использованием широко известных голосовых датасетов. Результаты показали, что SEF-MK с множеством k-means моделей значительно улучшает сохранение языковых и эмоциональных свойств воспринимаемых пользователем, в сравнении с одной k-means моделью. Однако риск атак повышается, так как анонимизированные данные становятся более сложными для атаки, но в то же время требуют большего усилия от атакующего. Эти результаты демонстрируют, что SEF-MK предоставляет более сбалансированный подход к приватности голоса, сочетающий в себе качество аудио и защиту от атак. #### Значимость Наш подход SEF-MK может быть применен в различных сценариях, где необходима защита голосовых данных, например, в распознавании речи, анализе эмоций или персонализации устройств. Он предлагает несколько преимуществ, в том числе снижение риска идентификации, сохранение полезных показателей аудио и улучшение отказа от централизованных моделей для обеспечения безопасности. Эти преимущества открывают новые возможности для развития безопасных и эффективных систем голосовой анонимизации. ####

Annotation:

Voice anonymization protects speaker privacy by concealing identity while preserving linguistic and paralinguistic content. Self-supervised learning (SSL) representations encode linguistic features but preserve speaker traits. We propose a novel speaker-embedding-free framework called SEF-MK. Instead of using a single k-means model trained on the entire dataset, SEF-MK anonymizes SSL representations for each utterance by randomly selecting one of multiple k-means models, each trained on a differ...

ID: 2508.07086v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 WhiSQA: Non-Intrusive Speech Quality Prediction Using Whisper Encoder Features

2025-08-09

Авторы:

George Close, Kris Hong, Thomas Hain, Stefan Goetze

## Контекст В последние годы активно развивается искусственный интеллект в области речи, в том числе для оценки качества речи (SQ). Одним из основных задач существующих систем является разработка нейронных метрик, которые могут оценивать качество речи без необходимости предоставлять сравнительные референсы. Существуют многочисленные большие выборки аудиоданных с оценками качества, но не всегда они подходят для проведения точных экспериментов. Одним из ключевых трендов является использование представлений из нейросетей, обученных на больших объемах данных без направленной метки, для решения задач оценки качества речи. В данной работе предлагается продвинутый подход, основанный на получении представлений речи из модели АСР (Whisper), что позволяет повысить качество оценки качества речи. ## Метод Предлагаемая модель, WhiSQA, основывается на использовании функций выражения, полученных из модели Whisper, которая обучена неуправляемым способом на большом количестве аудиоданных. Эти представления аудио тщательно проанализированы и оптимизированы в рамках задачи оценки качества речи. Методом стало прогнозирование на основе нейронных сетей, которые используют эти выделенные представления речи. Затем для оценки качества был разработан новый подход, сталкивающий модель с реальными условиями, что позволило повысить точность оценки качества речи. ## Результаты В ходе экспериментов метрика WhiSQA протестирована на нескольких тестовых наборах данных, в том числе на Human MOS, NISQA и DNSMOS. Она показала высокую корреляцию с реальными оценками качества речи, превысив многие из соревновательных моделей, в том числе DNSMOS. Модель WhiSQA также продемонстрировала значительное улучшение в доменной адаптации, что делает ее более универсальной для различных типов сценариев. ## Значимость Данный подход может быть применен в различных областях, в том числе для тестирования систем распознавания речи, а также для выявления ошибок в звуковых сигналах. Модель WhiSQA показывает значительные преимущества в сравнении с конкурентными системами, включая более высокую точность и лучшую общую гибкость. Эти достижения открывают пути для будущих исследований в области нейронных моделей для оценки качества речи с необходимостью меньших ресурсов. ## Выводы Разработанная модель WhiSQA доказала свою эффективность в прогнозировании качества речи. Она превосходит существующие решения по корреляции с реальными оценками качества речи. В будущем планируется расширить функции модели, включая её использование для других задач, таких как выявление и поддержка оптимальных условий для речи.

Annotation:

There has been significant research effort developing neural-network-based predictors of SQ in recent years. While a primary objective has been to develop non-intrusive, i.e.~reference-free, metrics to assess the performance of SE systems, recent work has also investigated the direct inference of neural SQ predictors within the loss function of downstream speech tasks. To aid in the training of SQ predictors, several large datasets of audio with corresponding human labels of quality have been cr...

ID: 2508.02210v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 Neural Speech Extraction with Human Feedback

2025-08-09

Авторы:

Malek Itani, Ashton Graves, Sefik Emre Eskimez, Shyamnath Gollakota

#### Контекст Нейронные системы для извлечения речи (TSE) широко применяются для звукового декодирования, но лишаются гибкости в обработке пользовательских комментариев. Традиционный подход не рассматривает моменты, где пользователи могут обнаружить ошибки в выводе и просить о редактировании. Это ограничивает эффективность в сценариях, где пользователи хотят контролировать точные сегменты речи. Поэтому, требуется система, которая не только извлекала бы речь, но и позволяла пользователям вносить индивидуальные поправки, улучшая результаты в реальном времени. #### Метод Мы предлагаем новую архитектуру TSE, которая включает пользователя в процесс редактирования. На вход подается исходный звуковой сигнал, который проходит нейронную модель для извлечения речи. Затем пользователь может отметить ошибки в результате. Маска редактирования (edit mask), создаваемая пользователем, используется для регулирования областей, требующих очистки или изменений. Модель обучается на синтетических наборах данных, где разметка используется для произвольных масок, включая функции шума и громкости. Эти модели обучаются для воспроизведения точных результатов, которые подходят пользователям. #### Результаты Мы проводили эксперименты с двумя вариантами масок: шумовой и пробабильной. Результаты показали, что модели, обученные на моделировании шума в dBFS (децибела фонового звука), и применении пробабильных значений, показали наилучший алгоритм. Эта модель близка к результатам, которые предпочитают участники в экспериментах. Мы провели статистический анализ на 22 участниках, которые сравнили нашу модель с базовой TSE. Результаты показали, что пользователи предпочитают результаты, полученные с использованием нашей системы. #### Значимость Наша система демонстрирует мощь людского взаимодействия в процессе извлечения речи. Она может применяться в различных сегментах, таких как видеоредактирование, звуковые синтезеры и улучшение речи для роботов. Здесь преимущество в том, что пользователи могут контролировать точные регионы, чтобы изменить результат в соответствии с их потребностями. Это может повысить качество работы в сфере поиска и анализа звуковых данных. #### Выводы Мы представили первую систему TSE с участием пользователя в редактировании. Наши результаты показывают, что людское взаимодействие может значительно улучшить результаты. Мы планируем расширить эту работу, включив более сложные сценарии и улучшив модельную архитектуру для более точного извлечения речи с интерактивным редактированием.

Annotation:

We present the first neural target speech extraction (TSE) system that uses human feedback for iterative refinement. Our approach allows users to mark specific segments of the TSE output, generating an edit mask. The refinement system then improves the marked sections while preserving unmarked regions. Since large-scale datasets of human-marked errors are difficult to collect, we generate synthetic datasets using various automated masking functions and train models on each. Evaluations show that...

ID: 2508.03041v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 TF-MLPNet: Tiny Real-Time Neural Speech Separation

2025-08-09

Авторы:

Malek Itani, Tuochao Chen, Shyamnath Gollakota

#### Контекст Современные hearable устройства (например, наушники) становятся все более сложными, предоставляя пользователям различные функции, включая звуковую сепарацию (разделение говорящих из шума). Эти возможности могут существенно улучшить слуховые функции и обеспечить более удобную и эффективную связь. Однако, существующие решения для разделения речи, основанные на нейронных сетях, не могут выполнять задачи разделения речи в реальном времени на миниатюрных нейронных акселераторах (например, GAP9), которые характеризуются ограниченными вычислительными возможностями. Это ставит перед разработчиками проблему: как создать модель, которая была бы как можно проще и эффективнее, чтобы работала на этих устройствах. #### Метод TF-MLPNet — это модель, разработанная с учетом ограничений производительности миниатюрных устройств. Она работает во времени-частотной области, где каждая часть аудиосигнала (кадр) разбивается на частотные компоненты. Далее, для каждого частотного диапазона применяются сверточные слои, которые оперируют с каналами, а для каждого канала — полносвязные слои, обрабатывающие кадр как полностью. Этот структурный подход позволяет уменьшить количество вычислений, необходимых для работы модели. Для увеличения эффективности используется микроскопическая тренировка с многоуровневым параллелизмом. Это позволяет модели обрабатывать звуковые фрагменты в реальном времени на GAP9. Модель также может работать на минимальном количестве памяти, что делает ее идеальной для миниатюрных девайсов. #### Результаты Замеры производительности TF-MLPNet показали, что она может обрабатывать 6 мс аудио фрагментов в реальном времени на GAP9. Результаты показали, что модель обеспечивает значительное улучшение в скорости и эффективности при сравнении с предыдущими решениями. Например, скорость работы вышла больше 3,5-4 раз по сравнению с потоковыми моделями, ранее применявшимися в сфере разделения речи. Такой уровень производительности делает TF-MLPNet идеальной для применения в hearable устройствах. #### Значимость TF-MLPNet открывает новые возможности для звуковой сепарации в hearable устройствах. Она позволяет реализовать функции, такие как непрерывное разделение речи в шумных условиях или выделение целевого речи в многоголосной среде. Модель эффективна, не только по скорости, но и по степени использования ресурсов процессора, что делает ее подходящей для устройств с ограниченной мощностью. Это может влиять на развитие клинических приложений (например, для людей с ухудшенным слухом), коммуникационных технологий (например, для интеллектуальных голографических у

Annotation:

Speech separation on hearable devices can enable transformative augmented and enhanced hearing capabilities. However, state-of-the-art speech separation networks cannot run in real-time on tiny, low-power neural accelerators designed for hearables, due to their limited compute capabilities. We present TF-MLPNet, the first speech separation network capable of running in real-time on such low-power accelerators while outperforming existing streaming models for blind speech separation and target sp...

ID: 2508.03047v1 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 MiSTR: Multi-Modal iEEG-to-Speech Synthesis with Transformer-Based Prosody Prediction and Neural Phase Reconstruction

2025-08-09

Авторы:

Mohammed Salah Al-Radhi, Géza Németh, Branislav Gerazov

## Контекст ИнINTELLIGENCE COMMUNICATIONS INTELLIGENCE COMMUNICATIONS синтез речи из интракраниальных электроэнцефалограмм (iEEG) представляет собой обещающую область, способную восстановить утерянную способность говорить у людей с серьезными нарушениями речи. Однако достижение естественного и понятного говорения остается сложной задачей из-за ограниченности методов представления признаков, моделирования просодии и восстановления фазового структуры звука. Нехватка эффективных решений в этих областях ограничивает качество генерируемого звука и затрудняет применение технологий в реальной жизни. ## Метод MiSTR — это глубокое обучение, которое сочетает несколько революционных техник для решения этих проблем. В частности, оно использует **Wavelet-based feature extraction**, что позволяет получить тонко масштабируемые представления временных, спектральных и нейрофизиологических свойств iEEG-сигналов. Далее, **Transformer-based decoder** применяется для точного предсказания просодии с помощью адаптивного моделирования интонации и пауз. Наконец, **neural phase vocoder** с динамической коррекцией спектра обеспечивает гармоничность звука и точность реконструкции. Этот комплексный подход обеспечивает высококачественную реконструкцию речи, включая тон, интонацию и естественность. ## Результаты Для оценки MiSTR проведены эксперименты на основе публичного датасета iEEG. Модель достигла следующих результатов: **mean Pearson correlation of 0.91** между генерируемыми и исходными Mel-спектрами, что значительно превосходит результаты лучших существующих моделей. Эти результаты устанавливают новый стандарт в области нейронного синтеза речи, показывая точность и натуральность генерируемого звука. ## Значимость Модель MiSTR открывает новые перспективы для восстановления речи у пациентов с расстройствами речи, таких как апазия или последствия инсульта. Кроме того, ее уникальный подход к моделированию просодии и реконструкции фазы может быть применен в других областях, таких как робототехника, виртуальные ассистенты и улучшение интеллектуальных систем. Благодаря инновационной архитектуре, MiSTR обеспечивает высокую точность и естественность речи, которая выше классических методов. ## Выводы MiSTR достигает нового уровня в синтезе речи из iEEG-сигналов, обеспечивая высокую точность и естественность звука. На основе этих результатов, будущие исследования будут сфокусированы на улучшении модели для более сложных ситуаций и расширении ее применения в различных областях, включая медицину и робототехнику.

Annotation:

Speech synthesis from intracranial EEG (iEEG) signals offers a promising avenue for restoring communication in individuals with severe speech impairments. However, achieving intelligible and natural speech remains challenging due to limitations in feature representation, prosody modeling, and phase reconstruction. We introduce MiSTR, a deep-learning framework that integrates: 1) Wavelet-based feature extraction to capture fine-grained temporal, spectral, and neurophysiological representations of...

ID: 2508.03166v1 cs.SD, cs.LG, eess.AS

arXiv PDF

1
2
3

Показано 21 - 30 из 30 записей