📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou

#### Контекст Современные системы обработки речи чрезвычайно важны для различных приложений, включая распознавание речи, перевод и улучшение речи. Однако существуют серьезные проблемы, связанные с низкой эффективностью и высокой затратой ресурсов при обработке речи в реальном времени. Одна из основных проблем заключается в том, что многие существующие методы требуют многократного вычисления для достижения качественного результата. Это приводит к высоким затратам на вычисления и неэффективности в реальном времени. Необходимо разработать более эффективные алгоритмы, которые обеспечивают высокое качество улучшения речи с меньшими затратами на вычисления. #### Метод Мы предлагаем **COSE (Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement)**, новый метод для одношаговой обработки речи. Метод основан на **алгоритме Флоу (Flow)**, но вместо традиционных методов, основанных на многошаговых вычислениях, мы предлагаем использовать **скоростные поля средней скорости**. Это позволяет эффективно преобразовывать исходные звуковые сигналы в целевые сигналы за один шаг. Также мы ввели **композиционную идентитеть скорости**, которая упрощает вычисления и уменьшает накладные расходы. Это позволяет методу работать быстрее и эффективнее, сохраняя теоретическую корректность и качество звука. #### Результаты Мы проверили COSE на стандартных бенчмарках для обработки речи. Эксперименты показали, что COSE достигает результатов, которые в 5 раз быстрее, чем существующие методы, при этом уменьшая затраты на обучение в 40%. Мы также проверили качество улучшения речи и показали, что COSE не отстает от конкурентов в этом плане. Наши результаты подтверждают, что COSE является эффективным и пра prактичным алгоритмом для одношаговой обработки речи. #### Значимость COSE может быть применен в различных сферах, включая распознавание речи, генерацию речи и улучшение речи в реальном времени. Он обеспечивает значительное улучшение производительности за счет уменьшения затрат на вычисления и ускорения обработки. Основное преимущество COSE заключается в том, что он позволяет достичь высокого качества речи с меньшими затратами на ресурсы. Это может быть ответственно за будущие развития в области интеллектуальных систем обработки речи. #### Выводы Мы представили COSE, новый одношаговый метод для обработки речи, который эффективно решает проблему высоких затрат на вычисления. Наши эксперименты показали, что COSE достигает высоких результатов качества с меньшими расходами на ресурсы. В дальнейшем мы планируем расширить применение COSE на другие сферы и улучшить его алгоритм, чтобы достичь еще более высокого качества и эффективности.
Annotation:
Diffusion and flow matching (FM) models have achieved remarkable progress in speech enhancement (SE), yet their dependence on multi-step generation is computationally expensive and vulnerable to discretization errors. Recent advances in one-step generative modeling, particularly MeanFlow, provide a promising alternative by reformulating dynamics through average velocity fields. In this work, we present COSE, a one-step FM framework tailored for SE. To address the high training overhead of Jacobi...
ID: 2509.15952v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou

## Контекст Современные методы синтеза речи, такие как diffusion и flow matching (FM), достигли выдающихся результатов в области улучшения речи (speech enhancement, SE). Однако эти подходы обычно требуют многошагового генерирования, что не только требует высоких ресурсов вычислений, но и подвержено ошибкам дискретизации. В последнее время наблюдается рост интереса к одношаговым моделям генерирования, которые могут обеспечить более эффективное и точное генерирование с меньшими затратами. Одним из таких подходов является MeanFlow, который использует среднюю скорость в качестве динамического поля для генерирования. Тем не менее, существуют проблемы, связанные с вычислительной сложностью расчета Jacobian-vector product (JVP) в MeanFlow. В этой работе мы предлагаем COSE — новую одношаговую модель FM, оптимизированную для SE, которая решает эти проблемы и позволяет достичь высокой эффективности. ## Метод COSE основывается на идее автоматического сложения скоростей вдоль многомерных пространственных полей. В центре модели лежит концепция velocity composition identity, которая позволяет эффективно вычислять среднюю скорость без необходимости вычислять дорогостоящие Jacobian-vector product. Модель COSE реализует одношаговое генерирование речи, используя среднюю скорость в качестве главного динамического управляющего поля. Эта архитектура обеспечивает высокую эффективность вычислений, но при этом сохраняет теоретическую точность и качество звука. ## Результаты Мы провели исследования на различных стандартных бенчмарках для SE. COSE показала скорость генерирования до 5 раз выше по сравнению с традиционными многошаговыми FM-моделями. Это достигнуто без каких-либо потерь в качестве речи. Кроме того, уменьшение затрат на обучение достигло 40%, что делает COSE более экономичной в плане ресурсов. Эксперименты подтверждают, что COSE сохраняет высокое качество речи в то же время, что и традиционные методы, но с значительно более высокой эффективностью. ## Значимость Модель COSE может применяться в различных сферах, где требуется высококачественное улучшение речи, например, в голосовых помощниках, видеоконференциях, медицине и т. д. Особым преимуществом COSE является ее высокая эффективность и компактность, что делает ее подходом выгодным для реализации в реальных системах. Благодаря своей одношаговой природе, COSE также может быть интегрирована с другими моделями генерирования, что повышает потенциал для развития будущих технологий в области синтеза речи. ## Выводы Мы представили COSE — новую одношаговую модель FM, оптимизированную для SE, которая эффективно решает проблемы вычислительной сложности и затрат на обучение. Резу
Annotation:
Diffusion and flow matching (FM) models have achieved remarkable progress in speech enhancement (SE), yet their dependence on multi-step generation is computationally expensive and vulnerable to discretization errors. Recent advances in one-step generative modeling, particularly MeanFlow, provide a promising alternative by reformulating dynamics through average velocity fields. In this work, we present COSE, a one-step FM framework tailored for SE. To address the high training overhead of Jacobi...
ID: 2509.15952v2 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Luca Della Libera, Cem Subakan, Mirco Ravanelli

## Контекст Современные генерирующие аудиопротоколы широко используются в различных технологических областях, включая голосовое воспроизведение, умные динамики и синтез речи. Одним из ключевых элементов этих протоколов являются нейронные аудиокодеки, которые обеспечивают эффективную сжатие звуковых сигналов с минимальным ущербом качества. Несмотря на то, что некоторые аудиокодеки предлагают высокое качество воспроизведения и успешно применяются в статических сценариях, большинство из них не подходят для реального времени, так как не поддерживают потоковое кодирование. Это ограничение влечет за собой затруднения в использовании таких кодеков в потоковых голосовых сервисах, устройствах для синтеза речи и других приложениях, требующих чрезвычайно низкой задержки. ## Метод FocalCodec-Stream представляет собой новшество в области потокового аудиокодирования, основанное на фокальной модуляции. Этот кодек сжимает звуковые сигналы в один бинарный код, работая при битрейте от 0.55 до 0.80 кбит/с. Задержка, характерная для FocalCodec-Stream, ограничена 80 мс, что делает его применимым для реального времени. Основой методики является многоэтапное дистилляционное обучение с использованием WavLM. Для повышения качества реконструкции в рамках указанных ограничений позиционировано небольшое модульное рефинера, обеспечивающее баланс между качеством и задержкой. Таким образом, FocalCodec-Stream достигает соотношения между качеством, эффективностью и задержкой, которое отличает его от современных альтернатив. ## Результаты Исследования проводились на наборе данных звуков, включающих различные голоса и акустические условия. Результаты показали, что FocalCodec-Stream превосходит существующие потоковые кодеки в задачах реконструкции голоса и сохранения акцентов, даже при подвисании и небольшой задержке. Общий ряд экспериментов также подтвердил улучшение качества речевых признаков и уменьшение потерь в сигнале, сопоставимое с традиционными кодеками непотокового обеспечения. ## Значимость FocalCodec-Stream открывает новые возможности для развития реального времени в области голосового взаимодействия. Его можно применять в умных гаджетах, голосовых помощниках и видеоконференцсервисах, где низкая задержка критична. Преимуществоми является высокая эффективность в режиме потока, возможность применения в реальном времени, а также улучшение качества реконструкции. Этот подход может вести к развитию новых технологий в сфере звукового анализа, помочь в создании улучшенных методов управления голосовыми динамиками и в концепции "умных городов", где звуковые д
Annotation:
Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage caus...
ID: 2509.16195v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Marco Pasini, Stefan Lattner, George Fazekas

## Контекст Одним из ключевых аспектов развития генерируемых моделей аудио является эффективное представление аудиосигналов в компактном пространстве. Существующие подходы часто приходятся выбирать между использованием континуальных эмбеддингов и дискретных токенов, что ограничивает гибкость приложений. Более того, достижение высокого компрессионного отношения с сохранением качества аудио остается значимой проблемой. Это влечет за собой необходимость в разработке универсальных моделей, которые могут объединить эффективность кодирования и качество звука. ## Метод Мы предлагаем CoDiCodec — новую аудио-автоэнкодер модель, которая удачно объединяет континуальные и дискретные представления. Модель основывается на Finite Scalar Quantization (FSQ) и инновационной FSQ-dropout технике, позволяющей генерировать одновременно кустовые токены с скоростью 2.38 кбит/с и континуальные эмбеддинги с частотой ~11 Гц. Эти два представления достигаются без добавления дополнительных функций потерь, что упрощает тренировку. Модель поддерживает оба типа декодирования — ауторегрессионное и параллельное, что приводит к различным торговымoffs. Этот подход позволяет решать задачи сжатия с разными скоростями и подходами в зависимости от поставленных задач. ## Результаты Мы проверили работу CoDiCodec на различных аудиодорожках и сравнили её с современными автоэнкодерами для аудио. Модель показала выдающиеся результаты в аудио-фидлетируемости и эффективности сжатия. Например, при сжатии с битрейтом 2.38 кбит/с CoDiCodec демонстрирует улучшение качества в 1.25–1.5 с COMPRESS-32k и Bitswap, а при 7 кбит/с — в 1.5–2 раза. Это говорит о превосходстве модели в сочетании компрессии и звукового качества. Благодаря FSQ-dropout, CoDiCodec обеспечивает гибкость в выборе стратегии декодирования, а также эффективность в ауторегрессионном декодировании. ## Значимость CoDiCodec может быть применена в различных областях, включая создание генерируемых музыкальных треков, синтез речи и обработку звука в реальном времени. Её уникальная способность предоставить как континуальные, так и дискретные представления делает её идеальным вариантом для синтеза, генерации и редактирования аудио. Наш подход вносит значительный вклад в развитие технологий компрессии и генерируемых моделей, способствуя развитию глубокого обучения в области звуковых сигналов. ## Выводы CoDiCodec представляет собой новую модель, которая строго выходит за рамки существующих автоэнкодеров. Она предлагает эффективное представление аудио в компактном пространстве, объединяя в себе ф
Annotation:
Efficiently representing audio signals in a compressed latent space is critical for latent generative modelling. However, existing autoencoders often force a choice between continuous embeddings and discrete tokens. Furthermore, achieving high compression ratios while maintaining audio fidelity remains a challenge. We introduce CoDiCodec, a novel audio autoencoder that overcomes these limitations by both efficiently encoding global features via summary embeddings, and by producing both compresse...
ID: 2509.09836v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan

## Контекст Профилирование звуковой логики и семантики в больших звуковых языковых моделях (LALMs) является ключевым заданием для их эффективного применения в различных сферах, включая аудио-анализ, генерирование речевых моделей и робототехнику. Несмотря на то, что эти модели продвигаются с технической стороны, оценка их качества и широкого применения ограничивается существующими решениями, которые недостаточно эффективны и не учитывают все аспекты аудио-логики. Это приводит к проблемам с ростом скорости, несогласованностью обработки и ограниченной областью применения. Наша мотивация заключается в разработке быстрого, универсального и стандартизированного инструмента, который может помочь улучшить систематическую оценку и применение звуковых моделей. ## Метод AU-Harness представляет собой открытый инструментальный набор для систематической оценки LALMs. Он включает: - **Оптимизированную обработку**: уменьшение затрат на вычисления с помощью батч-обработки и параллельной обработки, что приводит к ускорению процесса до 127%. - **Стандартизированные протоколы проблем**: устранение несогласованностей в обработке, чтобы обеспечить последовательность результатов и надежность экспериментов. - **Расширение области оценки**: включение новых типов задач, таких как **LLM-Adaptive Diarization** (для временной анализа) и **Spoken Language Reasoning** (для оценки когнитивных задач). - **Гибкость в настройке**: пользователи могут настроить процессы для различных задач и моделей, чтобы обеспечить честную сравнительную оценку. ## Результаты Мы провели эксперименты с 380+ задачами, используя AU-Harness для оценки нескольких звуковых моделей. Наши результаты показали: - **Скорость**: до 2,7 раз быстрее существующих систем. - **Стандартизация**: снижение разброса результатов связанного с несогласованностью в протоколах. - **Обнаружение лаконичных моделей**: выявление сильных и слабых сторон моделей в таких областях как временное понимание аудио и сложные задачи рассуждения. - **Найденные проблемы**: многочисленные модели слабо выступают в области временного анализа и задач рассуждения, что отражается в узких базовых результатах. ## Значимость AU-Harness открывает новые возможности для систематической оценки LALMs, которые могут применяться в следующих сферах: - **Разработка звуковых моделей**: помогает разработчикам определить слабые места в моделях и усовершенствовать их. - **Промышленность и робототехника**: предоставляет инструменты для проверки моделей в реальных задачах, таких как голосовое взаимодействие и анализ аудио. - **Образование и интеллектуальные системы**: позволяет измерить уровень понимания голосовых команд и сло
Annotation:
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating them remains challenging due to inefficient toolkits that limit fair comparison and systematic assessment. Current frameworks suffer from three critical issues: slow processing that bottlenecks large-scale studies, inconsistent prompting that hurts reproducibility, and narrow task coverage that misses important audio reasoning capabilities. We introduce AU-Harness, an efficient and comprehensive evaluation framework for LA...
ID: 2509.08031v2 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Zubair Faruqui, Mackenzie S. McIntire, Rahul Dubey, Jay McEntee

## Контекст Акустические сигналы животных являются важной источником информации для изучения поведения, экологии и эволюции различных видов. Однако анализ этих сигналов часто сталкивается с проблемами, связанными с их комплексностью и большим объемом данных. В статье рассматривается применение глубоких нейросетей для классификации звуковых сигналов птиц, которые имеют сильную географическую разнообразие в т Tехнологии звукозаписи и анализа позволяют собирать большие объемы данных, но их интерпретация часто требует больших усилий и специализированных знаний. Развитие Искусственного Интеллекта (ИИ) и, в частности, Эксплаинэйбел ИИ (XAI), предлагает новые возможности для понимания и интерпретации результатов акустического анализа. Однако, применение XAI в биоакустике, в частности, в анализе звуков птиц, до сих пор остается недостаточно исследовано. Целью данной статьи является изучение возможностей применения XAI для понимания моделей классификации звуков, а также выявление шаблонов и причин, по которым модель принимает определенные решения. ## Метод Для проведения исследования были использованы звуковые записи птиц из разных районов жизнедеятельности в Северной Америке. Звуковые сигналы были преобразованы в изображения в формате спектрограмм, которые являются входным форматом для нейронной сети. Модель классификации основывалась на архитектуре глубоких совокупных нейронных сетей (CNN), которая была обучена классифицировать звуки на основе их спектрограмм. Для того, чтобы понять, что именно учитывает модель при принятии решения, применены методы Эксплаинэйбл ИИ. Эти методы могут быть разделены на две категории: модельно-зависимые (DeepLIFT, Grad-CAM) и модельно-независимые (LIME, SHAP). Методы LIME и SHAP работают путем создания интерпретируемых представлений входных данных, показывая, какие части сигнала влияют на решение модели. В то же время, DeepLIFT и Grad-CAM относятся к модельно-зависимым методам, которые используют внутреннюю структуру нейросети для показания, как каждая часть входного сигнала влияет на выходную классификацию. ## Результаты Использование CNN для классификации звуков птиц дало высокую точность (94.8%) в распознавании различных типов звуков. Для интерпретации решений модели были применены XAI-техники. Легенды LIME и SHAP показали, какие части спектрограммы имеют сильнейшее влияние на классификацию. Например, LIME показал, что звуки с высокой частотой и сильным амплитудовым диапазоном имеют большую важность для распознавания
Annotation:
Explainable Artificial Intelligence (XAI) has emerged as a critical tool for interpreting the predictions of complex deep learning models. While XAI has been increasingly applied in various domains within acoustics, its use in bioacoustics, which involves analyzing audio signals from living organisms, remains relatively underexplored. In this paper, we investigate the vocalizations of a bird species with strong geographic variation throughout its range in North America. Audio recordings were con...
ID: 2509.08717v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan

## Контекст Огромные Аудио-Языковые Модели (LALMs) постоянно развиваются, что влечет за собой возрастающий интерес к их эффективному использованию в различных приложениях. Однако эффективная оценка таких моделей остается вызовом. На сегодняшний день существуют недостатки в инструментах, позволяющих провести систематическую оценку. В частности, существуют фреймворки, которые либо медленны в обработке, либо не поддерживают согласованные методы представления задач, что снижает возможность воспроизводимости исследований. Кроме того, многие существующие инструменты не покрывают все типы задач, необходимых для полной оценки LALMs. Данная статья посвящена разработке LALM-Eval, комплексного и эффективного системного фреймворка для оценки LALMs, который предназначен для решения этих проблем. ## Метод LALM-Eval представляет собой новую систему для эффективного и широкого опробования LALMs. Она включает в себя оптимизированные алгоритмы для быстрого обработки больших объемов данных с использованием параллельных вычислений. Благодаря этому, модели могут быть протестированы на большом количестве задач одновременно. Кроме того, в фреймворк включены стандартизированные протоколы для методов представления задач, что позволяет уменьшить влияние человеческого фактора при сравнении моделей. Также включены две новые категории оценки: LLM-Adaptive Diarization для временной обработки аудио-данных и Spoken Language Reasoning для решения сложных задач рассуждения на основе голосовых данных. ## Результаты Проведенные эксперименты показали, что LALM-Eval значительно быстрее существующих инструментов, обеспечивая скорость обработки до 127% выше. Это позволяет проводить большую масштабность оценки, которая ранее была недоступна. Благодаря стандартизированным протоколам, результаты становятся более воспроизводимыми и сравнимыми. Было проанализировано более 380 различных задач, включая различные сценарии распознавания речи, аудио-диаризации и комплексных задач рассуждения. Обнаружены существующие проблемы в нынешних LALMs, в частности, в слабой обработке временных задач и сложных голосовых ситуаций, таких как рассуждения. Также были выявлены проблемы стандартизации в модах инструктирования, которые могут приводить к существенным диспарностям в результатах. ## Значимость LALM-Eval представляет собой практический инструмент для разработчиков и исследователей LALMs. Он позволяет проводить более точные и высокомасштабные оценки, которые являются ключевыми для выявления ограничений моделей. Эта система также демонстрирует потребность в стандартизации в мо
Annotation:
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating them remains challenging due to inefficient toolkits that limit fair comparison and systematic assessment. Current frameworks suffer from three critical issues: slow processing that bottlenecks large-scale studies, inconsistent prompting that hurts reproducibility, and narrow task coverage that misses important audio reasoning capabilities. We introduce LALM-Eval, an efficient and comprehensive evaluation framework for LAL...
ID: 2509.08031v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal

## Контекст Основной контекст исследования заключается в развитии методов редактирования звуковых сцен, в которых звуковые источники перекрываются во времени. Данная проблема обнаруживается при редактировании реальных звуковых сцен, где необходимо управлять отдельными звуковыми источниками, такими как музыка, речь, или фоновые шумы. Существующие подходы позволяют преобразовывать звуковые сцены, однако ограничены в способности управлять отдельными звуковыми событиями с учетом текстовых описаний или графических моделей. Мотивация заключается в создании системы, позволяющей редактировать отдельные звуковые события с помощью текстовых и графических редактирования, улучшая точность и удобство. ## Метод Методология основывается на использовании трансформера с архитектурой encoder-decoder, который обучен на синтетических парах (звуковой пример, ожидаемый результат редактирования). Архитектура построена на SoundStream-представлении звука, обеспечивающем высокую точность в хранении деталей звука. Графическая модель "event roll" используется для описания временных характеристик звуковых событий. Система обучена на парах (звуковой пример + текстовое описание), например, "усилить Door", где "Door" — класс звука, "усилить" — действие, а "event roll" — информация о времени. Обучение проводилось на синтетических данных, сформированных путем внедрения отдельных звуковых событий в сложные фоновые звуки. ## Результаты Оценка системы производилась с помощью метрик, оценивающих качество редактирования, таких как однородность звука и точность изменений. Отдельным экспериментов было проверено влияние каждой части текстового описания: класса звука, времени и действия. Например, точность усиления звука "Door" зависела от точности распознавания класса и времени события. Результаты показали, что система эффективно управляет отдельными звуковыми событиями, даже в сложных реальных сценах. ## Значимость Предложенная система представляет собой важное решение в области аудио-редактирования, особенно при работе с реальными звуковыми сценами. Она позволяет управлять отдельными звуковыми событиями на основе текстовых и графических данных. Это делает процесс редактирования более точным и удобным. Потенциальные применения включают профессиональное редактирование звуков, создание звуковых эффектов в мультимедиа и синтез звука для виртуальных и реальных сред. Из найденных преимуществ выделяется точность и гибкость системы в редактировании звуков. ## Выводы Основное достижение — разработка
Annotation:
Editing complex real-world sound scenes is difficult because individual sound sources overlap in time. Generative models can fill-in missing or corrupted details based on their strong prior understanding of the data domain. We present a system for editing individual sound events within complex scenes able to delete, insert, and enhance individual sound events based on textual edit descriptions (e.g., ``enhance Door'') and a graphical representation of the event timing derived from an ``event rol...
ID: 2509.05256v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Yuriy Izotov, Andrei Velichko

#### Контекст Голосовое управление встраиваемых систем и Интернета вещей (IoT) широко используется для управления устройствами, такими как домашние электроприборы, смартфоны и даже автомобили. Однако реализация эффективного речевого распознавания команд на таких устройствах сталкивается с ограничениями в ресурсах, такими как низкая мощность вычислений, ограниченная память и ток. Традиционные модели глубокого обучения требуют больших ресурсов, что делает их неэффективными для использования в этих системах. Этот краткий обзор сосредотачивается на разработке энергоэффективных алгоритмов речевого распознавания, которые могут быть интегрированы в устройства с ограниченными ресурсами. #### Метод Методология разработки речевого распознавания основывается на сочетании трех основных компонентов: системы воспитанного упрощенного классификатора LogNNet, оптимизированного протокола извлечения признаков Mel-Frequency Cepstral Coefficients (MFCC) и алгоритма активности речи (Voice Activity Detection, VAD). Алгоритм VAD используется для определения моментов во вводе, когда происходит речь. Функции MFCC извлекаются из звуковых сигналов, чтобы описать характеристики голоса. Затем эти признаки передаются в LogNNet классификатор, который распознает речевые команды. LogNNet имеет небольшое число параметров, что делает его пригодным для использования в устройствах с ограниченными ресурсами. #### Результаты Для оценки системы были проведены эксперименты с использованием 4 команд из Speech Commands dataset, ресемплированных до 8 кГц. Было проанализировано четыре способа агрегирования MFCC, и был выбран метод адаптивного биннинга, который дает лучшую связь точности и компактности. LogNNet классификатор, с архитектурой 64:33:9:4, достиг 92.04% точности при оценке с независимым способом обучения. Имплементация на Arduino Nano 33 IoT (ARM Cortex-M0+, 48 МГц, 32 КБ RAM) показала, что система может работать в режиме реального времени, распознавая голосовые команды с 90% точностью. Это требует всего 18 КБ RAM, что составляет 55% от доступной памяти. #### Значимость Разработанная система может быть применена в различных областях, таких как домашние автоматизационные системы, беспроводные сенсорные сети и системы поддержки ручного управления. Она предлагает высокую эффективность в реальном времени и значительно меньший объем ресурсов, чем традиционные модели глубокого обучения. Эту модель можно использовать для управления устройствами, когда требуется минимальное потребление энергии и малое количество памяти. Это делает ее подходящей для применения в сетях IoT и в технологиях "умного" дома.
Annotation:
This paper presents a low-resource speech-command recognizer combining energy-based voice activity detection (VAD), an optimized Mel-Frequency Cepstral Coefficients (MFCC) pipeline, and the LogNNet reservoir-computing classifier. Using four commands from the Speech Commands da-taset downsampled to 8 kHz, we evaluate four MFCC aggregation schemes and find that adaptive binning (64-dimensional feature vector) offers the best accuracy-to-compactness trade-off. The LogNNet classifier with architectu...
ID: 2509.00862v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

#### Контекст Текстовые распознавания речи (TTS) и голосовые преобразования (VC) широко используются в сфере искусственного интеллекта для генерирования речи. Основной задачей в этих областях является получение качественных аудио сигналов из текстовых данных. Одним из ключевых элементов этих процессов являются акустические признаки, такие как мел-спектрограммы, которые легко обучаются и требуют меньшего объема ресурсов. Однако при преобразовании этих признаков в аудио сигналы через вокодер возникают значительные затраты времени и памяти, особенно при использовании методов, таких как диффузионное обучение. Эта проблема влияет на эффективность и экономичность реализации TTS и VC. Мы предлагаем новую модель, которая уменьшает эти затраты, сохраняя высокое качество генерируемых аудио сигналов. #### Метод Мы предлагаем **Vocoder-Projected Feature Discriminator (VPFD)** — новую архитектуру, использующую вокодер для проекции признаков на аудио сигналы. Метод основывается на двух основных компонентах: вокодер-проектор и искусственной нейронной сети с адверсарным обучением. Вокодер-проектор преобразует мел-спектрограммы в временной сигнал с помощью одного этапа увеличения разрешения. Это позволяет эффективно применять адверсарный тренинг, не требуя значительного времени и памяти. Модель обучается с помощью бинарного адверсарного тренинга, где дискриминатор сравнивает генерируемый сигнал с реальным. Это приводит к уменьшению времени обучения и потребления памяти. #### Результаты Мы провели эксперименты на различных данных, включая диффузионное обучение в VC. Наши результаты показали, что VPFD демонстрирует высокое качество генерируемых аудио сигналов, сравнимое с дискриминаторами, работающими непосредственно с волновыми сигналами. Однако VPFD гораздо эффективнее по ресурсам: обучение стало быстрее в 9.6 раз, а потребление памяти уменьшилось в 11.4 раз в сравнении с традиционными методами. Эти результаты доказывают эффективность и экономичность нашего подхода. #### Значимость Метод VPFD может быть применен в различных областях, таких как текстовые распознавания речи, голосовые преобразования, синтез речи и музыкальная генерация. Он обеспечивает высокое качество генерируемых сигналов с значительной экономией ресурсов. Это может привести к более эффективной реализации TTS и VC в ситуациях, где ресурсы ограничены. Будущие исследования будут сфокусированы на расширении возможностей VPFD для других типов акустических признаков и улучшении его парамет
Annotation:
In text-to-speech (TTS) and voice conversion (VC), acoustic features, such as mel spectrograms, are typically used as synthesis or conversion targets owing to their compactness and ease of learning. However, because the ultimate goal is to generate high-quality waveforms, employing a vocoder to convert these features into waveforms and applying adversarial training in the time domain is reasonable. Nevertheless, upsampling the waveform introduces significant time and memory overheads. To address...
ID: 2508.17874v2 cs.SD, cs.AI, cs.LG, eess.AS, stat.ML
Показано 11 - 20 из 27 записей