📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding

2025-09-05

Авторы:

Luis Felipe Chary, Miguel Arjona Ramirez

## Контекст Проблема неэффективности и высокой сложности существующих систем нейронного кодирования речи лежит в основе данных исследований. Традиционные подходы, такие как residual vector quantization (RVQ), требуют сложной архитектуры и значительных вычислительных ресурсов. Это ставит под сомнение их пригодность для реализации в режиме низкой задержки, необходимого для реального времени в телекоммуникационных системах. Данное исследование адресует эту проблему, предлагая простой, одноэтажный подход к кодированию спектрограмм, который упрощает архитектуру и обеспечивает высокую производительность. ## Метод Предлагаемый подход основывается на векторном квантизаторе типа VQ-VAE, но отличается упрощенной архитектурой. Он работает напрямую с mel-спектрограмой, разбивая ее на непересекающиеся 4x4 патчи, которые затем кодируются в едином общем кодексе. Для обеспечения высокого качества реконструкции звука в данной системе используется гибридный подход: в качестве генератора звука используется HiFi-GAN, который обучается заполнить дискретную структуру полученного латентного пространства. Этот вариант позволяет получить высококачественные аудиосигналы с низким затратом вычислительных ресурсов. ## Результаты Для оценки эффективности предложенного подхода проведены многочисленные эксперименты с использованием различных метрик качества, таких как STOI, PESQ, MCD и ViSQOL. Использовались реалистичные данные речи, а также сравнение с несколькими современными системами кодирования речи. Результаты показали, что предложенная система достигает почти одинакового качества с лучшими готовыми решениями, при этом значительно упрощая архитектуру и сокращая затраты ресурсов на обучение и время работы. ## Значимость Предложенная модель нейронного кодирования речи открывает новые возможности для разработки низкозадержанных, высококачественных систем в реальном времени. Она имеет широкие перспективы применения в телекоммуникационных системах, видеосвязи и устройствах беспроводной связи. Благодаря открытому коду и простоте интеграции, она может стать базой для дальнейших исследований и усовершенствований в области кодирования звука. ## Выводы Опубликованная работа доказывает, что простой одноэтажный подход к кодированию mel-спектрограмм может дать одинаковое, а иногда и лучшее качество аудио в сравнении с сложными RVQ-системами. Этот подход является эффективным инструментом для построения будущих низкозадержанных систем нейронной речи. Будущие исследования будут сконцентрированы на улучшении качества звука при уменьшении потребления вычислительных ресурсов.

Annotation:

We present a neural speech codec that challenges the need for complex residual vector quantization (RVQ) stacks by introducing a simpler, single-stage quantization approach. Our method operates directly on the mel-spectrogram, treating it as a 2D data and quantizing non-overlapping 4x4 patches into a single, shared codebook. This patchwise design simplifies the architecture, enables low-latency streaming, and yields a discrete latent grid. To ensure high-fidelity synthesis, we employ a late-stag...

ID: 2509.02244v1 cs.SD, cs.CL, eess.AS

arXiv PDF

📄 Speech DF Arena: A Leaderboard for Speech DeepFake Detection Models

2025-09-05

Авторы:

Sandipana Dowerah, Atharva Kulkarni, Ajinkya Kulkarni, Hoan My Tran, Joonas Kalda, Artem Fedorchenko, Benoit Fauve, Damien Lolive, Tanel Alumäe, Matthew Magimai Doss

#### Контекст Глубокая фальсификация аудио (DeepFake) — это сложный метод, который используется для создания поддельных аудиозаписей, часто для мошеннических целей. Это является важной проблемой в области компьютерного зрения и естественного общения. Существуют многочисленные методы, которые пытаются распознавать такие поддельные аудиозаписи, но существует отсутствие стандартизированных бенчмарков для эффективного сравнения различных моделей. Speech DeepFake (DF) Arena предлагается как решение для этой проблемы, объединяя различные бенчмарки и метрики для сравнения различных систем распознавания. Его цель — обеспечить транспарентную, повторяемую и стандартизированную оценку моделей DeepFake-распознавания. #### Метод Speech DF Arena представляет собой систему, которая позволяет сравнивать различные системы распознавания DeepFake. Она включает 14 различных бенчмарков и сценарии атак, а также 12 открытых и 3 проприетарных моделей распознавания. Методология включает стандартизированные протоколы оценки, чтобы обеспечить реплицируемость результатов и обеспечить сравнение моделей на разных данных и условиях. Также включена возможность сравнения моделей на лидерборде, что позволяет сравнить различные модели и определить самые эффективные. #### Результаты В рамках Speech DF Arena проведены широкомасштабные эксперименты с различными моделями и наборами данных. Оценены различные метрики, включая метрику EER (Equal Error Rate). Было обнаружено, что некоторые модели показывают высокую эффективность в определенных ситуациях, но их производительность значительно падает в кросс-доменных сценариях. Это подчеркивает необходимость в развитии кросс-доменных подходов для повышения надежности и устойчивости моделей. #### Значимость Speech DF Arena может быть применена в различных областях, включая безопасность, медицину, сервисы анализа голоса и др. Она обеспечивает мощный инструмент для развития моделей распознавания DeepFake, позволяя улучшить их надежность и кросс-доменную эффективность. В будущем, Speech DF Arena может быть расширена для включения более разнообразных сценариев и типов атак, чтобы непрерывно повышать качество распознавания. #### Выводы Speech DF Arena представляет собой первый стандартизированный бенчмарк для DeepFake-распознавания, который обеспечивает транспарентную и повторяемую оценку моделей. Он позволяет сравнить различные модели и выявить сильные и слабые стороны каждой из них. На основе открытых результатов моделей можно развивать новые подходы, которые повысят надежность и стойкость моделей против различных атак. В будущем, Speech DF Arena будет расширяться для включения более широкого спектра сценариев и типов атак.

Annotation:

Parallel to the development of advanced deepfake audio generation, audio deepfake detection has also seen significant progress. However, a standardized and comprehensive benchmark is still missing. To address this, we introduce Speech DeepFake (DF) Arena, the first comprehensive benchmark for audio deepfake detection. Speech DF Arena provides a toolkit to uniformly evaluate detection systems, currently across 14 diverse datasets and attack scenarios, standardized evaluation metrics and protocols...

ID: 2509.02859v1 cs.SD, cs.CL, eess.AS

arXiv PDF

📄 Benchmarking Prosody Encoding in Discrete Speech Tokens

2025-08-19

Авторы:

Kentaro Onda, Satoru Fukayama, Daisuke Saito, Nobuaki Minematsu

#### Контекст Существует значительный интерес к использованию discrete tokens (дискретных токенов), получаемых с помощью self-supervised learning (SSL), в области speech language models. Эти токены становятся важной частью моделей, которые должны понимать и генерировать не только семантический контент, но и просодические особенности речи. Однако, существуют ограничения в понимании того, насколько эффективны дискретные токены в понимании и генерировании просодической информации. Это вопрос, который вносит значительные трудности в проектирование эффективных моделей speech language. Мотивация для данного исследования заключается в том, чтобы проанализировать эффективность дискретных токенов в задаче prosody encoding, обеспечить понимание их способности охватить просодические фичи и предоставить рекомендации для дальнейшего развития дискретных токенов. #### Метод Для изучения просодического кодирования выбраны два дискретных токена, полученные с помощью k-means clustering из SSL-моделей: FastSpeech 2 и HuBERT. Использование этих двух моделей позволяет изучить различные аспекты просодического кодирования. Для оценки способности токенов понимать просодические особенности проводится ряд экспериментов, включающих модификацию просодии (например, изменение интонации, произношения и ритма) и изучение отклика дискретных токенов на эти изменения. Это позволяет оценить, насколько токены воспринимают изменения в просодии и могут эффективно кодировать эти изменения в своих представлениях. Архитектура использования данных и методов оценки включает в себя обученные модели, которые оценивают просодические фичи в дискретных токенах. #### Результаты В ходе исследования проводился ряд экспериментов, включающих изменение просодии в голосовых данных и изучение отклика дискретных токенов. Для этого применялись различные методы модификации просодии, такие как изменение тональности, скорости речи и интонации. Эксперименты показали, что дискретные токены имеют различную чувствительность к просодическим изменениям, и их восприятие этих изменений зависит от конкретного SSL-модели и количества кластеров. Это позволяет сделать вывод, что некоторые SSL-модели предоставляют более эффективные представления для понимания просодии, чем другие. Эти результаты дают практические рекомендации для выбора SSL-моделей и количества кластеров при проектировании дискретных токенов. #### Значимость Результаты этого исследования имеют значительное значение для области speech language models, где необходимо также учитывать просодические фичи. На основе полученных результатов могут быть разработаны более точные и эффективные дискретные токены, которые будут устойчивы к просодическим изменениям и могут быть использованы в различных задачах, таких как speech recognition, text-to-speech и другие. Э

Annotation:

Recently, discrete tokens derived from self-supervised learning (SSL) models via k-means clustering have been actively studied as pseudo-text in speech language models and as efficient intermediate representations for various tasks. However, these discrete tokens are typically learned in advance, separately from the training of language models or downstream tasks. As a result, choices related to discretization, such as the SSL model used or the number of clusters, must be made heuristically. In ...

ID: 2508.11224v1 cs.SD, cs.CL, eess.AS

arXiv PDF

📄 Joint Transcription of Acoustic Guitar Strumming Directions and Chords

2025-08-13

Авторы:

Sebastian Murgul, Johannes Schimper, Michael Heizmann

## Контекст Музыкальная информационная поисковая система (MIR) становится все более популярной в связи с ростом интереса к автоматизированным системам для анализа и обработки звуковых сигналов. Одна из сложных задач в этой области — автоматическое транскриптирование акустической гитары, особенно при распознавании дирекций подтяжек и прогрессий аккордов. Такой анализ требуется для анализа музыкальных произведений, создания автоматических инструментов для музыкального сопровождения и улучшения интерфейсов для игры на гитаре. Несмотря на существующие решения, их эффективность часто ограничивается недостаточным количеством и качеством данных. Цель данного исследования — расширить текущий подход к транскрипции подтяжек и аккордов, используя новый датасет и современные нейронные сети. ## Метод Для решения задачи использовалась комбинация данных реальных записей и синтетических звуков. Для сбора реальных данных использовались датчики движения ESP32 Smartwatch, позволяющие отслеживать динамику подтяжек на гитаре. Записи были произведены в реальных музыкальных условиях на протяжении 90 минут. Дополнительно создан синтетический набор данных, состоящий из 4 часов звуков с пометками подтяжек и аккордов. Нейронная сеть Convolutional Recurrent Neural Network (CRNN) была обучена для распознавания дирекций подтяжек, их направлений и идентификации аккордов. Алгоритм использовал только звуковые сигналы с микрофона. Эта модель была подготовлена с использованием методов машинного обучения для анализа и распознавания аккордов и подтяжек в реальных условиях. ## Результаты Эксперименты проводились на реальных записях и синтетических данных. В результате получены показатели точности распознавания подтяжек и аккордов. Особенно выдающимися результатами показался комбинированный подход, который использовал как реальные, так и синтетические данные. Этот подход демонстрировал наивысшую точность в распознавании дирекций подтяжек и классификации аккордов. Использование данных с датчиком движения позволило улучшить точность в определении динамических параметров подтяжек, тогда как синтетические данные дали более стабильные результаты в распознавании аккордов. ## Значимость Полученные результаты могут быть применены в различных областях, включая создание автоматизированных инструментов для анализа музыки, улучшение устройств для гитары, а также для создания систем автоматической подборки аккордов для игры. Этот подход также может быть применен для создания интерактивных музыкальных систем, которые будут использоваться в обучении музыка

Annotation:

Automatic transcription of guitar strumming is an underrepresented and challenging task in Music Information Retrieval (MIR), particularly for extracting both strumming directions and chord progressions from audio signals. While existing methods show promise, their effectiveness is often hindered by limited datasets. In this work, we extend a multimodal approach to guitar strumming transcription by introducing a novel dataset and a deep learning-based transcription model. We collect 90 min of re...

ID: 2508.07973v1 cs.SD, cs.CL, eess.AS

arXiv PDF

📄 Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription

2025-08-13

Авторы:

Sebastian Murgul, Michael Heizmann

## Контекст Автоматическая транскрипция акустической гитары с использованием фингерпинкинга представляет собой сложную задачу, ограниченную недостатком меток данных и законодательством в области музыкальных записей. Однако, процедурное генерирование аудиоданных может представить собой эффективный подход для устранения проблемы нехватки данных. Это работа фокусируется на разработке методов процедурного генерирования аудио, которые могут быть использованы для построения моделей транскрипции. ## Метод Методология включает в себя четыре этапа: 1) генерация табулятуры для фингерпинкинга с использованием процедурного создания, 2) рендеринг MIDI-сигналов для эмуляции игры на гитаре, 3) физическая моделизация звука с помощью расширенного алгоритма Karplus-Strong, и 4) добавление эффектов, таких как сведение и дисторшн, чтобы улучшить аутентичность звука. Эти этапы объединены в конвейер, который генерирует практически готовые данные для обучения моделей. ## Результаты Эксперименты проводились с использованием синтетических и реальных данных. Модель CRNN-based note-tracking была обучена на этих данных, и ее результаты были сравнены с реальными записями. Было показано, что процедурно генерируемые данные могут достигать приемлемых результатов в задаче транскрипции. Была также показана эффективность файнтюнинга с малым количеством реальных данных, что позволило повысить точность транскрипции. ## Значимость Процедурно генерируемые данные могут быть применены в многих областях, включая музыкальный анализ, автоматизацию транскрипции и даже создание имитации аккомпанеmenteй. Этот подход обеспечивает гибкость и экономичность в получении данных, что делает его привлекательным для решения задач, где данные с метками являются ограниченными. ## Выводы Эта работа показывает, что процедурно генерируемые данные могут быть эффективными для обучения моделей транскрипции, даже без больших объемов реальных данных. Будущие исследования будут сфокусированы на расширении моделей для более точной транскрипции и исследовании других музыкальных инструментов.

Annotation:

Automatic transcription of acoustic guitar fingerpicking performances remains a challenging task due to the scarcity of labeled training data and legal constraints connected with musical recordings. This work investigates a procedural data generation pipeline as an alternative to real audio recordings for training transcription models. Our approach synthesizes training data through four stages: knowledge-based fingerpicking tablature composition, MIDI performance rendering, physical modeling usi...

ID: 2508.07987v1 cs.SD, cs.CL, eess.AS

arXiv PDF

📄 Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers

2025-08-09

Авторы:

Liang Lin, Miao Yu, Kaiwen Luo, Yibo Zhang, Lilan Peng, Dexian Wang, Xuehai Tang, Yuanhe Zhang, Xikang Yang, Zhenhong Zhou, Kun Wang, Yang Liu

Научная статья "Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers" адресует вопрос уязвимости Audio Large Language Models (ALLMs) для backdoor-атак, использующих акустические триггеры. Авторы предлагают Hidden in the Noise (HIN), новую фреймворк атаки, который использует подtleвые аккустические особенности, такие как изменения динамики звука и стратегическая инъекция шума. Эти изменения вводят постоянные шаблоны, которые ALLM-акустический кодировщик сталкивается, встраивая триггеры в аудиопоток. Чтобы оценить устойчивость ALLM к таким атакам, разработана бенчмарк AudioSafe, который оценивает девять типов рисков. Эксперименты показали, что атаки, использующие шум и перемены речи, достигают более 90% успеха, что ALLM сильно зависит от акустических особенностей, в частности, малочувствительны к громкости, и что триггеры почти не влияют на потери тренировки, демонстрируя свою стезуюсть. Эти выводы подчеркивают необходимость дальнейшего исследования защиты ALLM от таких угроз.

Annotation:

As Audio Large Language Models (ALLMs) emerge as powerful tools for speech processing, their safety implications demand urgent attention. While considerable research has explored textual and vision safety, audio's distinct characteristics present significant challenges. This paper first investigates: Is ALLM vulnerable to backdoor attacks exploiting acoustic triggers? In response to this issue, we introduce Hidden in the Noise (HIN), a novel backdoor attack framework designed to exploit subtle, ...

ID: 2508.02175v2 cs.SD, cs.CL, eess.AS

arXiv PDF

📄 SPGISpeech 2.0: Transcribed multi-speaker financial audio for speaker-tagged transcription

2025-08-09

Авторы:

Raymond Grossman, Taejin Park, Kunal Dhawan, Andrew Titus, Sophia Zhi, Yulia Shchadilova, Weiqing Wang, Jagadeesh Balam, Boris Ginsburg

SPGISpeech 2.0 — это расширенный датасет для развития технологий автоматического распознавания речи (ASR) в финансовой сфере. Он включает 3,780 часов профессионально записанных выпуклых звонков, полностью текстово отмеченных и с идентификаторами речевых участников. Датасет позволяет решать задачи многоголосия в ASR, становясь ресурсом для улучшения технологий распознавания речи. Авторы подтвердили пользу SPGISpeech 2.0, продемонстрировав улучшения ASR-моделей, после того как эти модели были приспособлены к данным датасета. Релиз научного датасета в форме открытого доступа для некоммерческого использования, делает SPGISpeech 2.0 инструментом для продвижения инноваций в ASR. Это решение может оказаться ключевым для развития речевых технологий в отрасли.

Annotation:

We introduce SPGISpeech 2.0, a dataset suitable for speaker-tagged transcription in the financial domain. SPGISpeech 2.0 improves the diversity of applicable modeling tasks while maintaining the core characteristic of the original SPGISpeech dataset: audio snippets and their corresponding fully formatted text transcriptions, usable for end-to-end automatic speech recognition (ASR). SPGISpeech 2.0 consists of 3,780 additional hours of professionally transcribed earnings calls. Furthermore, the da...

ID: 2508.05554v1 cs.SD, cs.CL, eess.AS

arXiv PDF

Показано 11 - 17 из 17 записей