📚 Саммари научных статей из arXiv

Найдено 274 результатов по запросу 'cs.SD, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Recomposer: Event-roll-guided generative audio editing

2025-09-09

Авторы:

Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal

## Контекст Основной контекст исследования заключается в развитии методов редактирования звуковых сцен, в которых звуковые источники перекрываются во времени. Данная проблема обнаруживается при редактировании реальных звуковых сцен, где необходимо управлять отдельными звуковыми источниками, такими как музыка, речь, или фоновые шумы. Существующие подходы позволяют преобразовывать звуковые сцены, однако ограничены в способности управлять отдельными звуковыми событиями с учетом текстовых описаний или графических моделей. Мотивация заключается в создании системы, позволяющей редактировать отдельные звуковые события с помощью текстовых и графических редактирования, улучшая точность и удобство. ## Метод Методология основывается на использовании трансформера с архитектурой encoder-decoder, который обучен на синтетических парах (звуковой пример, ожидаемый результат редактирования). Архитектура построена на SoundStream-представлении звука, обеспечивающем высокую точность в хранении деталей звука. Графическая модель "event roll" используется для описания временных характеристик звуковых событий. Система обучена на парах (звуковой пример + текстовое описание), например, "усилить Door", где "Door" — класс звука, "усилить" — действие, а "event roll" — информация о времени. Обучение проводилось на синтетических данных, сформированных путем внедрения отдельных звуковых событий в сложные фоновые звуки. ## Результаты Оценка системы производилась с помощью метрик, оценивающих качество редактирования, таких как однородность звука и точность изменений. Отдельным экспериментов было проверено влияние каждой части текстового описания: класса звука, времени и действия. Например, точность усиления звука "Door" зависела от точности распознавания класса и времени события. Результаты показали, что система эффективно управляет отдельными звуковыми событиями, даже в сложных реальных сценах. ## Значимость Предложенная система представляет собой важное решение в области аудио-редактирования, особенно при работе с реальными звуковыми сценами. Она позволяет управлять отдельными звуковыми событиями на основе текстовых и графических данных. Это делает процесс редактирования более точным и удобным. Потенциальные применения включают профессиональное редактирование звуков, создание звуковых эффектов в мультимедиа и синтез звука для виртуальных и реальных сред. Из найденных преимуществ выделяется точность и гибкость системы в редактировании звуков. ## Выводы Основное достижение — разработка

Annotation:

Editing complex real-world sound scenes is difficult because individual sound sources overlap in time. Generative models can fill-in missing or corrupted details based on their strong prior understanding of the data domain. We present a system for editing individual sound events within complex scenes able to delete, insert, and enhance individual sound events based on textual edit descriptions (e.g., ``enhance Door'') and a graphical representation of the event timing derived from an ``event rol...

ID: 2509.05256v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds

2025-09-06

Авторы:

Qizhou Wang, Hanxun Huang, Guansong Pang, Sarah Erfani, Christopher Leckie

## Контекст В последние годы широко распространяются системы генерации речи, которые могут создавать реалистичные голоса, часто неотличимые от речи человека. Это создает серьезные проблемы в подтверждении аутентичности воспроизводимого звука. Хотя существует много методов для обнаружения глубокоподдельной аудиоконтента, их эффективность в реальном мире остается нестабильной. Это связано с огромными различиями между данными, использованными в обучении, и реальными аудиоданными, а также с быстрым развитием технологий генерации речи. Текущие данные не достаточно охватывают диапазон реальных сценариев и современных глубокоподдельных моделей. Данный проект вводит **AUDETER** (AUdio DEepfake TEst Range), большую высокоскоростной базу данных для проверки методов обнаружения глубокоподдельной аудиоконтента в сложных реальных условиях. ## Метод **AUDETER** содержит более 4500 часов синтезированной аудио, сгенерированных машинными системами генерации речи и вокальными моделями. Она включает 3 миллиона аудиоклипов, генерируемых 11 моделями генерации речи и 10 моделями вокализации. Это позволяет создать большой диапазон различных звуков, включая синтетические и глубокоподдельные аудио. Данная база данных представляет собой новый шаг в области исследований в области глубокоподдельной аудиоконтента, так как она предоставляет большой диапазон сложных сценариев для обучения и проверки моделей. ## Результаты Расширенные эксперименты проводились с использованием **AUDETER**. Было показано, что текущие методы обнаружения глубокоподдельной аудиоконтента, обученные на существующих данных, сталкиваются с проблемами при обнаружении новых глубокоподдельных аудио и имеют высокую частоту ложноположительных результатов при работе с реальной речью. Однако модели, обученные на **AUDETER**, показали существенное улучшение в обнаружении глубокоподдельного аудио, снизив ошибку на 44,1%–51,6% и достигнув ошибки всего 4,17% при работе с разнообразными кросс-доменными данными из популярного In-the-Wild датасета. ## Значимость **AUDETER** представляет собой потенциально важное решение для развития обнаружения глубокоподдельной аудиоконтента в разных сферах. Это может быть применено в области безопасности, видеоредактирования, модуляции голоса и других приложениях, где важно выявлять истинную природу речи. Данная база данных дает более сильные инструменты для развития генеральных моделей обнаружения глубокоподдельной аудио, что может привести к более точному и надежному пониманию речи в различных отраслях. ## Выводы **AUDETER** является крупнейшей и самой разнообразно

Annotation:

Speech generation systems can produce remarkably realistic vocalisations that are often indistinguishable from human speech, posing significant authenticity challenges. Although numerous deepfake detection methods have been developed, their effectiveness in real-world environments remains unrealiable due to the domain shift between training and test samples arising from diverse human speech and fast evolving speech synthesis systems. This is not adequately addressed by current datasets, which la...

ID: 2509.04345v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation

2025-09-05

Авторы:

Ashwin Nagarajan, Hao-Wen Dong

#### Контекст Текстово-музыкальные модели, такие как MusicGen, успешно подхватывают широкие атрибуты музыки, такие как инструментация и настроение. Однако тонкое стилистическое управление, например, подражание определенному исполнителю или стилю, остается значительной проблемой. Некоторые методы позволяют эмулировать стиль через переучет модели или специальные условия, но это снижает простоту использования и соблюдение политик, например, запрета использования имен исполнителей в музыкальных произведениях. В данном исследовании рассматривается возможность использования легковесных, человекочитаемых модификаторов, сгенерированных большим языковым моделью, для стилистического управления. Исследованы два исполнителя — Billie Eilish (поп-музыка с вокалом) и Ludovico Einaudi (инструментальная пианино-музыка). #### Метод Модель MusicGen была использована для генерации музыки по наборам условий. Для каждого исполнителя выбраны 15 сэмплов, которые стали базой для трёх условий: (1) базовые запросы, (2) запросы с именем исполнителя, (3) запросы с легковесными модификаторами. Метрики оценки включили распределения VGGish и CLAP, а также минимальное расстояние присвоения. Эксперименты позволили изучить мощность этих модификаторов в стилистическом контроле и сравнить их с именами исполнителей. #### Результаты Имена исполнителей оказались самым эффективным стилистическим сигналом, превосходя name-free модификаторы. Однако модификаторы всё же демонстрировали сильное стилистическое воздействие, в том числе возможность переноса стиля между исполнителями. Например, модификаторы Billie Eilish могут создавать аналогичные эффекты в песнях, не связанных с ней темпом. Изученная разница в управляемости между именами и модификаторами определяется как "Name-Free Gap." Эта разница показывает, что запрет на использование имен в запросах не полностью предотвращает стилистическое подражание. #### Значимость Результаты имеют практическое значение для создания систем стилистического контроля в музыкальной генерации. Исследование показывает, что модели могут эмулировать стили без использования имен, что вызывает вопросы о эффективности текущих методов защиты от копирайтинга. Также модификаторы могут быть применены в различных сценариях, таких как создание музыки под определённые жанры или настроения. #### Выводы Исследование определяет "Name-Free Gap" и демонстрирует, что модификаторы могут быть эффективными стилистическими сигналами, даже при ограничениях на использование имены. Будущие исследования будут нацелены на уточнение моделей гене

Annotation:

Text-to-music models capture broad attributes such as instrumentation or mood, but fine-grained stylistic control remains an open challenge. Existing stylization methods typically require retraining or specialized conditioning, which complicates reproducibility and limits policy compliance when artist names are restricted. We study whether lightweight, human-readable modifiers sampled from a large language model can provide a policy-robust alternative for stylistic control. Using MusicGen-small,...

ID: 2509.00654v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 AImoclips: A Benchmark for Evaluating Emotion Conveyance in Text-to-Music Generation

2025-09-05

Авторы:

Gyehun Go, Satbyul Han, Ahyeon Choi, Eunjin Choi, Juhan Nam, Jeong Mi Park

## Контекст Текстово-музыкальная генерация (Text-to-Music, TTM) позволяет создавать музыку с использованием естественного языка. Однако способность TTM-систем выражать желаемые эмоции остается мало исследована по сравнению с человеческими предпочтениями или текстовой аллигацией. Это создает значительные проблемы для создания эмоционально привлекательных и контролируемых музыкальных композиций. Данная работа призвана заполнить это промежуток, определив методы для оценки эмоциональной точности музыкальных генераций, а также опираясь на новый бенчмарк AImoclips. ## Метод AImoclips основывается на 12 эмоциональных намерений, распределенных по четырем квадрантам валенса-ароуса. Шесть современных TTM-систем генерировали 1,000+ музыкальных фрагментов, оцениваемых 111 человек на 9-бальной ликерти-шкале. Эта методика позволяет измерить точность реализации эмоциональных целей в зависимости от валенса и ароуса, а также выявить узкие места в системах, такие как чрезмерное склонность к нейтральности. ## Результаты Результаты показали, что клипы, генерируемые коммерческими системами, часто считаются более приятными, чем запланированные эмоции, в то время как открытые системы генерируют музыку, которая чаще оказывается менее приятной. Эмоции лучше всего выражаются при высоком ароусе, но общая эмоциональная нейтральность остается существенной ограниченностью. Эти результаты демонстрируют значительные различия в способности моделей генерировать эмоционально применимую музыку. ## Значимость Такие находки имеют значительное значение для развития систем TTM, позволяя улучшить контроль эмоций в музыке. Бенчмарк AImoclips может использоваться для оценки моделей TTM при различных эмоциональных целях и для выявления ограничений, которые могут быть устранены в будущих исследованиях. ## Выводы AImoclips представляет собой первый бенчмарк для оценки эмоциональной точности в TTM. Он подкрепляет значительные сведения о том, как различные модели справляются с эмоциональной контролью в музыке. Будущие исследования должны сосредоточиться на улучшении контроля эмоций и снятии ограничений, таких как чрезмерная нейтральность в определенных условиях.

Annotation:

Recent advances in text-to-music (TTM) generation have enabled controllable and expressive music creation using natural language prompts. However, the emotional fidelity of TTM systems remains largely underexplored compared to human preference or text alignment. In this study, we introduce AImoclips, a benchmark for evaluating how well TTM systems convey intended emotions to human listeners, covering both open-source and commercial models. We selected 12 emotion intents spanning four quadrants o...

ID: 2509.00813v2 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Adaptive Vehicle Speed Classification via BMCNN with Reinforcement Learning-Enhanced Acoustic Processing

2025-09-05

Авторы:

Yuli Zhang, Pengfei Fan, Ruiyuan Jiang, Hankang Gu, Dongyao Jia, Xinheng Wang

## Контекст Движущиесясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясяя сокращения. Однако модели, основанные на глубоком обучении, часто требуют больших объемов вычислительных ресурсов, что ограничивает их применение в реальном времени. Нашим целью является разработка эффективного фреймворка, который способен обеспечить точность и быстроту обработки для реального времени применения в условиях разнообразных городских сред. ## Метод Мы предлагаем гибридную модель, которая объединяет глубокое обучение и усиленное обучение с подкреплением. Модель построена на основе двухразрядной BMCNN, которая обрабатывает две типовые компоненты акустических признаков: MFCC (Минимально Функциональные Характеристики Звука) и признаки волнового преобразования. Эти две компоненты обеспечивают разные частотные паттерны, которые вместе дают более полное представление о скорости транспортных средств. Для улучшения точности и скорости, мы внедрили в модель аннотационную сеть DQN (Дифференцируемая Квантовая Сеть), которая адаптивно выбирает минимальное количество аудио-фреймов для обработки и активирует раннюю оценку скорости, как только достигнут уровень достоверности. Это позволяет снизить время обработки без потери точности. ## Результаты Мы проверили нашу модель на двух выборках данных: IDMT-Traffic и SZUR-Acoustic (Suzhou). На IDMT-Traffic она достигла 95.99% точности, а на SZUR-Acoustic — 92.3%. Важно отметить, что на SZUR-Acoustic метод обеспечил скорость обработки до 1.63 раз выше, чем установленный значением усредненного показателя точности. Для сравнения, мы провели эксперименты с такими алгоритмами, как A3C, DDDQN, SA2C, PPO и TD3, и продемонстрировали, что наш метод обеспечивает более высокую точность при более эффективном использовании ресурсов. ## Значимость Наш алгоритм может быть применен в различных городских системах управления трафиком, таких как системы смарт-городов и адаптивных систем управления трафиком. Он предоставляет точную оценку скорости транспортных средств в реальном времени, каких требуются для эффективного управления городским трафиком. Благодаря своей высокой скорости и точности, мы открываем новые возможности для реального времени применения в тяжелой среде. ## Выводы Наши результаты показывают, что модель BMCNN с усиленным обучением с подкреплением обеспечивает высокую точность и эффективность решения задачи классификации скорости транспортных средств. Мы видим будущие направления исследований в развитии методов для обработки акустичес

Annotation:

Traffic congestion remains a pressing urban challenge, requiring intelligent transportation systems for real-time management. We present a hybrid framework that combines deep learning and reinforcement learning for acoustic vehicle speed classification. A dual-branch BMCNN processes MFCC and wavelet features to capture complementary frequency patterns. An attention-enhanced DQN adaptively selects the minimal number of audio frames and triggers early decisions once confidence thresholds are reach...

ID: 2509.00839v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems

2025-09-05

Авторы:

Yuriy Izotov, Andrei Velichko

#### Контекст Голосовое управление встраиваемых систем и Интернета вещей (IoT) широко используется для управления устройствами, такими как домашние электроприборы, смартфоны и даже автомобили. Однако реализация эффективного речевого распознавания команд на таких устройствах сталкивается с ограничениями в ресурсах, такими как низкая мощность вычислений, ограниченная память и ток. Традиционные модели глубокого обучения требуют больших ресурсов, что делает их неэффективными для использования в этих системах. Этот краткий обзор сосредотачивается на разработке энергоэффективных алгоритмов речевого распознавания, которые могут быть интегрированы в устройства с ограниченными ресурсами. #### Метод Методология разработки речевого распознавания основывается на сочетании трех основных компонентов: системы воспитанного упрощенного классификатора LogNNet, оптимизированного протокола извлечения признаков Mel-Frequency Cepstral Coefficients (MFCC) и алгоритма активности речи (Voice Activity Detection, VAD). Алгоритм VAD используется для определения моментов во вводе, когда происходит речь. Функции MFCC извлекаются из звуковых сигналов, чтобы описать характеристики голоса. Затем эти признаки передаются в LogNNet классификатор, который распознает речевые команды. LogNNet имеет небольшое число параметров, что делает его пригодным для использования в устройствах с ограниченными ресурсами. #### Результаты Для оценки системы были проведены эксперименты с использованием 4 команд из Speech Commands dataset, ресемплированных до 8 кГц. Было проанализировано четыре способа агрегирования MFCC, и был выбран метод адаптивного биннинга, который дает лучшую связь точности и компактности. LogNNet классификатор, с архитектурой 64:33:9:4, достиг 92.04% точности при оценке с независимым способом обучения. Имплементация на Arduino Nano 33 IoT (ARM Cortex-M0+, 48 МГц, 32 КБ RAM) показала, что система может работать в режиме реального времени, распознавая голосовые команды с 90% точностью. Это требует всего 18 КБ RAM, что составляет 55% от доступной памяти. #### Значимость Разработанная система может быть применена в различных областях, таких как домашние автоматизационные системы, беспроводные сенсорные сети и системы поддержки ручного управления. Она предлагает высокую эффективность в реальном времени и значительно меньший объем ресурсов, чем традиционные модели глубокого обучения. Эту модель можно использовать для управления устройствами, когда требуется минимальное потребление энергии и малое количество памяти. Это делает ее подходящей для применения в сетях IoT и в технологиях "умного" дома.

Annotation:

This paper presents a low-resource speech-command recognizer combining energy-based voice activity detection (VAD), an optimized Mel-Frequency Cepstral Coefficients (MFCC) pipeline, and the LogNNet reservoir-computing classifier. Using four commands from the Speech Commands da-taset downsampled to 8 kHz, we evaluate four MFCC aggregation schemes and find that adaptive binning (64-dimensional feature vector) offers the best accuracy-to-compactness trade-off. The LogNNet classifier with architectu...

ID: 2509.00862v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 TinyMusician: On-Device Music Generation with Knowledge Distillation and Mixed Precision Quantization

2025-09-05

Авторы:

Hainan Wang, Mehdi Hosseinzadeh, Reza Rawassizadeh

#### Контекст Музыкальная генерация стала одной из самых захватывающих областей искусственного интеллекта, в которой трансформер-базированные архитектуры достигли неоцениваемого прогресса. Однако их практическое применение сталкивается с рядом критических проблем: высоким потреблением вычислительных ресурсов и длительным временем вывода, вызванным большим числом параметров. Эти ограничения мешают развертыванию таких моделей на мобильных устройствах, таких как смартфоны или носимые устройства, которые имеют ограниченные вычислительные возможности. Более того, необходимость работы через облако приводит к проблемам с конфиденциальностью и доступностью. Наша цель — разработать модель, способную эффективно функционировать на устройствах с ограниченными ресурсами, сохранив высокое качество генерируемой музыки. #### Метод Мы предлагаем TinyMusician — легковесную модель музыкальной генерации, полученную путем дистилляции от MusicGen, новейшей модели в этой области. Мы применяем два ключевые инновационных подхода: (i) **стадионно-смешанная бидирекциональная и несимметричная к-дивергенция** для эффективного увеличения качества пониженной модели, и (ii) **адаптивная микропроцессорная кванторизация** для минимизации расходов памяти и вычислительных ресурсов. Эти техники позволяют TinyMusician сохранять высокую точность и качество звука, при этом используя меньше ресурсов и работая на устройствах без облачной поддержки. #### Результаты Мы проводим эксперименты с использованием различных музыкальных треков и показываем, что TinyMusician сохраняет 93% от качества генерации музыки MusicGen-Small, при этом уменьшая размер модели на 55%. Это позволяет эффективно развернуть модель на мобильных платформах, включая их встроенные системы звукового проигрывания. Также мы показываем, что наш адаптивный подход к кванторизации позволяет сократить расходы на вычисления, не ухудшая качество звука. #### Значимость TinyMusician демонстрирует первое значительное развитие в области мобильной музыкальной генерации. Она может быть интегрирована в приложения для смартфонов или носимых устройств, чтобы обеспечить генерацию музыки без облачного доступа и с низкими требованиями к ресурсам. Это открывает новые возможности для разработчиков приложений, которые хотят использовать музыкальные модели на платформах с ограниченным доступом к облаку. #### Выводы Мы представили TinyMusician — легковесную модель музыкальной генерации, которая успешно решает проблему слишком большого размера и высокого потребления вычислительных ресурсов трансформер-моделей. Модель способна генер

Annotation:

The success of the generative model has gained unprecedented attention in the music generation area. Transformer-based architectures have set new benchmarks for model performance. However, their practical adoption is hindered by some critical challenges: the demand for massive computational resources and inference time, due to their large number of parameters. These obstacles make them infeasible to deploy on edge devices, such as smartphones and wearables, with limited computational resources. ...

ID: 2509.00914v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 EZhouNet:A framework based on graph neural network and anchor interval for the respiratory sound event detection

2025-09-05

Авторы:

Yun Chu, Qiuhao Wang, Enze Zhou, Qian Liu, Gang Zheng

## Контекст Аускультация является одной из ключевых методик для ранней диагностики респираторных и пульмоновных заболеваний. Она опирается на навыки и опыт специалистов, но часто характеризуется субъективностью и разногласиями между экспертами. На сегодняшний день, глубинные обучаемые сети широко используются для автоматического классификации респираторных звуков, но исследования по детектированию респираторных событий (sound event detection) остаются редкими. Традиционные методы обычно оперируют прогнозами на уровне кадров (frame-level) и используют последующую обработку для получения событий. Это затрудняет точное выявление интервалов событий. Кроме того, многие алгоритмы работают только с аудио зафиксированной длительности, что ограничивает их применение к звуковым записям разной длительности. Наконец, недостаточно хорошо оценено влияние локализации звуков в респираторной системе на качество детектирования. Мы предлагаем EZhouNet — новую систему, основанную на графных нейронных сетях и интервалах якоря, которая улучшает точность и гибкость детектирования респираторных событий. ## Метод Мы предлагаем EZhouNet — рамоствой, основанной на графных нейронных сетях (Graph Neural Network, GNN) и интервалах якоря (anchor intervals). Наш алгоритм работает с аудио записий разной длительности и использует интервалы якоря для точной локализации временных событий. Мы представляем аудиозапись как граф, где узлы соответствуют фичерам, а ребра — связям между ними. С помощью графновых нейронов мы моделируем взаимодействия между фичами, что позволяет лучше учитывать зависимости в звуковых данных. Интервалы якоря позволяют точно определять временные границы событий. Этот подход значительно повышает точность детектирования и увеличивает гибкость системы, делая ее применимую к различным записям респираторных звуков. ## Результаты Мы проверили нашу систему на двух датасетах: SPRSound 2024 и HF Lung V1. На SPRSound 2024, наш алгоритм показал F1-score 0.85, что значительно превосходит существующие методы. На HF Lung V1, F1-score составил 0.88. Эксперименты показали, что интеграция информации о положении респираторных звуков значительно повышает точность классификации аномальных событий. Эти результаты демонстрируют эффективность EZhouNet в детектировании респираторных событий, даже при различных условиях записи. ## Значимость Предложенная система EZhouNet может применяться в различных областях медицины, включая автоматическую диагностику респираторных заболеваний. Она предлагает значительные преимущества п

Annotation:

Auscultation is a key method for early diagnosis of respiratory and pulmonary diseases, relying on skilled healthcare professionals. However, the process is often subjective, with variability between experts. As a result, numerous deep learning-based automatic classification methods have emerged, most of which focus on respiratory sound classification. In contrast, research on respiratory sound event detection remains limited. Existing sound event detection methods typically rely on frame-level ...

ID: 2509.01153v2 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 CabinSep: IR-Augmented Mask-Based MVDR for Real-Time In-Car Speech Separation with Distributed Heterogeneous Arrays

2025-09-05

Авторы:

Runduo Han, Yanxin Hu, Yihui Fu, Zihan Zhang, Yukai Jv, Li Chen, Lei Xie

## Контекст Одной из ключевых задач в области звукового взаимодействия с автомобилями является разделение сложно перекрывающихся речи нескольких говорящих. Это необходимо для повышения точности распознавания речи в моделях ASR, что в свою очередь повышает качество пользовательского опыта в автоматизированных системах диктовки и помощи водителям. Традиционные методы часто сталкиваются с трудностями в условиях реальных автомобильных сред, где звуковые источники плотно перекрываются, и имеют высокую сложность вычислительной части. Многоканальные задачи разделения речи, включая локализацию говорящих и отделение их речи, являются важными для решения этих проблем, но требуют эффективных алгоритмов с умеренными вычислительными затратами. ## Метод CabinSep представляет собой новую реализацию маски-ориентированного метода MVDR (Minimum Variance Distortionless Response) для разделения речи в реальном времени. Основным инновационным элементом является использование информации о каналах для извлечения пространственных признаков, которые улучшают оценку масок речи и шума. Это позволяет повысить точность разделения, даже если источники речи находятся в разных зонах пространства. Метод также использует МВДР в процессе инференса, что уменьшает дисторсию речи и делает разделенный звук более подходящим для ASR. Для повышения устойчивости и точности расположения говорящих, CabinSep вводит метод увеличения данных, который сочетает симулированные и реально записанные отзвуки (Impulse Responses, IRs). Это позволяет улучшить локализацию говорящих, особенно на границах зон. ## Результаты Для оценки эффективности CabinSep проводились эксперименты на реально записанных данных. Результаты показали, что метод достигает 17.5% относительной снижения ошибок распознавания речи по сравнению со стандартным DualSep моделью. Это достижение достигается при относительно низкой вычислительной сложности — 0.4 GMACs. Эксперименты также показали, что CabinSep обеспечивает более точное расположение говорящих в многоканальной среде, что значительно повышает качество распознавания в условиях сложных автомобильных сред. ## Значимость CabinSep может быть применен в автомобильных системах, где необходимо эффективно разделить речи нескольких говорящих в реальном времени. Его преимущества заключаются в низком компьютерном затрат, высокой точности разделения и улучшенной локализации говорящих. Это делает CabinSep подходящим для систем самого разного уровня сложности, от простой помощи водителю до сложных систем автоматического управления автомобилем. Дальнейшие исследования могут сосредоточиться на дальнейшем повышении эффективности и уменьшении компь

Annotation:

Separating overlapping speech from multiple speakers is crucial for effective human-vehicle interaction. This paper proposes CabinSep, a lightweight neural mask-based minimum variance distortionless response (MVDR) speech separation approach, to reduce speech recognition errors in back-end automatic speech recognition (ASR) models. Our contributions are threefold: First, we utilize channel information to extract spatial features, which improves the estimation of speech and noise masks. Second, w...

ID: 2509.01399v1 cs.SD, cs.AI, cs.HC, eess.AS

arXiv PDF

📄 From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation

2025-09-05

Авторы:

Andrea Poltronieri, Xavier Serra, Martín Rocamora

## Контекст Аудио Чорд Эстимация (Audio Chord Estimation, ACE) — это ключевая задача в области музыкального информационного исследования, которая занимает внимание более двух десятилетий. Она играет важную роль в музыкальной транскрипции и анализе. Несмотря на прогресс, существуют значительные проблемы, которые ограничивают эффективность существующих систем. Одной из основных проблем является субъективность аннотаторов: разные люди могут давать разные оценки классов нот и аккордов, что приводит к несогласованности в данных. Другая проблема — классовая неробастность (class imbalance), когда некоторые классы нот или аккордов значительно чаще других в обучающих наборах данных. Эти особенности сильно затрудняют обучение и оценку алгоритмов. Целью настоящего исследования является адресация этих проблем с помощью новых подходов, основанных на понятии хармонической сонансности (consonance). ## Метод Мы предлагаем метод, который использует знания о хармонической сонансности для улучшения оценки нот и аккордов. Наш подход разделяет задачу на несколько подзадач, каждая из которых соответствует отдельному аспекту звучания аккорда: оценка корня (root), оценка баса (bass) и оценка других нот в аккорде. Мы также внедрили новую метрику дистанции, основанную на звуковой сонансности, которая позволяет лучше охарактеризовать музыкально-значимую схожесть между разными аннотациями. Наш алгоритм основан на многозадачной архитектуре для совместного обучения этих подзадач. Мы также применяем технику легких меток (label smoothing), использующую понятие сонансности для гашения шума в метках. Это позволяет модели более точно определять музыкальные согласованности. ## Результаты Мы провели эксперименты на различных музыкальных датасетах, сравнивая нашу модель с текущими лидерами в области ACE. Результаты показали, что наш подход значительно улучшает оценку корня и баса, а также в целом повышает точность определения аккордов. Мы также проверили эффективность новой метрики дистанции на многочисленных аннотациях, показав, что она дает более точные результаты в сравнении с традиционными метриками. Наша модель также показала значительное улучшение в обработке классов с небольшим количеством примеров, что демонстрирует ее высокую работу в условиях классовой неробастности. ## Значимость Предложенный подход имеет широкие применения в музыкальной транскрипции, анализе и создании музыкальных инструментов. Он позволяет повысить точность определения аккордов в различных музыкальных жанрах и условиях. Преимущест

Annotation:

Audio Chord Estimation (ACE) holds a pivotal role in music information research, having garnered attention for over two decades due to its relevance for music transcription and analysis. Despite notable advancements, challenges persist in the task, particularly concerning unique characteristics of harmonic content, which have resulted in existing systems' performances reaching a glass ceiling. These challenges include annotator subjectivity, where varying interpretations among annotators lead to...

ID: 2509.01588v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

1
2
19
20
21
22
23
27
28

Показано 201 - 210 из 274 записей