📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Cross-Attention with Confidence Weighting for Multi-Channel Audio Alignment

2025-09-24

Авторы:

Ragib Amin Nihal, Benjamin Yen, Takeshi Ashizawa, Kazuhiro Nakadai

## Контекст **Multi-channel audio alignment** является важной задачей в области биоакустического мониторинга, пространственной аудиосистемы и акустической локализации. Однако существующие методы часто сталкиваются с проблемами, такими как **nonlinear clock drift** (нелинейное смещение часов) и невозможность оценивать **uncertainty** (неопределенность). Традиционные методы, такие как **cross-correlation** и **Dynamic Time Warping (DTW)**, предполагают простые шаблоны смещения и не предоставляют меры надежности. Несмотря на то, что **deep learning models** позволяют находить более точные решения, они в основном рассматривают задачу синхронизации как **binary classification task** (задачу бинарной классификации), не учитывая зависимости между каналами и неопределенность решений. Мы предлагаем **Cross-Attention with Confidence Weighting**, метод, который объединяет **cross-attention mechanisms** и **confidence-weighted scoring** для улучшения многоканальной синхронизации аудио. Это решение позволяет улучшить точность и надежность синхронизации в различных критически важных приложениях. ## Метод Мы расширили **BEATs encoders** (BEATs - Bidirectional Encoder Attention Transformer), добавив **cross-attention layers** для моделирования взаимосвязей между каналами. Эти слои позволяют учитывать характеристики и хронологические зависимости данных. Далее, мы разработали **confidence-weighted scoring function**, которая использует **full prediction distribution** (полное распределение предсказаний) вместо бинарного трешхолда. Эта функция позволяет оценивать **uncertainty** и принимать во внимание все возможные результаты. Наша реализация использует **probabilistic temporal alignment** (пробабилистическую временную синхронизацию), устраняя необходимость в чистом точном решении и предоставляя **confidence scores** (оценки надежности). Эта модель позволяет решать задачи синхронизации в рамках биоакустических приложений, но также может быть применена к другим задачам многоканальной аудиосинхронизации, где надежность и уверенность в результатах критически важны. ## Результаты Мы проверили нашу модель на различных датасетах, включая **ARU** и **zebra finch**. На **ARU dataset**, наш метод показал **0.14 Mean Squared Error (MSE)**, что составляет **77%** снижения по сравнению с базовым глубокому обучению (**deep learning baseline**), который показал **0.58 MSE**. На датасете **zebra finch** наш результат составил **0.45 MSE**, что составляет **18%** снижения по сравнению с базовым результатом. На **BioDCASE 2025 Task 1 challenge**, наша модель получила **0.30 MSE**, что является **наилучшим результатом** среди участников. Эти результаты демонстрируют высокую точность и надежность нашего подхода в синхронизации многоканального аудио. Мы также продемонстрировали, что наш метод позволяет улучшить **probabilistic temporal alignment**, что делает его применимым в ситуациях, где требуется уверенность в результатах. ## Значимость Наш метод может применяться в **bioacoustic

Annotation:

Multi-channel audio alignment is a key requirement in bioacoustic monitoring, spatial audio systems, and acoustic localization. However, existing methods often struggle to address nonlinear clock drift and lack mechanisms for quantifying uncertainty. Traditional methods like Cross-correlation and Dynamic Time Warping assume simple drift patterns and provide no reliability measures. Meanwhile, recent deep learning models typically treat alignment as a binary classification task, overlooking inter...

ID: 2509.16926v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement

2025-09-23

Авторы:

Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou

#### Контекст Современные системы обработки речи чрезвычайно важны для различных приложений, включая распознавание речи, перевод и улучшение речи. Однако существуют серьезные проблемы, связанные с низкой эффективностью и высокой затратой ресурсов при обработке речи в реальном времени. Одна из основных проблем заключается в том, что многие существующие методы требуют многократного вычисления для достижения качественного результата. Это приводит к высоким затратам на вычисления и неэффективности в реальном времени. Необходимо разработать более эффективные алгоритмы, которые обеспечивают высокое качество улучшения речи с меньшими затратами на вычисления. #### Метод Мы предлагаем **COSE (Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement)**, новый метод для одношаговой обработки речи. Метод основан на **алгоритме Флоу (Flow)**, но вместо традиционных методов, основанных на многошаговых вычислениях, мы предлагаем использовать **скоростные поля средней скорости**. Это позволяет эффективно преобразовывать исходные звуковые сигналы в целевые сигналы за один шаг. Также мы ввели **композиционную идентитеть скорости**, которая упрощает вычисления и уменьшает накладные расходы. Это позволяет методу работать быстрее и эффективнее, сохраняя теоретическую корректность и качество звука. #### Результаты Мы проверили COSE на стандартных бенчмарках для обработки речи. Эксперименты показали, что COSE достигает результатов, которые в 5 раз быстрее, чем существующие методы, при этом уменьшая затраты на обучение в 40%. Мы также проверили качество улучшения речи и показали, что COSE не отстает от конкурентов в этом плане. Наши результаты подтверждают, что COSE является эффективным и пра prактичным алгоритмом для одношаговой обработки речи. #### Значимость COSE может быть применен в различных сферах, включая распознавание речи, генерацию речи и улучшение речи в реальном времени. Он обеспечивает значительное улучшение производительности за счет уменьшения затрат на вычисления и ускорения обработки. Основное преимущество COSE заключается в том, что он позволяет достичь высокого качества речи с меньшими затратами на ресурсы. Это может быть ответственно за будущие развития в области интеллектуальных систем обработки речи. #### Выводы Мы представили COSE, новый одношаговый метод для обработки речи, который эффективно решает проблему высоких затрат на вычисления. Наши эксперименты показали, что COSE достигает высоких результатов качества с меньшими расходами на ресурсы. В дальнейшем мы планируем расширить применение COSE на другие сферы и улучшить его алгоритм, чтобы достичь еще более высокого качества и эффективности.

Annotation:

Diffusion and flow matching (FM) models have achieved remarkable progress in speech enhancement (SE), yet their dependence on multi-step generation is computationally expensive and vulnerable to discretization errors. Recent advances in one-step generative modeling, particularly MeanFlow, provide a promising alternative by reformulating dynamics through average velocity fields. In this work, we present COSE, a one-step FM framework tailored for SE. To address the high training overhead of Jacobi...

ID: 2509.15952v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement

2025-09-23

Авторы:

Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou

## Контекст Современные методы синтеза речи, такие как diffusion и flow matching (FM), достигли выдающихся результатов в области улучшения речи (speech enhancement, SE). Однако эти подходы обычно требуют многошагового генерирования, что не только требует высоких ресурсов вычислений, но и подвержено ошибкам дискретизации. В последнее время наблюдается рост интереса к одношаговым моделям генерирования, которые могут обеспечить более эффективное и точное генерирование с меньшими затратами. Одним из таких подходов является MeanFlow, который использует среднюю скорость в качестве динамического поля для генерирования. Тем не менее, существуют проблемы, связанные с вычислительной сложностью расчета Jacobian-vector product (JVP) в MeanFlow. В этой работе мы предлагаем COSE — новую одношаговую модель FM, оптимизированную для SE, которая решает эти проблемы и позволяет достичь высокой эффективности. ## Метод COSE основывается на идее автоматического сложения скоростей вдоль многомерных пространственных полей. В центре модели лежит концепция velocity composition identity, которая позволяет эффективно вычислять среднюю скорость без необходимости вычислять дорогостоящие Jacobian-vector product. Модель COSE реализует одношаговое генерирование речи, используя среднюю скорость в качестве главного динамического управляющего поля. Эта архитектура обеспечивает высокую эффективность вычислений, но при этом сохраняет теоретическую точность и качество звука. ## Результаты Мы провели исследования на различных стандартных бенчмарках для SE. COSE показала скорость генерирования до 5 раз выше по сравнению с традиционными многошаговыми FM-моделями. Это достигнуто без каких-либо потерь в качестве речи. Кроме того, уменьшение затрат на обучение достигло 40%, что делает COSE более экономичной в плане ресурсов. Эксперименты подтверждают, что COSE сохраняет высокое качество речи в то же время, что и традиционные методы, но с значительно более высокой эффективностью. ## Значимость Модель COSE может применяться в различных сферах, где требуется высококачественное улучшение речи, например, в голосовых помощниках, видеоконференциях, медицине и т. д. Особым преимуществом COSE является ее высокая эффективность и компактность, что делает ее подходом выгодным для реализации в реальных системах. Благодаря своей одношаговой природе, COSE также может быть интегрирована с другими моделями генерирования, что повышает потенциал для развития будущих технологий в области синтеза речи. ## Выводы Мы представили COSE — новую одношаговую модель FM, оптимизированную для SE, которая эффективно решает проблемы вычислительной сложности и затрат на обучение. Резу

Annotation:

ID: 2509.15952v2 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

2025-09-23

Авторы:

Luca Della Libera, Cem Subakan, Mirco Ravanelli

## Контекст Современные генерирующие аудиопротоколы широко используются в различных технологических областях, включая голосовое воспроизведение, умные динамики и синтез речи. Одним из ключевых элементов этих протоколов являются нейронные аудиокодеки, которые обеспечивают эффективную сжатие звуковых сигналов с минимальным ущербом качества. Несмотря на то, что некоторые аудиокодеки предлагают высокое качество воспроизведения и успешно применяются в статических сценариях, большинство из них не подходят для реального времени, так как не поддерживают потоковое кодирование. Это ограничение влечет за собой затруднения в использовании таких кодеков в потоковых голосовых сервисах, устройствах для синтеза речи и других приложениях, требующих чрезвычайно низкой задержки. ## Метод FocalCodec-Stream представляет собой новшество в области потокового аудиокодирования, основанное на фокальной модуляции. Этот кодек сжимает звуковые сигналы в один бинарный код, работая при битрейте от 0.55 до 0.80 кбит/с. Задержка, характерная для FocalCodec-Stream, ограничена 80 мс, что делает его применимым для реального времени. Основой методики является многоэтапное дистилляционное обучение с использованием WavLM. Для повышения качества реконструкции в рамках указанных ограничений позиционировано небольшое модульное рефинера, обеспечивающее баланс между качеством и задержкой. Таким образом, FocalCodec-Stream достигает соотношения между качеством, эффективностью и задержкой, которое отличает его от современных альтернатив. ## Результаты Исследования проводились на наборе данных звуков, включающих различные голоса и акустические условия. Результаты показали, что FocalCodec-Stream превосходит существующие потоковые кодеки в задачах реконструкции голоса и сохранения акцентов, даже при подвисании и небольшой задержке. Общий ряд экспериментов также подтвердил улучшение качества речевых признаков и уменьшение потерь в сигнале, сопоставимое с традиционными кодеками непотокового обеспечения. ## Значимость FocalCodec-Stream открывает новые возможности для развития реального времени в области голосового взаимодействия. Его можно применять в умных гаджетах, голосовых помощниках и видеоконференцсервисах, где низкая задержка критична. Преимуществоми является высокая эффективность в режиме потока, возможность применения в реальном времени, а также улучшение качества реконструкции. Этот подход может вести к развитию новых технологий в сфере звукового анализа, помочь в создании улучшенных методов управления голосовыми динамиками и в концепции "умных городов", где звуковые д

Annotation:

Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage caus...

ID: 2509.16195v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Explicit Context-Driven Neural Acoustic Modeling for High-Fidelity RIR Generation

2025-09-20

Авторы:

Chen Si, Qianyi Wu, Chaitanya Amballa, Romit Roy Choudhury

#### Контекст Реалистичное звуковое симулирование играет важную роль во многих приложениях, от виртуальной реальности до аудиоинженерии. Одной из ключевых компонент в этой области является room impulse response (RIR), которая описывает как звук распространяется от источника до слушателя в заданном пространстве. Несмотря на то, что некоторые нейросетевые подходы, основанные на неявных методах, используют контекстную информацию, такую как сценические изображения, они часто недостаточно эффективно используют геометрические характеристики среды. Это способствует недостатку точности в прогнозировании RIR. Наша мотивация заключается в разработке модели, которая более эффективно использует такие искомое пространство. #### Метод Мы предлагаем Mesh-infused Neural Acoustic Field (MiNAF), которая интегрирует нейросетевые неявные модели с явной геометрической информацией, полученной из локальных мешей среды. Каждая точка в среде активирует меш, который возвращает распределение расстояний до стен. Эта явная контекстная информация объединяется с неявными моделями, чтобы улучшить точность генерации RIR. Мы используем архитектуру сети, которая обучается на данных с несколькими зонами пространства, чтобы добиться высокой точности и универсальности. #### Результаты Мы провели эксперименты с разными наборами данных, включая сценические изображения и геометрические признаки. Выяснилось, что MiNAF превосходит современные методы в сравнительных экспериментах по метрикам качества, таким как Signal-to-Noise Ratio (SNR) и Mean Absolute Error (MAE). Наши результаты показывают, что явная геометрическая контекстная информация значительно улучшает точность в генерации RIR, особенно при ограниченных объемах обучающих данных. #### Значимость MiNAF может применяться в различных областях, таких как виртуальная реальность, симуляции аудио-сред, и звуковое моделирование в играх. Она предоставляет несколько преимуществ, включая улучшенную точность, эффективность и универсальность. Этот подход открывает новые возможности для создания более реалистичных звуковых симуляций в различных сценариях. #### Выводы Мы успешно показали, что MiNAF не только превосходит другие существующие методы, но и демонстрирует высокую универсальность и точность в различных условиях. В дальнейших исследованиях мы планируем расширить модель, включив более сложные сцены и звуковые признаки, для еще более реалистичного звукового моделирования.

Annotation:

Realistic sound simulation plays a critical role in many applications. A key element in sound simulation is the room impulse response (RIR), which characterizes how sound propagates from a source to a listener within a given space. Recent studies have applied neural implicit methods to learn RIR using context information collected from the environment, such as scene images. However, these approaches do not effectively leverage explicit geometric information from the environment. To further explo...

ID: 2509.15210v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio

2025-09-16

Авторы:

Marco Pasini, Stefan Lattner, George Fazekas

## Контекст Одним из ключевых аспектов развития генерируемых моделей аудио является эффективное представление аудиосигналов в компактном пространстве. Существующие подходы часто приходятся выбирать между использованием континуальных эмбеддингов и дискретных токенов, что ограничивает гибкость приложений. Более того, достижение высокого компрессионного отношения с сохранением качества аудио остается значимой проблемой. Это влечет за собой необходимость в разработке универсальных моделей, которые могут объединить эффективность кодирования и качество звука. ## Метод Мы предлагаем CoDiCodec — новую аудио-автоэнкодер модель, которая удачно объединяет континуальные и дискретные представления. Модель основывается на Finite Scalar Quantization (FSQ) и инновационной FSQ-dropout технике, позволяющей генерировать одновременно кустовые токены с скоростью 2.38 кбит/с и континуальные эмбеддинги с частотой ~11 Гц. Эти два представления достигаются без добавления дополнительных функций потерь, что упрощает тренировку. Модель поддерживает оба типа декодирования — ауторегрессионное и параллельное, что приводит к различным торговымoffs. Этот подход позволяет решать задачи сжатия с разными скоростями и подходами в зависимости от поставленных задач. ## Результаты Мы проверили работу CoDiCodec на различных аудиодорожках и сравнили её с современными автоэнкодерами для аудио. Модель показала выдающиеся результаты в аудио-фидлетируемости и эффективности сжатия. Например, при сжатии с битрейтом 2.38 кбит/с CoDiCodec демонстрирует улучшение качества в 1.25–1.5 с COMPRESS-32k и Bitswap, а при 7 кбит/с — в 1.5–2 раза. Это говорит о превосходстве модели в сочетании компрессии и звукового качества. Благодаря FSQ-dropout, CoDiCodec обеспечивает гибкость в выборе стратегии декодирования, а также эффективность в ауторегрессионном декодировании. ## Значимость CoDiCodec может быть применена в различных областях, включая создание генерируемых музыкальных треков, синтез речи и обработку звука в реальном времени. Её уникальная способность предоставить как континуальные, так и дискретные представления делает её идеальным вариантом для синтеза, генерации и редактирования аудио. Наш подход вносит значительный вклад в развитие технологий компрессии и генерируемых моделей, способствуя развитию глубокого обучения в области звуковых сигналов. ## Выводы CoDiCodec представляет собой новую модель, которая строго выходит за рамки существующих автоэнкодеров. Она предлагает эффективное представление аудио в компактном пространстве, объединяя в себе ф

Annotation:

Efficiently representing audio signals in a compressed latent space is critical for latent generative modelling. However, existing autoencoders often force a choice between continuous embeddings and discrete tokens. Furthermore, achieving high compression ratios while maintaining audio fidelity remains a challenge. We introduce CoDiCodec, a novel audio autoencoder that overcomes these limitations by both efficiently encoding global features via summary embeddings, and by producing both compresse...

ID: 2509.09836v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs

2025-09-12

Авторы:

Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan

## Контекст Профилирование звуковой логики и семантики в больших звуковых языковых моделях (LALMs) является ключевым заданием для их эффективного применения в различных сферах, включая аудио-анализ, генерирование речевых моделей и робототехнику. Несмотря на то, что эти модели продвигаются с технической стороны, оценка их качества и широкого применения ограничивается существующими решениями, которые недостаточно эффективны и не учитывают все аспекты аудио-логики. Это приводит к проблемам с ростом скорости, несогласованностью обработки и ограниченной областью применения. Наша мотивация заключается в разработке быстрого, универсального и стандартизированного инструмента, который может помочь улучшить систематическую оценку и применение звуковых моделей. ## Метод AU-Harness представляет собой открытый инструментальный набор для систематической оценки LALMs. Он включает: - **Оптимизированную обработку**: уменьшение затрат на вычисления с помощью батч-обработки и параллельной обработки, что приводит к ускорению процесса до 127%. - **Стандартизированные протоколы проблем**: устранение несогласованностей в обработке, чтобы обеспечить последовательность результатов и надежность экспериментов. - **Расширение области оценки**: включение новых типов задач, таких как **LLM-Adaptive Diarization** (для временной анализа) и **Spoken Language Reasoning** (для оценки когнитивных задач). - **Гибкость в настройке**: пользователи могут настроить процессы для различных задач и моделей, чтобы обеспечить честную сравнительную оценку. ## Результаты Мы провели эксперименты с 380+ задачами, используя AU-Harness для оценки нескольких звуковых моделей. Наши результаты показали: - **Скорость**: до 2,7 раз быстрее существующих систем. - **Стандартизация**: снижение разброса результатов связанного с несогласованностью в протоколах. - **Обнаружение лаконичных моделей**: выявление сильных и слабых сторон моделей в таких областях как временное понимание аудио и сложные задачи рассуждения. - **Найденные проблемы**: многочисленные модели слабо выступают в области временного анализа и задач рассуждения, что отражается в узких базовых результатах. ## Значимость AU-Harness открывает новые возможности для систематической оценки LALMs, которые могут применяться в следующих сферах: - **Разработка звуковых моделей**: помогает разработчикам определить слабые места в моделях и усовершенствовать их. - **Промышленность и робототехника**: предоставляет инструменты для проверки моделей в реальных задачах, таких как голосовое взаимодействие и анализ аудио. - **Образование и интеллектуальные системы**: позволяет измерить уровень понимания голосовых команд и сло

Annotation:

Large Audio Language Models (LALMs) are rapidly advancing, but evaluating them remains challenging due to inefficient toolkits that limit fair comparison and systematic assessment. Current frameworks suffer from three critical issues: slow processing that bottlenecks large-scale studies, inconsistent prompting that hurts reproducibility, and narrow task coverage that misses important audio reasoning capabilities. We introduce AU-Harness, an efficient and comprehensive evaluation framework for LA...

ID: 2509.08031v2 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Explainability of CNN Based Classification Models for Acoustic Signal

2025-09-12

Авторы:

Zubair Faruqui, Mackenzie S. McIntire, Rahul Dubey, Jay McEntee

## Контекст Акустические сигналы животных являются важной источником информации для изучения поведения, экологии и эволюции различных видов. Однако анализ этих сигналов часто сталкивается с проблемами, связанными с их комплексностью и большим объемом данных. В статье рассматривается применение глубоких нейросетей для классификации звуковых сигналов птиц, которые имеют сильную географическую разнообразие в т Tехнологии звукозаписи и анализа позволяют собирать большие объемы данных, но их интерпретация часто требует больших усилий и специализированных знаний. Развитие Искусственного Интеллекта (ИИ) и, в частности, Эксплаинэйбел ИИ (XAI), предлагает новые возможности для понимания и интерпретации результатов акустического анализа. Однако, применение XAI в биоакустике, в частности, в анализе звуков птиц, до сих пор остается недостаточно исследовано. Целью данной статьи является изучение возможностей применения XAI для понимания моделей классификации звуков, а также выявление шаблонов и причин, по которым модель принимает определенные решения. ## Метод Для проведения исследования были использованы звуковые записи птиц из разных районов жизнедеятельности в Северной Америке. Звуковые сигналы были преобразованы в изображения в формате спектрограмм, которые являются входным форматом для нейронной сети. Модель классификации основывалась на архитектуре глубоких совокупных нейронных сетей (CNN), которая была обучена классифицировать звуки на основе их спектрограмм. Для того, чтобы понять, что именно учитывает модель при принятии решения, применены методы Эксплаинэйбл ИИ. Эти методы могут быть разделены на две категории: модельно-зависимые (DeepLIFT, Grad-CAM) и модельно-независимые (LIME, SHAP). Методы LIME и SHAP работают путем создания интерпретируемых представлений входных данных, показывая, какие части сигнала влияют на решение модели. В то же время, DeepLIFT и Grad-CAM относятся к модельно-зависимым методам, которые используют внутреннюю структуру нейросети для показания, как каждая часть входного сигнала влияет на выходную классификацию. ## Результаты Использование CNN для классификации звуков птиц дало высокую точность (94.8%) в распознавании различных типов звуков. Для интерпретации решений модели были применены XAI-техники. Легенды LIME и SHAP показали, какие части спектрограммы имеют сильнейшее влияние на классификацию. Например, LIME показал, что звуки с высокой частотой и сильным амплитудовым диапазоном имеют большую важность для распознавания

Annotation:

Explainable Artificial Intelligence (XAI) has emerged as a critical tool for interpreting the predictions of complex deep learning models. While XAI has been increasingly applied in various domains within acoustics, its use in bioacoustics, which involves analyzing audio signals from living organisms, remains relatively underexplored. In this paper, we investigate the vocalizations of a bird species with strong geographic variation throughout its range in North America. Audio recordings were con...

ID: 2509.08717v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 LALM-Eval: An Open-Source Toolkit for Holistic Evaluation of Large Audio Language Models

2025-09-11

Авторы:

Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan

## Контекст Огромные Аудио-Языковые Модели (LALMs) постоянно развиваются, что влечет за собой возрастающий интерес к их эффективному использованию в различных приложениях. Однако эффективная оценка таких моделей остается вызовом. На сегодняшний день существуют недостатки в инструментах, позволяющих провести систематическую оценку. В частности, существуют фреймворки, которые либо медленны в обработке, либо не поддерживают согласованные методы представления задач, что снижает возможность воспроизводимости исследований. Кроме того, многие существующие инструменты не покрывают все типы задач, необходимых для полной оценки LALMs. Данная статья посвящена разработке LALM-Eval, комплексного и эффективного системного фреймворка для оценки LALMs, который предназначен для решения этих проблем. ## Метод LALM-Eval представляет собой новую систему для эффективного и широкого опробования LALMs. Она включает в себя оптимизированные алгоритмы для быстрого обработки больших объемов данных с использованием параллельных вычислений. Благодаря этому, модели могут быть протестированы на большом количестве задач одновременно. Кроме того, в фреймворк включены стандартизированные протоколы для методов представления задач, что позволяет уменьшить влияние человеческого фактора при сравнении моделей. Также включены две новые категории оценки: LLM-Adaptive Diarization для временной обработки аудио-данных и Spoken Language Reasoning для решения сложных задач рассуждения на основе голосовых данных. ## Результаты Проведенные эксперименты показали, что LALM-Eval значительно быстрее существующих инструментов, обеспечивая скорость обработки до 127% выше. Это позволяет проводить большую масштабность оценки, которая ранее была недоступна. Благодаря стандартизированным протоколам, результаты становятся более воспроизводимыми и сравнимыми. Было проанализировано более 380 различных задач, включая различные сценарии распознавания речи, аудио-диаризации и комплексных задач рассуждения. Обнаружены существующие проблемы в нынешних LALMs, в частности, в слабой обработке временных задач и сложных голосовых ситуаций, таких как рассуждения. Также были выявлены проблемы стандартизации в модах инструктирования, которые могут приводить к существенным диспарностям в результатах. ## Значимость LALM-Eval представляет собой практический инструмент для разработчиков и исследователей LALMs. Он позволяет проводить более точные и высокомасштабные оценки, которые являются ключевыми для выявления ограничений моделей. Эта система также демонстрирует потребность в стандартизации в мо

Annotation:

Large Audio Language Models (LALMs) are rapidly advancing, but evaluating them remains challenging due to inefficient toolkits that limit fair comparison and systematic assessment. Current frameworks suffer from three critical issues: slow processing that bottlenecks large-scale studies, inconsistent prompting that hurts reproducibility, and narrow task coverage that misses important audio reasoning capabilities. We introduce LALM-Eval, an efficient and comprehensive evaluation framework for LAL...

ID: 2509.08031v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Recomposer: Event-roll-guided generative audio editing

2025-09-09

Авторы:

Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal

## Контекст Основной контекст исследования заключается в развитии методов редактирования звуковых сцен, в которых звуковые источники перекрываются во времени. Данная проблема обнаруживается при редактировании реальных звуковых сцен, где необходимо управлять отдельными звуковыми источниками, такими как музыка, речь, или фоновые шумы. Существующие подходы позволяют преобразовывать звуковые сцены, однако ограничены в способности управлять отдельными звуковыми событиями с учетом текстовых описаний или графических моделей. Мотивация заключается в создании системы, позволяющей редактировать отдельные звуковые события с помощью текстовых и графических редактирования, улучшая точность и удобство. ## Метод Методология основывается на использовании трансформера с архитектурой encoder-decoder, который обучен на синтетических парах (звуковой пример, ожидаемый результат редактирования). Архитектура построена на SoundStream-представлении звука, обеспечивающем высокую точность в хранении деталей звука. Графическая модель "event roll" используется для описания временных характеристик звуковых событий. Система обучена на парах (звуковой пример + текстовое описание), например, "усилить Door", где "Door" — класс звука, "усилить" — действие, а "event roll" — информация о времени. Обучение проводилось на синтетических данных, сформированных путем внедрения отдельных звуковых событий в сложные фоновые звуки. ## Результаты Оценка системы производилась с помощью метрик, оценивающих качество редактирования, таких как однородность звука и точность изменений. Отдельным экспериментов было проверено влияние каждой части текстового описания: класса звука, времени и действия. Например, точность усиления звука "Door" зависела от точности распознавания класса и времени события. Результаты показали, что система эффективно управляет отдельными звуковыми событиями, даже в сложных реальных сценах. ## Значимость Предложенная система представляет собой важное решение в области аудио-редактирования, особенно при работе с реальными звуковыми сценами. Она позволяет управлять отдельными звуковыми событиями на основе текстовых и графических данных. Это делает процесс редактирования более точным и удобным. Потенциальные применения включают профессиональное редактирование звуков, создание звуковых эффектов в мультимедиа и синтез звука для виртуальных и реальных сред. Из найденных преимуществ выделяется точность и гибкость системы в редактировании звуков. ## Выводы Основное достижение — разработка

Annotation:

Editing complex real-world sound scenes is difficult because individual sound sources overlap in time. Generative models can fill-in missing or corrupted details based on their strong prior understanding of the data domain. We present a system for editing individual sound events within complex scenes able to delete, insert, and enhance individual sound events based on textual edit descriptions (e.g., ``enhance Door'') and a graphical representation of the event timing derived from an ``event rol...

ID: 2509.05256v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

Показано 21 - 30 из 47 записей