📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jinghua Zhao, Hang Su, Lichun Fan, Zhenbo Luo, Hui Wang, Haoqin Sun, Yong Qin

## Контекст Аудио-задачи в сфере больших моделей языка и аудио (Large Audio-Language Models, LALMs) набирают огромную популярность в современных научных исследованиях. Одним из самых вызовов в этой области является **аудиовая кваestion анализ (AQA)**, которая требует не только тонкого понимания аудио, но и многоуровневого рассуждения. Несмотря на то, что существуют сложные методы по созданию новых датасетов с помощью технологий капшнинга или анализа реакций, многие из них не полностью используют высококачественные данные, которые уже доступны. Более того, многие методы не эффективно распределяют ресурсы между простыми и сложными примерами, что влияет на общую эффективность обучения. Мы предлагаем Omni-CLST, которая призвана решить эти проблемы, используя ошибки и мыслительные цепи для более эффективного обучения в AQA. ## Метод **Omni-CLST** — это ошибко-акцентированная модель **Curriculum Learning**, которая использует **guided Selective Chain-of-Thought (CoT)**. Основоположником этой модели является две главные стратегии: 1. **Error-aware Curriculum**: Этот подход организует данные по уровню сложности, начиная с простых примеров и постепенно переходя к сложным. Это позволяет модели работать более эффективно, избегая дискредитации на простых задачах. 2. **Guided Selective Chain-of-Thought**: Этот механизм фокусируется на сложных случаях, используя мыслительные цепи для тех вопросов, где это может привести к существенному улучшению производительности. Таким образом, Omni-CLST не только сокращает время обучения, но и улучшает обобщающие способности модели, обрабатывая сложные задачи аудио-задач. ## Результаты Мы провели эксперименты на двух высококачественных датасетах AQA: **MMAU-mini** и **MMAR**. - **MMAU-mini**: Модель Omni-CLST достигла **73.80%**, показав высокую точность и общую способность понимания. - **MMAR**: Omni-CLST показала рекордную точность **64.30%**, открыв новый статус топовой модели в задаче AQA. Эти результаты показывают, что Omni-CLST не только эффективно использует существующие высококачественные данные, но и эффективно работает в задачах, требующих многоуровневого рассуждения. ## Значимость Результаты Omni-CLST могут быть применены в различных областях, включая: - **Аудио-задачи**: Точный анализ звука и сложный рассужденный ответ. - **Многомерные модели**: Методы, использующие обучение по трудности и селективную цепь мышления. - **Искусственный интеллект**: Улучшение общей подготовки моделей к повышенной сложности в задачах. Основное преимущество Omni-CLST заключается в **кросс-доменной обучаемости** и **общей эффективности**, которая может повли
Annotation:
With the rapid progress of large audio-language models (LALMs), audio question answering (AQA) has emerged as a challenging task requiring both fine-grained audio understanding and complex reasoning. While current methods mainly rely on constructing new datasets via captioning or reasoning traces, existing high-quality AQA data remains underutilized. To address this, we propose Omni-CLST, an error-aware Curriculum Learning framework with guided Selective Chain-of-Thought. The framework efficient...
ID: 2509.12275v3 cs.SD, cs.AI, eess.AS
Авторы:

Deepti Kunte, Bram Cornelis, Claudio Colangeli, Karl Janssens, Brecht Van Baelen, Konstantinos Gryllias

## Контекст Аудиосигналы внутри электрических автомобилей играют ключевую роль в обеспечении качества продукции и комфорта пассажиров. Однако, обнаружение аномалий в этих звуках часто становится проблемой в условиях нехватки или полной отсутствия меток для неисправностей. Большинство существующих моделей обнаружения аномалий обучаются на звуковых данных, помеченных доброкачественными и неисправными примерами. На практике такие сценарии редко встречаются, что приводит к затруднению моделирования. Это ставит перед исследователями задачу разработки моделей, которые способны обнаруживать аномалии в аудиоданных, обучаясь только на звуках без аномалий. Такое подходение требует разработки новых методов для оценки и выбора моделей, так как простые метрики, такие как ошибка воспроизведения, могут оказаться недостаточно надежными. Таким образом, целью данной работы является разработка метода, информированного доменным знанием, для эффективного выбора моделей обнаружения аномалий в аудиоданных. ## Метод Разработанный метод основывается на инженерии прокси-аномалий, которые являются структурированными изменениями звуковых характеристик здоровых аудиоданных. Для этого аудиозаписи разделяются на фиксированные сегменты, а затем в эти сегменты применяются структурированные шумы, процессы искажения и другие манипуляции, чтобы эмулировать аномалии. Эти прокси-аномалии используются в качестве значков для оценки моделей, которые стремятся отличить их от здоровых звуков. Базовая модель обучается на здоровых данных, а затем проверяется на прокси-аномалиях. Эта процедура позволяет подбирать модели, которые оптимально распознают реальные аномалии, так как прокси-аномалии подобны им в своем структурном поведении. Такой подход позволяет улучшить выбор моделей и повысить надежность обнаружения аномалий в условиях ограниченных данных. ## Результаты Исследование проводилось на высококачественной коллекции данных, содержащей звуковые записи внутри электрических автомобилей в нормальных и аномальных условиях. Обучение проводилось на здоровых звуковых данных, а модели оценивались на прокси-аномалиях. Эксперименты проводились на 5 типах аномалий: Imbalance, Modulation, Whine, Wind и Pulse Width Modulation. Результаты показали, что модели, выбранные с помощью прокси-аномалий, показали значительно лучшие показатели по отношению к традиционным методам, таким как ошибка воспроизведения. Эти результаты подтвердили эффективность инженерии прокси-аномалий в подборе моделей, которые более точно отличают нормальные звуки от аномалий в условиях сильного недостатка меток. ## Значимость Разработа
Annotation:
The detection of anomalies in automotive cabin sounds is critical for ensuring vehicle quality and maintaining passenger comfort. In many real-world settings, this task is more appropriately framed as an unsupervised learning problem rather than the supervised case due to the scarcity or complete absence of labeled faulty data. In such an unsupervised setting, the model is trained exclusively on healthy samples and detects anomalies as deviations from normal behavior. However, in the absence of ...
ID: 2509.13390v1 cs.SD, cs.AI, cs.CV, cs.LG, eess.AS, I.2.1; I.2.6; I.2.10; I.5.1; I.5.2; J.2; J.7
Авторы:

Liting Gao, Yi Yuan, Yaru Chen, Yuelan Cheng, Zhenbo Li, Juan Wen, Shubin Zhang, Wenwu Wang

#### Контекст В последние годы развитие текстово-ориентированных моделей для генерации аудио стало одним из ведущих направлений в области глубокого обучения. Однако, текстово-ориентированная работа с уже существующим аудио — задача, которая только начинает приобретать популярность. Задача, которую мы рассматриваем, подразумевает изменение определенного содержимого в аудио-сигнале, поддерживая все остальное неизменным. Это включает в себя локализацию точек, которые должны быть изменены, и их верификацию по текстовой заявке. Проблема в том, что существующие методы, требующие тщательного тренировочного процесса или затратной оптимизации, часто сталкиваются с проблемами при решении сложных задач, а также с экономическими и практическими ограничениями. Наша цель — разработать модель, которая будет эффективно решать эти проблемы, предоставляя практичные и точные решения для текстово-ориентированного редактирования аудио. #### Метод Мы предлагаем RFM-Editing, новый энд-то-энд фрэймворк, основанный на методе ректифицированного потока (Rectified Flow Matching) для текстово-ориентированного редактирования аудио. Наша модель использует распределительную архитектуру, которая объединяет модель распределения гауссианой структуры и концепции фиксации потока. Данный подход позволяет адаптироваться к изменениям в аудио-сигнале, при этом сохраняя природность и точность изменений. Важной чертой нашего подхода является использование потоковой архитектуры, позволяющей обнаруживать и изменять точки в аудио-сигнале, которые требуют изменений, с учетом текстовой заявки. Мы также строим новую базу данных, содержащую мульти-ивент аудио, чтобы провести справедливые эксперименты в сложных условиях, где необходимо редактировать несколько событий одновременно. #### Результаты Мы проводим эксперименты с нашей моделью на новой базе данных, содержащей аудио с множеством параллельных событий. Мы сравниваем результаты с другими текущими методами, включая zero-shot и обученные модели. Наши эксперименты показывают, что RFM-Editing достигает высокой точности в локализации и изменении целевых компонент аудио-сигнала. Модель также показывает высокую точность в выполнении даже сложных задач, не требуя дополнительных подсказок в виде капшенов или масок. Мы также проверяем фидбэк пользователей и показываем, что наш подход предоставляет более естественные и гармоничные результаты, чем существующие методы. Это подтверждается графическими и статистическими метриками, такими как F1-меры и значимость доверия. #### Значимость Ра
Annotation:
Diffusion models have shown remarkable progress in text-to-audio generation. However, text-guided audio editing remains in its early stages. This task focuses on modifying the target content within an audio signal while preserving the rest, thus demanding precise localization and faithful editing according to the text prompt. Existing training-based and zero-shot methods that rely on full-caption or costly optimization often struggle with complex editing or lack practicality. In this work, we pr...
ID: 2509.14003v1 cs.SD, cs.AI
Авторы:

Jordi Grau-Haro, Ruben Ribes-Serrano, Javier Naranjo-Alcazar, Marta Garcia-Ballesteros, Pedro Zuccarello

## Контекст Конвективные нейронные сети (CNN) определили новый стандарт в задачах распознавания аудио, таких как audio tagging. Однако, развертывание этих моделей на ресурс-ограниченных устройствах, таких как Raspberry Pi, сопряжено с рядом проблем. Эти ограничения включают высокий энергопотребление, тепловыделение и ресурсозатратность моделей. Особенно это актуально в сферах, где необходима реальной времени обработка аудио, таких как системы автоматического распознавания звуков в окружающей среде или системы мониторинга и оповещения. Этот работу посвящено подробному изучению и сравнению различных моделей CNN для распознавания аудио на Raspberry Pi, с фокусом на совместимости, эффективности и стабильности работы. ## Метод Выбор моделей для опробования включает архитектуры из рамфамы Pretrained Audio Neural Networks (PANNs), такие как CNN9, CNN13, а также модели ConvNeXt и MobileNetV3. Кроме того, был проведен перевод всех моделей в формат Open Neural Network Exchange (ONNX) для обеспечения совместимости и эффективности развертывания на различных платформах. Для оценки производительности и стабильности моделей были проведены тесты в режиме непрерывной работы в течение 24 часов. Это позволило изучить поведение моделей в условиях реального развертывания, включая нагрузку, энергопотребление и тепловыделение. ## Результаты Результаты экспериментов показывают, что CNN9 и CNN13, ориентированные на высокую эффективность, показали лучшую производительность и устойчивость в течение длительного времени. Была зафиксирована возможность поддержания консистентной задержки распознавания при минимальном энергопотреблении и управлении тепловым режимом. Также было замечено, что модели с более глубокими архитектурами, такими как ConvNeXt, демонстрируют высокую точность, но имеют более высокий энергозатратный профиль. ## Значимость Результаты этих исследований имеют применение в сферах, где необходима мобильная аналитика аудио, таких как системы сенсорного мониторинга, автоматизация и аудио-защита. Использование эффективных моделей, таких как CNN9 и CNN13, позволяет осуществить портативное развертывание на ресурс-ограниченных устройствах без значительных стоимостных и технических ограничений. Благодаря этому могут быть решены проблемы, связанные с энергосбережением и тепловым управлением, что имеет решающее значение для широкого применения в среднем и малом бизнесе, а также в области домашнего автоматизации. ## Выводы Полученные результаты подтверждают возможность эффективного развертывания CNN-моделей для распознавания аудио на ресурс-ограниченных устройствах. Особое внимание следует удели
Annotation:
Convolutional Neural Networks (CNNs) have demonstrated exceptional performance in audio tagging tasks. However, deploying these models on resource-constrained devices like the Raspberry Pi poses challenges related to computational efficiency and thermal management. In this paper, a comprehensive evaluation of multiple convolutional neural network (CNN) architectures for audio tagging on the Raspberry Pi is conducted, encompassing all 1D and 2D models from the Pretrained Audio Neural Networks (PA...
ID: 2509.14049v1 cs.SD, cs.AI
Авторы:

Javeria Amir, Farwa Attaria, Mah Jabeen, Umara Noor, Zahid Rashid

#### Контекст Речевая клонирование и генерация голосов с точным синхронизацией уст на данный момент является важной областью исследований, во многом благодаря их применению в различных сферах, таких как графические интефейсы, робототехника и видеоконференции. Несмотря на эти успехи, существуют значительные проблемы: многие существующие методы требуют больших объемов данных и высокопроизводительных вычислительных средств, что ограничивает их применение в сетевых и низкоресурсных средах. Также, существующие системы часто не учитывают тонких эмоциональных оттенков в речи, что снижает качество творческого выражения. Мотивирует эту работу необходимость разработки методик, оптимизированных для этих трудностей. #### Метод Мы предлагаем модульную пайплайн-архитектуру, которая включает Tortoise — трансформер-основной текст-войте-спик (TTS) модель, использующую диффузионную модель для высококачественного нулевого-шота клонирования голоса. Для синхронизации губ Tortoise используется легковесная архитектура генерирующей противоположной сети (GAN), которая обеспечивает реальное время выполнение. Весь процесс гибко модифицируется для различных сценариев и может интегрироваться с мультимодальными системами для реализации тонких модернизаций голоса. #### Результаты Мы проводили эксперименты на стандартных данных TTS для сравнения с текущими методами. Выявлено, что наша модель показывает превосходство в точности клонирования голоса в шумных условиях и выполнении говорения в реальном времени. Кроме того, мы продемонстрировали качество синхронизации голоса и губ на независимых данных, показав, что наше решение обеспечивает достижение точности в реальном времени при минимальных вычислительных затратах. #### Значимость Предлагаемое решение может быть применено в ситуациях, требующих эффективности и низкого потребления ресурсов, таких как видеоконференции, образовательные платформы и системы разговорных роботов. Оно отличается модульностью, гибкостью и высоким качеством, что делает его подходящим для реализации в реальных системах. Это также открывает новые возможности для дальнейшего исследования в области текстово-гидрованых модуляций голоса. #### Выводы Мы представили новую модель, позволяющую эффективно решать проблемы клонирования голоса и синхронизации голоса и губ в шумных условиях. Наши результаты показывают высокую точность и быстродействие, что открыло новые перспективы для применения в реальном мире. Наша работа может способствовать улучшению существующих систем и проведению дальнейших исследовани
Annotation:
Recent developments in voice cloning and talking head generation demonstrate impressive capabilities in synthesizing natural speech and realistic lip synchronization. Current methods typically require and are trained on large scale datasets and computationally intensive processes using clean studio recorded inputs that is infeasible in noisy or low resource environments. In this paper, we introduce a new modular pipeline comprising Tortoise text to speech. It is a transformer based latent diffus...
ID: 2509.12831v1 cs.SD, cs.AI
Авторы:

Xin Fang, Guirui Zhong, Qing Wang, Fan Chu, Lei Wang, Mengui Qian, Mingqi Cai, Jiangzhao Wu, Jianqing Gao, Jun Du

## Контекст Аномальное звуковое обнаружение (Anomalous Sound Detection, ASD) широко применяется в различных сферах, включая мониторинг инфраструктурных объектов и систем автоматического контроля. Однако, обучение моделей ASD обычно ограничено доступом только к звуковым данным нормального режима, в то время как метки атрибутов машин (таких как скорость, нагрузка или конфигурация) часто отсутствуют. Это создает серьезную проблему, так как атрибуты звука являются ключевыми для точного обнаружения аномалий. Существующие методы для выработки атрибутированных представлений часто требуют ручного размечения данных, что является трудозавершающим и неэффективным. Этот подход опасен из-за возможности человеческого фактора в ошибочных метках. Наша мотивация заключается в создании метода, который мог бы привести к более эффективному и точному обнаружению аномалий, используя доступные данные. ## Метод Мы предлагаем метод, основанный на агломеративном группировочном кластеризации для атрибутирования представлений, полученных от предобученной модели с доменной адаптацией. Сверточная модель, обученная на данных с доменом адаптации, может эффективно отражать атрибуты машин, такие как рабочие колебания и скорость. На основе этого представления мы строим кластеры, которые соответствуют разным машинным атрибутам. Используя эти кластеры, мы назначаем псевдо-метки атрибутов для обучения модели классификации атрибутов. После этого мы добавляем модели дискретной адаптации, которая работает на основе супервизованного метода тонкой настройки. Этот подход позволяет модели сохранить представление атрибутов, полученное в рамках доменной адаптации, и улучшить точность классификации атрибутов. ## Результаты Мы проверили наш метод на данных Detection and Classification of Acoustic Scenes and Events (DCASE) 2025 Challenge. Наши результаты показали существенные показатели качества, превосходя текущую систему-лидер в задаче аномального звукового обнаружения. Мы сравнили свою модель с предыдущими решениями, включая те, которые использовали ручные метки атрибутов. Наши результаты показали значительные преимущества, особенно в ситуациях, когда доступ к меткам атрибутов ограничен или отсутствует. ## Значимость Наш подход может быть применен в различных областях, таких как промышленное мониторингное оборудование, автоматические системы охраны и мониторинг в реальном времени. Он предоставляет значительные преимущества в ситуациях, когда доступ к меткам атрибутов является ограниченным или дорогостоящим. Этот подход может существенно облегчить процесс обучения моделей ASD, снизив необходимость в ру
Annotation:
Anomalous Sound Detection (ASD) is often formulated as a machine attribute classification task, a strategy necessitated by the common scenario where only normal data is available for training. However, the exhaustive collection of machine attribute labels is laborious and impractical. To address the challenge of missing attribute labels, this paper proposes an agglomerative hierarchical clustering method for the assignment of pseudo-attribute labels using representations derived from a domain-ad...
ID: 2509.12845v1 cs.SD, cs.AI
Авторы:

Gwendal Le Vaillant, Yannick Molle

## Контекст Главная задача цифровой музыкальной продукции — эффективное поисковое восстановление конкретных звуков инструментов из аудио миксов. Несмотря на развитие технологий, этот процесс остается сложным. Общее применение методик, позволяющих напрямую искать инструменты в звуковых миксах, сталкивается с ограничениями, в том числе из-за недостаточного разнообразия данных или неэффективных методов оценки. Работа предлагает новую архитектуру для поиска инструментов, основанную на технологии противоположностей (contrastive learning), которая объединяет в себе возможность работы как с одноинструментными, так и с многоинструментными записями. Это решение может помочь улучшить эффективность и точность поиска в базах данных инструментов, включая синтезаторы и сэмплеры. ## Метод Предложенная модель основывается на архитектуре контрастирования (contrastive), которая использует специальные подходы для создания положительных и отрицательных пар аудио данных. Эти пары используются для обучения модели классификации, которая может отличать различные инструментные звуки. Для обучения используется датасет, содержащий 3 884 инструментов, в том числе виртуальные инструменты. Для решения проблем выбора положительных и отрицательных пар в аудио миксах, разработчики предлагают новые техники, которые позволяют генерировать реалистичные пары для синтезаторов и сэмплеров. Это позволяет модели достичь более высокой точности в отличии инструментов даже в ситуациях, когда их сочетают в одном миксе. ## Результаты Первое экспериментальное исследование проводилось на базе 3 884 инструментов, где использовался одиночный инструмент в качестве запроса. Метод противоположностей показал себя эффективным, сопоставимым с традиционными подходами на основе классификации. Второй эксперимент состоялся с миксами из трех инструментов, где прототип показал результаты с точностью 81.7% на первом месте и 95.7% для пяти лучших результатов. Эти результаты доказывают, что модель может эффективно работать в трудных условиях многоинструментных миксов. ## Значимость Предложенная модель может быть применена в музыкальных студиях для быстрого поиска инструментов в звуковых миксах, а также в синтезаторах и сэмплерных системах для улучшения поисковых возможностей. Она предлагает значительные преимущества по сравнению с традиционными методами, включая более высокую точность и эффективность в условиях многоинструментных записей. Это может привести к усовершенствованию процессов работы в музыкальной промышленности и увеличить эффективность производства цифровой
Annotation:
Efficiently retrieving specific instrument timbres from audio mixtures remains a challenge in digital music production. This paper introduces a contrastive learning framework for musical instrument retrieval, enabling direct querying of instrument databases using a single model for both single- and multi-instrument sounds. We propose techniques to generate realistic positive/negative pairs of sounds for virtual musical instruments, such as samplers and synthesizers, addressing limitations in com...
ID: 2509.13285v1 cs.SD, cs.AI
Авторы:

Yibo Zhang, Liang Lin

#### Контекст Легко распространяющиеся Легко распространяющиеся Легко распространяющиеся Легко распространяющиеся Легко распространяющиеся Легко распространяющиеся **Легко распространяющиеся Легко распространяющиеся Легко распространяющиеся Легко распространяющиеся Легко распространяющиеся Легко распространяющиеся Large Speech Models (LSMs)** обладают высоким значением в области обработки языка, но при этом их безопасность становится все более приоритетной проблемой. Атаки на эти модели могут привести к серьезным последствиям, включая нежелательную раскрытие информации и деформацию смысла. Несмотря на их важность, существуют вызовы в создании эффективных и скрытых атак, которые могут проникнуть через сложные акустические среды. Из-за этого, необходимо развитие более совершенных методов, которые могут безопасно и эффективно протестировать эти модели в разных условиях. #### Метод **Evolutionary Noise Jailbreak (ENJ)** — это метод, который использует **генетический алгоритм** для превращения среднестатистического шума в активно оптимизируемый атакующий вектор, направленный на локальное форсирование LSMs. Основные операции в генетическом процессе включают **инициализацию популяции**, **кроссовер**, и **пробабильную мутацию**. Это позволяет создавать звуковые семплы, которые звучат как гармоничный шум, но содержат в себе скрытую подмену, которая может вызвать трактовку моделем угрожающих команд. Таким образом, ENJ эффективно использует функции шума в своей сути, чтобы превратить его в активное, незаметное для слушателя, средство атаки. #### Результаты **ENJ** протестирован на важных моделях звука, таких как **Wav2Vec 2.0**, **HuBERT**, и **SLU-BERT**, и показал **значительные превосходства** по сравнению с другими методами во всех экспериментах. В частности, **ENJ** показал высокую **эффективность** в проникновении без отклонения видимости, что демонстрирует его мощь в обходе защит. **Эксперименты** были проведены в различных акустических условиях, чтобы продемонстрировать его **универсальность** в разных ситуациях. Эти результаты показывают, что **ENJ** предоставляет новые возможности для безопасного тестирования LSMs в трудных акустических средах. #### Значимость **ENJ** открывает новые горизонты для применения шума в целях повышения безопасности. Он не только обеспечивает **эффективную атаку**, но и **тактическое использование шума**, чтобы выявлять уязвимости в моделях. Это может быть применено во многих **окружениях сложного звука**, таких как в **малом объеме
Annotation:
The widespread application of Large Speech Models (LSMs) has made their security risks increasingly prominent. Traditional speech adversarial attack methods face challenges in balancing effectiveness and stealth. This paper proposes Evolutionary Noise Jailbreak (ENJ), which utilizes a genetic algorithm to transform environmental noise from a passive interference into an actively optimizable attack carrier for jailbreaking LSMs. Through operations such as population initialization, crossover fusi...
ID: 2509.11128v1 cs.SD, cs.AI
Авторы:

Peihong Zhang, Yuxuan Liu, Zhixin Li, Rui Sang, Yiqiang Cai, Yizhou Tan, Shengchen Li

```## Контекст Acoustic Scene Classification (ASC) — это задача распознавания сцен в аудиодорожке, например, распознавание местности, шума или других аудиосигналов. Она играет ключевую роль в области звукового мониторинга и анализа. Однако ASC сталкивается с трудностями при обнаружении и распознавании сцен в разных условиях, особенно когда набор данных для обучения ограничен, или когда используются разные устройства для записи аудио. Это проблема особенно актуальна в рамках DCASE 2024 Challenge Task 1, где необходимо обучить модель на малых объемах данных, записанных на одном устройстве, и затем генерализовать её на данных от других устройств. Такая задача требует от моделей не только классифицировать аудио, но и понимать различные характеристики звука, которые могут отличаться в зависимости от устройства и условий записи. Чтобы улучшить обучение моделей ASC, в этой работе предлагается использовать стратегию curriculum learning, которая позволяет моделям научиться сначала распознавать простые примеры, а затем переходить к сложным. Эта методика позволяет снизить зависимость от больших объемов данных и улучшить универсальность модели. ``` ```## Метод Метод, предложенный в данной работе, называется Entropy-Guided Curriculum Learning. Он основывается на понятии "всячина" (entropy), которая измеряет неопределенность в оценке устройства, откуда было записано аудио. Для каждого примера обучающей выборки вычисляется Shannon entropy — величина, которая показывает, насколько определено устройство, откуда была записана данная запись. Когда entropy высока, значит звук мог быть записан на разных устройствах, и модель должна научиться распознавать этот тип звука, независимо от устройства. Когда entropy низкая, значит звук, вероятно, был записан на одном устройстве, и модель должна научиться классифицировать этот конкретный тип. В этом подходе используется нейронный сетевый классификатор, который вычисляет entropy для каждого примера. Он обучается на отдельном наборе данных, а затем используется для структурирования обучения. В результате curriculum learning позволяет лучше распределить задачи для модели, сосредоточившись вначале на простых примерах, а затем — на сложных. ``` ```## Результаты Для проверки эффективности этого подхода, авторы проводили эксперименты на нескольких базисных моделях для ASC, предложенных в DCASE 2024 Challenge. Эксперименты показали, что при использовании Entropy-Guided Curriculum Learning модели становятся более устойчивы к изменениям в условиях записи и во время генерализации на данных от новых устройств. Например, когда обучаются модели на данных ограниченного размера, этот подход позволяет повысить точность распознавания в ситуациях, где обучающие примеры записаны на разных устройствах. Также показано, что этот метод эффективен как для улучшения обучения, так и
Annotation:
Acoustic Scene Classification (ASC) faces challenges in generalizing across recording devices, particularly when labeled data is limited. The DCASE 2024 Challenge Task 1 highlights this issue by requiring models to learn from small labeled subsets recorded on a few devices. These models need to then generalize to recordings from previously unseen devices under strict complexity constraints. While techniques such as data augmentation and the use of pre-trained models are well-established for impr...
ID: 2509.11168v1 cs.SD, cs.AI
Авторы:

Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman

#### Контекст Современные нейронные кодеки (neural codecs) играют ключевую роль в обработке звука, обеспечивая эффективный сжатий и декодирования звуковых сигналов. Однако большинство существующих кодеков сосредоточены на трансляции низкоуровневых акустических особенностей, пропуская важные семантические и контекстуальные признаки, которые являются важной частью человеческого языка. Этот аспект особенно важен для решения проблем, таких как транскрипция речи и генерация текста. Несмотря на попытки интегрировать семантические и контекстуальные представления в традиционные кодеки, эффективное сочетание этих представлений остается значительной технической проблемой. Мы предлагаем FuseCodec, который адресует эти проблемы, объединяя акустические, семантические и контекстуальные представления в единое целое с использованием глобальной ведомости и кросс-модального выравнивания. #### Метод FuseCodec основывается на трёх основных компонентах, которые позволяют эффективно объединять и управлять семантическими и контекстуальными представлениями. (i) **Latent Representation Fusion**: это техника позволяет интегрировать семантические и контекстуальные фичи непосредственно в пространство латентного представления кодека. Это способствует созданию более глубокого и единообразного представления речи. (ii) **Global Semantic-Contextual Supervision**: в данной технике используется глобальное пулинг знаков, которое позволяет сопоставлять контекстуальные и семантические представления, что улучшает временную консистентность и кросс-модальное выравнивание. (iii) **Temporally Aligned Contextual Supervision**: данный метод синхронизирует контекстуальные представления и звуковые токены в рамках локального окна, обеспечивая точное, лексические и фонетические соответствия. Эти компоненты вместе способствуют улучшению токенизации речи и его применимости в различных задачах. #### Результаты Мы провели эксперименты на звуковых данных LibriSpeech, сравнив FuseCodec с трёх современных кодеками: EnCodec, SpeechTokenizer и DAC. FuseCodec показал значительное превосходство в нескольких ключевых метриках, включая точность транскрипции, читабельность, интеллектуальность, и гармонию голоса. Эмпирические результаты демонстрируют, что FuseCodec эффективно использует семантические и контекстуальные признаки для улучшения общей точности и качества транскрипции. Дополнительно, мы представили FuseCodec-TTS, показав его применимость к нулевой-срабатыванию речи (zero-shot speech synthesis). Физические модели и код доступны на GitHub по адресу: [https://github.com/mubtasimahasan/FuseCodec](https://github.com/mubtasimahasan/FuseCodec). #### Значимость FuseCodec обеспечивает устойчивое объединение сем
Annotation:
Speech tokenization enables discrete representation and facilitates speech language modeling. However, existing neural codecs capture low-level acoustic features, overlooking the semantic and contextual cues inherent to human speech. While recent efforts introduced semantic representations from self-supervised speech models or incorporated contextual representations from pre-trained language models, challenges remain in aligning and unifying the semantic and contextual representations. We introd...
ID: 2509.11425v1 cs.SD, cs.AI, cs.CL, eess.AS
Показано 171 - 180 из 274 записей