📚 Саммари научных статей из arXiv

Найдено 274 результатов по запросу 'cs.SD, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SoilSound: Smartphone-based Soil Moisture Estimation

2025-09-16

Авторы:

Yixuan Gao, Tanvir Ahmed, Shuang He, Zhongqi Cheng, Rajalakshmi Nandakumar

## Контекст Определение уровня влажности земли является критическим для сельского хозяйства и управления ландшафтом, так как определяет востребованность полива, возможность оптимизации потребления воды и оценку здоровья растений. Существующие методы, такие как использование инвазивных температурных или индуктивных сенсоров, требуют вмешательства в землю и часто являются дорогостоящими. Эти ограничения делают технологии доступными лишь для специалистов, исключая остальную часть общества, включая гражданских участников и любителей садоводства. Мы предлагаем SoilSound — систему беспроводной акустической сенсорики, позволяющую точно определять уровень влажности земли без каких-либо вмешательств в почву. Эта инновация открывает широкие возможности для широкого круга пользователей, включая жителей городов, домашних садоводов и гуманитарных исследователей. ## Метод SoilSound использует встроенные микрофон и динамик смартфона для проведения акустического сканирования почвы. Алгоритм работает по принципу вертикального сканирования: сигналы (акустические чирпы) отправляются в землю, а затем интерпретируются аудиосигналами, которые возвращаются. Основной новаторский момент заключается в использовании эффекта различной зернистости поверхности земли, что позволяет определять уровень влажности без необходимости калибровки или каких-либо вмешательств в землю. Модель акустического рассеяния была разработана специально для этой задачи, и низкоуровневый алгоритм обработки сигналов преобразует возвращающиеся сигналы в точные данные об уровне влажности. Данная система не требует специальных оборудований или дорогостоящих ресурсов, и она работает на стандартном смартфоне. ## Результаты Исследования проводились с использованием сборки смартфонов в лабораторных условиях и затем проверялись в реальных условиях на полях. Для того чтобы проверить точность системы, мы выполнили сравнение с традиционными методами измерения уровня влажности. Обучение системы происходит на 10 разных типах почвы в лаборатории, а затем проверялось на полях с разными уровнями влажности, типов почвы и окружающим сезонным климатом. Тестирование показало, что SoilSound достигает малого среднего абсолютного отклонения (MAE) в размере 2.39%, что демонстрирует высокую точность системы. Эксперименты также показали, что обученная модель может определять диапазон влажности от 15.9% до 34.0% на разных типах почвы и в разных условиях. ## Значимость SoilSound открывает новый подход к мониторингу уровня влажности земли, осо

Annotation:

Soil moisture monitoring is essential for agriculture and environmental management, yet existing methods require either invasive probes disturbing the soil or specialized equipment, limiting access to the public. We present SoilSound, an ubiquitous accessible smartphone-based acoustic sensing system that can measure soil moisture without disturbing the soil. We leverage the built-in speaker and microphone to perform a vertical scan mechanism to accurately measure moisture without any calibration...

ID: 2509.09823v1 cs.SD, cs.AI, cs.ET, cs.HC, eess.SP

arXiv PDF

📄 CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio

2025-09-16

Авторы:

Marco Pasini, Stefan Lattner, George Fazekas

## Контекст Одним из ключевых аспектов развития генерируемых моделей аудио является эффективное представление аудиосигналов в компактном пространстве. Существующие подходы часто приходятся выбирать между использованием континуальных эмбеддингов и дискретных токенов, что ограничивает гибкость приложений. Более того, достижение высокого компрессионного отношения с сохранением качества аудио остается значимой проблемой. Это влечет за собой необходимость в разработке универсальных моделей, которые могут объединить эффективность кодирования и качество звука. ## Метод Мы предлагаем CoDiCodec — новую аудио-автоэнкодер модель, которая удачно объединяет континуальные и дискретные представления. Модель основывается на Finite Scalar Quantization (FSQ) и инновационной FSQ-dropout технике, позволяющей генерировать одновременно кустовые токены с скоростью 2.38 кбит/с и континуальные эмбеддинги с частотой ~11 Гц. Эти два представления достигаются без добавления дополнительных функций потерь, что упрощает тренировку. Модель поддерживает оба типа декодирования — ауторегрессионное и параллельное, что приводит к различным торговымoffs. Этот подход позволяет решать задачи сжатия с разными скоростями и подходами в зависимости от поставленных задач. ## Результаты Мы проверили работу CoDiCodec на различных аудиодорожках и сравнили её с современными автоэнкодерами для аудио. Модель показала выдающиеся результаты в аудио-фидлетируемости и эффективности сжатия. Например, при сжатии с битрейтом 2.38 кбит/с CoDiCodec демонстрирует улучшение качества в 1.25–1.5 с COMPRESS-32k и Bitswap, а при 7 кбит/с — в 1.5–2 раза. Это говорит о превосходстве модели в сочетании компрессии и звукового качества. Благодаря FSQ-dropout, CoDiCodec обеспечивает гибкость в выборе стратегии декодирования, а также эффективность в ауторегрессионном декодировании. ## Значимость CoDiCodec может быть применена в различных областях, включая создание генерируемых музыкальных треков, синтез речи и обработку звука в реальном времени. Её уникальная способность предоставить как континуальные, так и дискретные представления делает её идеальным вариантом для синтеза, генерации и редактирования аудио. Наш подход вносит значительный вклад в развитие технологий компрессии и генерируемых моделей, способствуя развитию глубокого обучения в области звуковых сигналов. ## Выводы CoDiCodec представляет собой новую модель, которая строго выходит за рамки существующих автоэнкодеров. Она предлагает эффективное представление аудио в компактном пространстве, объединяя в себе ф

Annotation:

Efficiently representing audio signals in a compressed latent space is critical for latent generative modelling. However, existing autoencoders often force a choice between continuous embeddings and discrete tokens. Furthermore, achieving high compression ratios while maintaining audio fidelity remains a challenge. We introduce CoDiCodec, a novel audio autoencoder that overcomes these limitations by both efficiently encoding global features via summary embeddings, and by producing both compresse...

ID: 2509.09836v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Improving Audio Event Recognition with Consistency Regularization

2025-09-16

Авторы:

Shanmuka Sadhu, Weiran Wang

## Контекст Аудио-события — это уникальные звуковые сигналы, которые могут носить различные смысловые нагрузки, важные для многих приложений, таких как детекция кризисных ситуаций, распознавание речи и анализ среды. Однако их подробное распознавание остается сложной задачей, особенно при недостатке данных. Основная проблема заключается в том, что традиционные аудио-классификаторы чувствительны к данным и их структуре, что приводит к понижению точности распознавания в условиях недостатка данных. Настоящая работа посвящена исследованию новых подходов к улучшению распознавания аудио-событий, в частности к применению **consistency regularization (CR)**, которая доказала свою эффективность в аудио-данных. ## Метод Предлагаемый подход основывается на идее **consistency regularization**, которая подразумевает то, что модель должна давать схожие предсказания для различных аugmented версий инпут-данных. Мы используем этот подход в сочетании с аудио-данными, чтобы улучшить распознавание. Более того, мы расширяем эту идею на ситуацию, когда имеется дополнительный набор большого количества необученных данных. Для реализации мы использовали модель **EfficientNet-B0** с подготовленными обучающими данными. Для эффективной регуляризации, мы применяем различные аугментации звуковых сигналов, такие как **time masking**, **frequency masking**, и **pitch shifting**, чтобы создавать различные версии исходных данных. ## Результаты Мы проверили наш вариант решения на **AudioSet**, одной из крупнейших баз данных аудио-событий. Мы провели апливационные исследования, которые показали, что CR улучшает распознавание аудио-событий в случае с малыми наборами данных (около 20k сэмплов). Мы также проверили метод на больших данных (1.8M сэмплов) и показали, что он позволяет достичь значительной повышения точности. Кроме того, мы рассмотрели случай **semi-supervised learning**, где мы использовали 20k лабеленджных сэмплов и 1.8M необученных сэмплов, что позволило достичь точности выше, чем при обучении только на лабеленджных данных. ## Значимость Предложенный подход может быть применен в различных задачах, связанных с распознаванием аудио-событий, в том числе в ситуациях, когда данных для обучения мало. Он также может быть полезен в задачах **semi-supervised learning**, когда доступно большое количество необученных данных. Метод демонстрирует свою эффективность в условиях недостатка данных, что повышает его значимость в сложных и реальных условиях. ## Выводы Мы показали, что **consistency regularization** способствует улучшению распознавания аудио-событий, особенно в условиях недостатка данных. Метод может быть расширен на различные задачи распознавания аудио-событий и применен в случаях, когда доступ

Annotation:

Consistency regularization (CR), which enforces agreement between model predictions on augmented views, has found recent benefits in automatic speech recognition [1]. In this paper, we propose the use of consistency regularization for audio event recognition, and demonstrate its effectiveness on AudioSet. With extensive ablation studies for both small ($\sim$20k) and large ($\sim$1.8M) supervised training sets, we show that CR brings consistent improvement over supervised baselines which already...

ID: 2509.10391v1 cs.SD, cs.AI

arXiv PDF

📄 Bona fide Cross Testing Reveals Weak Spot in Audio Deepfake Detection Systems

2025-09-13

Авторы:

Chin Yuen Kwok, Jia Qi Yip, Zhen Qiu, Chi Hung Chi, Kwok Yan Lam

## Контекст Современное развитие технологий глубокого обучения позволило создавать аудио-глубокие подделки (audio deepfakes, ADD), которые могут синтезировать речь, приближающуюся к речи человека. Эти технологии могут применяться в полезных целях, таких как аудио-синтезаторы или лингвистические исследования, но также имеют потенциал для злоупотребления, в том числе в области мошенничества и угроз безопасности. Однако существуют серьезные проблемы в оценке качества систем обнаружения таких подделок. Оценка ADD-систем часто основывается на относительном количестве ошибок (EER), который может быть влиянтен в зависимости от размера и разнообразия данных. Более того, большинство данных, используемых для тестирования, являются ограниченными в своем разнообразии, в том числе в пространстве речи бона фиде (bona fide speech). Это ограничивает общую надежность и применимость этих систем в реальной жизни. ## Метод Чтобы улучшить надежность и равенство оценки ADD-систем, мы предлагаем новую методологию, называемую **bona fide cross-testing**. Она включает в себя проверку систем на четырнадцати часах данных, содержащих различные виды речи бона фиде (например, речь в разных стилях и условиях). Мы проводим тщательный анализ поведения систем при разных условиях и измеряем различные метрики, включая EER. Эта методика позволяет учесть различия в качестве данных и дает более сбалансированный взгляд на производительность систем. Кроме того, мы создали новую базу данных, доступную для использования в будущих исследованиях. ## Результаты Мы проверили нашу методологию на более чем 150 моделей ADD, оценив их поведение на различных типах речи бона фиде. Наши результаты показали, что применение bona fide cross-testing дает более равномерную и надежную оценку, чем традиционные методы. В частности, она уменьшает влияние большого количества данных от определенных типов речи на оценку общей производительности. Эта процедура также повышает чувствительность к проблемам, связанным с разными условиями речи, что делает ADD-системы более надежными для реальных задач. ## Значимость Наше исследование имеет значительное значение для развития добросовестных систем обнаружения глубоких подделок аудио. Оно может быть применено в области безопасности информации, мониторинга носителя речи и других полей, где важно различать реальную речь от глубоких подделок. Мы также выделили, что наш подход может повысить равенство и разнообразие в оценке систем, что вносит вклад в улучшение общей надежности и достоверности подобных технологий. ## Выводы В результате наших исследований была предложена новая архитектура оценки ADD

Annotation:

Audio deepfake detection (ADD) models are commonly evaluated using datasets that combine multiple synthesizers, with performance reported as a single Equal Error Rate (EER). However, this approach disproportionately weights synthesizers with more samples, underrepresenting others and reducing the overall reliability of EER. Additionally, most ADD datasets lack diversity in bona fide speech, often featuring a single environment and speech style (e.g., clean read speech), limiting their ability to...

ID: 2509.09204v1 cs.SD, cs.AI, cs.CL

arXiv PDF

📄 Adaptive Knowledge Distillation using a Device-Aware Teacher for Low-Complexity Acoustic Scene Classification

2025-09-13

Авторы:

Seung Gyu Jeong, Seong Eun Kim

#### Контекст Акцент в данном исследовании ложится на решение двух значимых проблем в области классификации акустических сцен: ограниченную сложность моделей и их устойчивость к различным устройствам. На практике требуется создание моделей, которые будут эффективными с точки зрения вычислительных затрат и достаточно гибкими для работы в разных условиях. Особенно актуальным становится задание, когда модель должна обеспечить высокую точность работы как на знакомых, так и на незнакомых устройствах. Задача становится еще более сложной, если добавить ограничение на сложность модели. Работа адресует эти проблемы, предлагая новую архитектуру, основанную на методе знаний о воспитании, для эффективного классификационного решения. #### Метод Предлагаемая система основывается на методе знаний о воспитание, при котором эффективная модель CP-MobileNet учится от двух специализированных учителей. Основной учитель — PaSST — обучается стандартным кросс-энтропийным потерям. Дополнительный учитель, называемый генерализационным экспертом, обучается с помощью потери Device-Aware Feature Alignment (DAFA). Данная потеря является острой инновацией, которая адаптирована из предыдущих работ и гарантирует улучшение устойчивости модели к различным устройствам. В случае, когда доступны метки устройств на этапе тестирования, модель CP-MobileNet проводит окончательную стадию делифайна. Эта стратегия позволяет эффективно воспользоваться доступными метаданными, чтобы дополнительно улучшить качество классификации. #### Результаты В ходе экспериментов была проведена серия испытаний на развитии наборе данных. Модель сталкивалась с двумя основными целями: достижение высокого уровня точности и устойчивости к разным устройствам. На данных, где доступны метки устройств, модель достигла точности 57.93%, что значительно превосходит официальную базовую модель. Особенно выдающиеся результаты были получены при работе с незнакомыми устройствами, где существенно улучшилась общеупотребительная стратегия классификации. Эти результаты подтверждают эффективность использования знаний о воспитании в задаче классификации акустических сцен с высокой сложностью. #### Значимость Предлагаемый подход имеет широкую область применения, в том числе в системах автоматической классификации акустических сцен на различных устройствах. Одним из основных преимуществ является увеличение устойчивости к разным устройствам без потери точности. Это делает модель применимую в ситуациях, где необходима высокая надежность в различных условиях. Кроме того, подход может быть испо

Annotation:

In this technical report, we describe our submission for Task 1, Low-Complexity Device-Robust Acoustic Scene Classification, of the DCASE 2025 Challenge. Our work tackles the dual challenges of strict complexity constraints and robust generalization to both seen and unseen devices, while also leveraging the new rule allowing the use of device labels at test time. Our proposed system is based on a knowledge distillation framework where an efficient CP-MobileNet student learns from a compact, spec...

ID: 2509.09262v1 cs.SD, cs.AI

arXiv PDF

📄 Controllable Singing Voice Synthesis using Phoneme-Level Energy Sequence

2025-09-12

Авторы:

Yerin Ryu, Inseop Shin, Chanwoo Kim

#### Контекст Controllable Singing Voice Synthesis (SVS) нацелен на создание выразительных пений, отражающих потребности пользователя. Несмотря на то, что современные SVS-системы обеспечивают высокое качество звука, их основным ограничением является ограниченная возможность контроля над атрибутами, такими как динамика пения. Эти атрибуты являются ключевыми для создания эмоциональной нагрузки в музыке. Мы ставим перед собой задачу решения этого проблемы, сосредоточившись на динамическом контроле — важном аспекте, отражающем изменения звучания во времени. Наша идея заключается в использовании экспериментальных данных, полученных из звуковых спектрограмм, для точного контроля этих характеристик. #### Метод Мы предлагаем новую архитектуру, которая использует последовательность энергии на уровне фонем для управления динамическим содержанием. Это позволяет системе оптимизировать звуковые атрибуты во время синтеза, не требуя дополнительных аннотаций. Использование фонемного уровня обеспечивает удобство контроля и гибкость в музыкальном выражении. Мы также разработали модель, которая учитывает энергию на уроке фонем, чтобы сократить затраты на аннотации и улучшить точность управления. Это первый подход, основанный на фонемной модели, который позволяет контролировать динамику пения в SVS. #### Результаты Мы провели эксперименты с использованием различных данных, включая звуковые спектрограммы и звуковые файлы. Метод, основанный на фонемной модели, показал существенное улучшение в точности определения динамики, снизив среднее абсолютное отклонение в энергии на 50% в сравнении с базовыми моделями. Это улучшение достигное без каких-либо потерь в качестве звука. Таким образом, мы успешно доказали, что наш подход эффективен в управлении динамикой во времени в пении. #### Значимость Наш метод открывает новые возможности в области SVS, так как он позволяет контролировать динамику пения на фонемном уровне. Это может быть применено в музыкальном производстве, где требуется точный контроль за динамикой и эмоциональным содержанием пения. Мы также отмечаем, что наш подход может снизить затраты на аннотации, что делает его привлекательным для практического применения. #### Выводы Мы доказали, что наш подход позволяет достигнуть значительного улучшения в динамическом контроле SVS. В будущем мы планируем расширить модель, чтобы она могла справляться с более сложными задачами, такими как контроль тембра и ритма. Это позволит получать еще более выразительные и живые пение, отвечающие потребностям пользователей.

Annotation:

Controllable Singing Voice Synthesis (SVS) aims to generate expressive singing voices reflecting user intent. While recent SVS systems achieve high audio quality, most rely on probabilistic modeling, limiting precise control over attributes such as dynamics. We address this by focusing on dynamic control--temporal loudness variation essential for musical expressiveness--and explicitly condition the SVS model on energy sequences extracted from ground-truth spectrograms, reducing annotation costs ...

ID: 2509.07038v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs

2025-09-12

Авторы:

Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan

## Контекст Профилирование звуковой логики и семантики в больших звуковых языковых моделях (LALMs) является ключевым заданием для их эффективного применения в различных сферах, включая аудио-анализ, генерирование речевых моделей и робототехнику. Несмотря на то, что эти модели продвигаются с технической стороны, оценка их качества и широкого применения ограничивается существующими решениями, которые недостаточно эффективны и не учитывают все аспекты аудио-логики. Это приводит к проблемам с ростом скорости, несогласованностью обработки и ограниченной областью применения. Наша мотивация заключается в разработке быстрого, универсального и стандартизированного инструмента, который может помочь улучшить систематическую оценку и применение звуковых моделей. ## Метод AU-Harness представляет собой открытый инструментальный набор для систематической оценки LALMs. Он включает: - **Оптимизированную обработку**: уменьшение затрат на вычисления с помощью батч-обработки и параллельной обработки, что приводит к ускорению процесса до 127%. - **Стандартизированные протоколы проблем**: устранение несогласованностей в обработке, чтобы обеспечить последовательность результатов и надежность экспериментов. - **Расширение области оценки**: включение новых типов задач, таких как **LLM-Adaptive Diarization** (для временной анализа) и **Spoken Language Reasoning** (для оценки когнитивных задач). - **Гибкость в настройке**: пользователи могут настроить процессы для различных задач и моделей, чтобы обеспечить честную сравнительную оценку. ## Результаты Мы провели эксперименты с 380+ задачами, используя AU-Harness для оценки нескольких звуковых моделей. Наши результаты показали: - **Скорость**: до 2,7 раз быстрее существующих систем. - **Стандартизация**: снижение разброса результатов связанного с несогласованностью в протоколах. - **Обнаружение лаконичных моделей**: выявление сильных и слабых сторон моделей в таких областях как временное понимание аудио и сложные задачи рассуждения. - **Найденные проблемы**: многочисленные модели слабо выступают в области временного анализа и задач рассуждения, что отражается в узких базовых результатах. ## Значимость AU-Harness открывает новые возможности для систематической оценки LALMs, которые могут применяться в следующих сферах: - **Разработка звуковых моделей**: помогает разработчикам определить слабые места в моделях и усовершенствовать их. - **Промышленность и робототехника**: предоставляет инструменты для проверки моделей в реальных задачах, таких как голосовое взаимодействие и анализ аудио. - **Образование и интеллектуальные системы**: позволяет измерить уровень понимания голосовых команд и сло

Annotation:

Large Audio Language Models (LALMs) are rapidly advancing, but evaluating them remains challenging due to inefficient toolkits that limit fair comparison and systematic assessment. Current frameworks suffer from three critical issues: slow processing that bottlenecks large-scale studies, inconsistent prompting that hurts reproducibility, and narrow task coverage that misses important audio reasoning capabilities. We introduce AU-Harness, an efficient and comprehensive evaluation framework for LA...

ID: 2509.08031v2 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Segment Transformer: AI-Generated Music Detection via Music Structural Analysis

2025-09-12

Авторы:

Yumin Kim, Seonghyeon Go

## Контекст Развитие технологий генерирования звуковых и музыкальных композиций в области музыкального информационного внимания (MIR) позволило создавать музыку, которая почти неотличима от ручной композиции. Это приводит к возрастающим проблемам в области защиты авторских прав и определения авторства. Определение того, была ли музыка сгенерирована с помощью искусственного интеллекта (AI-generated music, AIGM) или ручным составлением, представляет собой сложную задачу. Исследование структурных характеристик музыкальных классов может помочь улучшить точность распознавания AIGM. Мы предлагаем новую модель, которая добавляет возможность анализа структурных сегментов музыки, чтобы улучшить качество и надёжность систем распознавания. ## Метод Мы предложили Segment Transformer, который основывается на трансформерной архитектуре. Для работы с короткими аудио-сегментами, мы использовали различные предварительно обученные модели, включая модели самостоятельного обучения (self-supervised learning, SSL) и модели эффектов аудио. Для анализа длинных аудиозаписей, Segment Transformer делит музыку на отдельные сегменты и изучает отношения между ними. Эта модель включает в себя ряд технических решений, таких как комбинирование входных данных с различных моделей, слои преобразования сегмента и адаптивный механизм учёта длины сегмента. Модель настраивается для работы с двумя датасетов: FakeMusicCaps и SONICS. ## Результаты Мы провели эксперименты на двух датасетах: FakeMusicCaps и SONICS. Модель Segment Transformer показала высокую точность в определении AIGM в обеих средах — коротких и длинных аудио-сегментах. Мы также сравнили результаты с другими текущими системами, чтобы подтвердить преимущества нашего подхода. Эти результаты показывают, что интеграция сегментных музыкальных признаков с помощью трансформера может значительно улучшить качество распознавания AIGM. ## Значимость Наш подход может быть применён в различных областях, таких как защита авторских прав, определение авторства и проверка прав на музыкальные работы. Он обеспечивает более точное распознавание AIGM, что помогает устранить неоднозначности в определении источника творчества. Мы считаем, что наш подход может иметь потенциал для продвижения исследований в области MIR и в области точного распознавания музыкальных работ. ## Выводы Мы успешно развили Segment Transformer — модель, которая разбирает музыку на сегменты и учитывает их отношения, чтобы улучшить распознавание AIGM. Эти результаты подтверждают эффективность нашего подхода в коротких и длинных сегментах музыки. Мы планируем продолжить исследования, чтобы улучшить систему распознавания для б

Annotation:

Audio and music generation systems have been remarkably developed in the music information retrieval (MIR) research field. The advancement of these technologies raises copyright concerns, as ownership and authorship of AI-generated music (AIGM) remain unclear. Also, it can be difficult to determine whether a piece was generated by AI or composed by humans clearly. To address these challenges, we aim to improve the accuracy of AIGM detection by analyzing the structural patterns of music segments....

ID: 2509.08283v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Explainability of CNN Based Classification Models for Acoustic Signal

2025-09-12

Авторы:

Zubair Faruqui, Mackenzie S. McIntire, Rahul Dubey, Jay McEntee

## Контекст Акустические сигналы животных являются важной источником информации для изучения поведения, экологии и эволюции различных видов. Однако анализ этих сигналов часто сталкивается с проблемами, связанными с их комплексностью и большим объемом данных. В статье рассматривается применение глубоких нейросетей для классификации звуковых сигналов птиц, которые имеют сильную географическую разнообразие в т Tехнологии звукозаписи и анализа позволяют собирать большие объемы данных, но их интерпретация часто требует больших усилий и специализированных знаний. Развитие Искусственного Интеллекта (ИИ) и, в частности, Эксплаинэйбел ИИ (XAI), предлагает новые возможности для понимания и интерпретации результатов акустического анализа. Однако, применение XAI в биоакустике, в частности, в анализе звуков птиц, до сих пор остается недостаточно исследовано. Целью данной статьи является изучение возможностей применения XAI для понимания моделей классификации звуков, а также выявление шаблонов и причин, по которым модель принимает определенные решения. ## Метод Для проведения исследования были использованы звуковые записи птиц из разных районов жизнедеятельности в Северной Америке. Звуковые сигналы были преобразованы в изображения в формате спектрограмм, которые являются входным форматом для нейронной сети. Модель классификации основывалась на архитектуре глубоких совокупных нейронных сетей (CNN), которая была обучена классифицировать звуки на основе их спектрограмм. Для того, чтобы понять, что именно учитывает модель при принятии решения, применены методы Эксплаинэйбл ИИ. Эти методы могут быть разделены на две категории: модельно-зависимые (DeepLIFT, Grad-CAM) и модельно-независимые (LIME, SHAP). Методы LIME и SHAP работают путем создания интерпретируемых представлений входных данных, показывая, какие части сигнала влияют на решение модели. В то же время, DeepLIFT и Grad-CAM относятся к модельно-зависимым методам, которые используют внутреннюю структуру нейросети для показания, как каждая часть входного сигнала влияет на выходную классификацию. ## Результаты Использование CNN для классификации звуков птиц дало высокую точность (94.8%) в распознавании различных типов звуков. Для интерпретации решений модели были применены XAI-техники. Легенды LIME и SHAP показали, какие части спектрограммы имеют сильнейшее влияние на классификацию. Например, LIME показал, что звуки с высокой частотой и сильным амплитудовым диапазоном имеют большую важность для распознавания

Annotation:

Explainable Artificial Intelligence (XAI) has emerged as a critical tool for interpreting the predictions of complex deep learning models. While XAI has been increasingly applied in various domains within acoustics, its use in bioacoustics, which involves analyzing audio signals from living organisms, remains relatively underexplored. In this paper, we investigate the vocalizations of a bird species with strong geographic variation throughout its range in North America. Audio recordings were con...

ID: 2509.08717v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 LALM-Eval: An Open-Source Toolkit for Holistic Evaluation of Large Audio Language Models

2025-09-11

Авторы:

Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan

## Контекст Огромные Аудио-Языковые Модели (LALMs) постоянно развиваются, что влечет за собой возрастающий интерес к их эффективному использованию в различных приложениях. Однако эффективная оценка таких моделей остается вызовом. На сегодняшний день существуют недостатки в инструментах, позволяющих провести систематическую оценку. В частности, существуют фреймворки, которые либо медленны в обработке, либо не поддерживают согласованные методы представления задач, что снижает возможность воспроизводимости исследований. Кроме того, многие существующие инструменты не покрывают все типы задач, необходимых для полной оценки LALMs. Данная статья посвящена разработке LALM-Eval, комплексного и эффективного системного фреймворка для оценки LALMs, который предназначен для решения этих проблем. ## Метод LALM-Eval представляет собой новую систему для эффективного и широкого опробования LALMs. Она включает в себя оптимизированные алгоритмы для быстрого обработки больших объемов данных с использованием параллельных вычислений. Благодаря этому, модели могут быть протестированы на большом количестве задач одновременно. Кроме того, в фреймворк включены стандартизированные протоколы для методов представления задач, что позволяет уменьшить влияние человеческого фактора при сравнении моделей. Также включены две новые категории оценки: LLM-Adaptive Diarization для временной обработки аудио-данных и Spoken Language Reasoning для решения сложных задач рассуждения на основе голосовых данных. ## Результаты Проведенные эксперименты показали, что LALM-Eval значительно быстрее существующих инструментов, обеспечивая скорость обработки до 127% выше. Это позволяет проводить большую масштабность оценки, которая ранее была недоступна. Благодаря стандартизированным протоколам, результаты становятся более воспроизводимыми и сравнимыми. Было проанализировано более 380 различных задач, включая различные сценарии распознавания речи, аудио-диаризации и комплексных задач рассуждения. Обнаружены существующие проблемы в нынешних LALMs, в частности, в слабой обработке временных задач и сложных голосовых ситуаций, таких как рассуждения. Также были выявлены проблемы стандартизации в модах инструктирования, которые могут приводить к существенным диспарностям в результатах. ## Значимость LALM-Eval представляет собой практический инструмент для разработчиков и исследователей LALMs. Он позволяет проводить более точные и высокомасштабные оценки, которые являются ключевыми для выявления ограничений моделей. Эта система также демонстрирует потребность в стандартизации в мо

Annotation:

Large Audio Language Models (LALMs) are rapidly advancing, but evaluating them remains challenging due to inefficient toolkits that limit fair comparison and systematic assessment. Current frameworks suffer from three critical issues: slow processing that bottlenecks large-scale studies, inconsistent prompting that hurts reproducibility, and narrow task coverage that misses important audio reasoning capabilities. We introduce LALM-Eval, an efficient and comprehensive evaluation framework for LAL...

ID: 2509.08031v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

1
2
17
18
19
20
21
27
28

Показано 181 - 190 из 274 записей