📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Kutub Uddin, Muhammad Umar Farooq, Awais Khan, Khalid Mahmood Malik

#### Контекст Генерируемая с помощью искусственного интеллекта аудиосъемка, так называемая deepfake, стала одной из самых мощных технологий в современной цифровой среде. Она используется для подделки голосов, создания подлоговых аудио-видеоматериалов и даже обмана зрителей при помощи реалистичных, но ложной информации. Эта технология нашла применение в различных сферах: от развлечений до серьезных рисков в профессиональных сферах, например, в системах аудиоконференцсвязи, проверке личности по голосу и расследовании преступлений. Однако с этим резко возросло количество атак, направленных на подделку голоса или скрытие глубоких подделок. Эти атаки могут серьезно повлиять на безопасность, доверие к цифровым системам и юридические процессы. #### Метод Мы провели широкий анализ современных методов обнаружения глубоких подделок, посредством которых можно выявить глубокие подделки, использующие генерируемую звуковую информацию. Методика включала в себя два основных подхода: работу над звуковыми сигналами в "родном" формате (без предварительной обработки) и работу над спектрограммами (графическими представлениями звуковых сигналов). Мы использовали пять разных бенчмарк-датасетов, позволяющих протестировать различные методы обнаружения. Наша инфраструктура включала в себя такие подходы, как оптимизационные атаки (FGSM, PGD, C&W) и статистические модификации (например, разносятройка звуков, фильтрация, шум и др.). Мы проводили сравнительный анализ этих методов по метрикам, таким как точность, сенситивность и восстановление предложенных нюансов. #### Результаты Мы выполнили эксперименты на широком спектре глубоких подделок, используя пять разных датасетов. Мы оценивали как нововведения, так и уже существующие подходы к обнаружению глубоких подделок, чтобы понять, какие методы более эффективны в сравнении с другими. Наши результаты показали, что методы, основывающиеся на спектрограммах, показали лучший результат в том случае, когда данные были предварительно обработаны для извлечения закономерностей. Однако они оказались менее устойчивы в условиях атак, направленных на изменение звукового сигнала в "родной" формате. #### Значимость Наши результаты могут быть применены в сферах, где существует риск подделки голоса или глубоких подделок, таких как системы аудиоконференцсвязи, голосовые помощники, системы безопасности и проверка личности по голосу. Методы, разработанные в рамках нашего исследования, могут помочь в разработке более устойчивых систем,
Annotation:
The widespread use of generative AI has shown remarkable success in producing highly realistic deepfakes, posing a serious threat to various voice biometric applications, including speaker verification, voice biometrics, audio conferencing, and criminal investigations. To counteract this, several state-of-the-art (SoTA) audio deepfake detection (ADD) methods have been proposed to identify generative AI signatures to distinguish between real and deepfake audio. However, the effectiveness of these...
ID: 2509.07132v1 cs.SD, cs.AI, cs.CV, cs.LG
Авторы:

Yonghyun Kim, Junhyung Park, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam

#### Контекст Музыкальное исполнение является кросс-модальным процессом, который включает в себя аудио-, визуальные и даже третье-модальные сигналы (например, ритмические или структурные признаки). Однако большинство данных в области музыкальной информационной ретроспективы (MIR) ограничиваются только аудиосигналом, что существенно ограничивает возможности исследователей. Недостаток мультимодальных данных в MIR затрудняет развитие методов, моделей и алгоритмов, которые могли бы более глубоко и адекватно анализировать и понимать глубинные связи между различными модальностями в музыкальном исполнении. #### Метод Dataset PianoVAM представляет собой крупномасштабную коллекцию мультимодальных данных, содержащую видео, аудио, MIDI, ландмарки рук, метки нотного игры и многочисленную метаинформацию. Данные были записаны с помощью Disklavier-пианино, которое запечатлевало аудио и MIDI в режиме реального времени, а также синхронизированно воспроизводил видеозаписи в виде топ-видков. Ландмарки рук и метки нотного игры были извлечены с использованием предобученных моделей рери-позиционирования рук и с помощью специального алгоритма полуавтоматической аннотации игры. Задача сбора данных была связана с рядом технических трудностей, включая синхронизацию различных модальностей, корректную идентификацию рукопашных движений и их соотнесение с музыкальными заметками. #### Результаты На основе данных PianoVAM проводились эксперименты по транскрибированию аудио и видео. Набор данных был разделен на тренировочную, валидационную и тестовую выборку. Метриками оценки выступали точность транскрибирования и F1-меру. Обучение и оценка использовались на основе последних моделей глубокого обучения, таких как Transformer-based модели для видео-аудио транскрибирования. Исследования показали, что мультимодальный подход, включающий видео, избыточно улучшает точность предсказаний в сравнении с моделями, использующими только аудиосигнал. #### Значимость Полученные результаты указывают на важность мультимодальных методов в области MIR, особенно в контексте транскрибирования музыки. Данные PianoVAM могут быть использованы в разработке моделей, которые будут учитывать взаимодействие между звуком, видео и другими модальностями для получения более точных и естественных результатов. Это может быть применено в синтезе музыки, виртуальных пианистов, анализе исполнений и визуальных представлениях музыки, и даже в улучшении интерактивных систем для обучения и исполнения музыки. #### Выводы Представленный PianoV
Annotation:
The multimodal nature of music performance has driven increasing interest in data beyond the audio domain within the music information retrieval (MIR) community. This paper introduces PianoVAM, a comprehensive piano performance dataset that includes videos, audio, MIDI, hand landmarks, fingering labels, and rich metadata. The dataset was recorded using a Disklavier piano, capturing audio and MIDI from amateur pianists during their daily practice sessions, alongside synchronized top-view videos i...
ID: 2509.08800v1 cs.SD, cs.AI, cs.CV, cs.MM, eess.AS
Авторы:

Gokul Karthik Kumar, Rishabh Saraf, Ludovick Lepauloux, Abdul Muneer, Billel Mokeddem, Hakim Hacid

#### Контекст В последние годы технологии звукового анализа и обработки языка стали ключевыми для развития интеллектуальных систем. Однако сочетание звукового анализа и естественного языка во многом остается недостаточно исследованом. Уже достигнутые успехи в области больших языковых моделей (LLMs) не полностью использованы для аудио-данных, несмотря на то, что звук является основополагающим средством человеческой коммуникации. Это ситуация стимулирует развитие аудио-языковых моделей (ALMs), которые могут обрабатывать и интерпретировать аудио-информацию вместе с текстовыми данными. Falcon3-Audio — это новая семейство ALMs, которые используют уже проинструктированные языковые модели и кодировщики звука с открытым кодом, такими как Whisper. Они предлагают новую точку зрения на объединение звуковых и текстовых данных. #### Метод Falcon3-Audio основана на современных трендах в обучении языковых моделей, но придерживается простоты в своей архитектуре. Она использует Whisper для кодирования звуковых сигналов и обучает языковую модель на основе существующих процедур обучения с инструкциями. Это позволяет проводить одностадийное обучение, не требуя дополнительных сложных методов, таких как курсивное обучение или многоэтапная архитектура. Используется минимальное количество аудио-данных — менее 30 тысяч часов (5 тысяч уникальных аудио-записей) — что демонстрирует высокую эффективность ресурсов. Набор данных Whisper, используемый для обучения, также обеспечивает широкий покрытие различных акцентов и языков. #### Результаты В ходе исследования Falcon3-Audio-7B демонстрирует выдающуюся эффективность, совпадая с результатами лучших моделей на открытом коде в задаче моделирования MMAU. Она построена на меньшем количестве параметров (7 миллиардов) и тренируется на меньшем количестве данных, чем многие соревновательные модели. Например, Falcon3-Audio-1B превосходит различные модели 2–13 миллиардов параметров, открытых и закрытых. Эти результаты достигнуты благодаря простоте архитектуры и эффективности используемых данных. Эксперименты также показали, что Falcon3-Audio достигает этих результатов без дополнительных сложных методов, что демонстрирует ее простоту и надёжность. #### Значимость Модель Falcon3-Audio открывает новый подход к объединению звуковых и текстовых данных в языковых моделях, снижая требования к объему обучающих данных и ресурсам вычислительных систем. Она может применяться в различных областях, включая распознавание речи, генерацию аудио-содержимого и анализ аудио-содержимого. Ее простота, эффектив
Annotation:
Large language models (LLMs) have transformed NLP, yet their integration with audio remains underexplored -- despite audio's centrality to human communication. We introduce Falcon3-Audio, a family of Audio-Language Models (ALMs) built on instruction-tuned LLMs and Whisper encoders. Using a remarkably small amount of public audio data -- less than 30K hours (5K unique) -- Falcon3-Audio-7B matches the best reported performance among open-weight models on the MMAU benchmark, with a score of 64.14, ...
ID: 2509.07526v1 cs.SD, cs.AI, cs.CL, cs.LG
Авторы:

Kamel Kamel, Hridoy Sankar Dutta, Keshav Sood, Sunil Aryal

## Контекст Voice Authentication Systems (VAS) используют уникальные звуковые характеристики для проверки подлинности. Они широко используются в высокобезопасных сферах, таких как банковские системы и здравоохранение. Несмотря на улучшения, основанные на глубоком обучении, эти системы остаются уязвимы к развитым угрозам, таким как deepfakes и адверсарные атаки. Развитие реалистичного голосового клонирования усложняет различие между подлинным и синтезированным звуком, что повышает риск безопасности. Дополнительно, существующие меры безопасности, такие как анти-спуфинг-счетчики (CMs), часто основываются на статических моделях, что делает их уязвимыми перед новыми атаками. В этом контексте мы предлагаем Spectral Masking and Interpolation Attack (SMIA), позволяющий эффективно обойти существующие системы. ## Метод SMIA — это блэк-бокс-атака, которая атакует не только голосовую аутентификацию, но и анти-спуфинг-счетчики. Она использует спектральные манипуляции в неявных частотных зонах AI-генерируемого аудио. Метод заключается в том, чтобы изменить голос в пределах частот, незаметных для человека, чтобы создавать адверсарные примеры, которые звучат аутентично, но подделывают CMs. Мы использовали алгоритмы интерполяции для изменения звука в неявных частотных зонах и измерили влияние на CMs. Данные для экспериментов были получены из реальных голосовых аутентификационных систем и пакетов как сторонних, так и внутренних компонентов анти-спуфинга. ## Результаты Мы проводили эксперименты с несколькими SOTA-системами, включая VAS и CMs. Наша атака показала высокую успешность: ASR был по крайней мере 82% против комбинированных VAS/CM-систем, 97.5% против специализированных систем голоса и 100% против CMs. Мы протестировали SMIA под различными условиями, включая ситуации с шумом и различными типами голоса. Эти результаты указывают на то, что существующие системы неэффективны против адаптивных атак, таких как SMIA. ## Значимость Наш алгоритм SMIA может быть применен во многих областях, где требуется высокая безопасность и доверие к голосовым системам, такие как банковский сектор, здравоохранение и автоматизация. Он показывает, что текущие меры безопасности неэффективны против новых видов адверсарных атак. Выявленные уязвимости могут привести к внедрению динамичных, контекст-зависимых систем, которые могут эффективно отвечать на развивающиеся угрозы. ## Выводы SMIA демонстрирует серьезные уязвимости в текущих VAS и анти-спуфинг-системах. Он показы
Annotation:
Voice Authentication Systems (VAS) use unique vocal characteristics for verification. They are increasingly integrated into high-security sectors such as banking and healthcare. Despite their improvements using deep learning, they face severe vulnerabilities from sophisticated threats like deepfakes and adversarial attacks. The emergence of realistic voice cloning complicates detection, as systems struggle to distinguish authentic from synthetic audio. While anti-spoofing countermeasures (CMs) e...
ID: 2509.07677v1 cs.SD, cs.AI
Авторы:

Friedrich Wolf-Monheim

## Контекст Аудиоданные широко используются в различных областях, таких как музыка, речь и среды. Одним из основных задач было решение классификации аудиозаписей по категориям и классам. Для этого применяются различные методы, включая сверточные нейронные сети (CNNs). Однако существуют различия в качестве и точности классификации в зависимости от выбранных функций. Распространенные функции включают mel-scaled spectrograms, MFCC, cyclic tempograms и др. Чтобы определить, какие функции показывают лучший результат, необходимо провести подробный анализ их результатов с использованием CNN. ## Метод Для анализа был использован диапазон функций, включая mel-scaled spectrograms, MFCC, cyclic tempograms и CQT chromagrams. Эти функции были использованы для построения многоканальных изображений в виде входных данных для сверточной нейронной сети. Набор данных ESC-50, содержащий 2000 записей, использовался для тестирования. Оценивались метрики точности, полнота, реколл и F1-меру. CNN была обучена в рамках энд-то-энд-подхода, чтобы определить качество классификации по категориям и классам. ## Результаты По результатам экспериментов, mel-scaled spectrograms и MFCC показали лучший результат в качестве классификации по категориям и классам. Оба показали высокую точность и F1-меру. MFCC лучше всего показались для классификации по классам, в то время как spectrograms оказались эффективными в категоризации. Остальные функции (cyclic tempograms, CQT chromagrams) показали нижнее качество, заметно уступив лидерам. ## Значимость Эти результаты имеют большую значимость для применения CNN в аудиоклассификации. Функции, эффективны в этой работе, могут стать предпочтительными для классификации в различных областях, таких как музыка, речь и среды. Особенно важно использовать MFCC для классификации по классам, так как они показали лучшие результаты. Это может улучшить качество и точность автоматических систем классификации звука. ## Выводы В итоге, методы mel-scaled spectrograms и MFCC оказались наиболее эффективными для классификации аудиоданных по категориям и классам с использованием CNN. В будущем можно расширить исследования, включив дополнительные данные и алгоритмы, чтобы улучшить качество классификации и расширить представление о данных.
Annotation:
Next to decision tree and k-nearest neighbours algorithms deep convolutional neural networks (CNNs) are widely used to classify audio data in many domains like music, speech or environmental sounds. To train a specific CNN various spectral and rhythm features like mel-scaled spectrograms, mel-frequency cepstral coefficients (MFCC), cyclic tempograms, short-time Fourier transform (STFT) chromagrams, constant-Q transform (CQT) chromagrams and chroma energy normalized statistics (CENS) chromagrams ...
ID: 2509.07756v1 cs.SD, cs.AI, cs.CV, cs.LG, eess.AS
Авторы:

Minh N. H. Nguyen, Anh Nguyen Tran, Dung Truong Dinh, Nam Van Vo

## Контекст Code-switching (CS), или перемешивание языков в речи, является важной проблемой для общей системы автоматического распознавания речи (ASR). В случае таких языковых пар, как вьетский и английский, существуют сложности в распознавании специфичных фонологических особенностей каждого языка, а также в ситуациях, когда звуки одинаковые в разных языках создают второспецифическую амбигуарность. Эти проблемы становятся особенно актуальными в аспекте развития технологий для региональных и многоязычных сценариев. В этом исследовании фокус делается на разработке новых подходов для улучшения распознавания речи в условиях CS версии вьетско-английского языка. Такие подходы могут существенно повысить точность распознавания, уменьшить ресурсы обучения и сделать ASR более эффективным в каждый день использовании. ## Метод Методология TSPC (Two-Stage Phoneme-Centric) основывается на расширенном наборе фонологических единиц вьетского языка. Философия данного подхода заключается в использовании фонологической модели, которая позволяет адаптировать распознавание речи к контексту CS. Основной архитектурой является две фазы: фаза превращения речи в фонологические единицы (фаза распознавания) и фаза перевода этих единиц в транскрипции текста (фаза распознавания текста). Эта архитектура также включает в себя моделирование сложностей CS с помощью модификаций признаков фонологических единиц, чтобы улучшить точность распознавания. Такой метод позволяет строить модели, которые лучше подходят для характеристик CS вьетского-английского языка. ## Результаты Для проверки эффективности TSPC были проведены эксперименты на специально подготовленных данных, включающих звуковые фрагменты и текстовые транскрипции. Результаты показали, что TSPC существенно превосходит базовые модели, такие как PhoWhisper-base, в области распознавания речи в сценариях CS вьетского-английского языка. Более того, TSPC достиг значительно низкого уровня ошибок в тексте распознавания - 20.8% WER (Word Error Rate) - при меньших требованиях к ресурсам обучения. Эти результаты указывают на то, что TSPC не только улучшает точность распознавания, но и позволяет экономить ресурсы в процессе обучения, что является ключевым преимуществом для применения в реальных условиях. ## Значимость Параметры TSPC демонстрируют широкий потенциал для развития и применения в различных областях, включая область транскрипции речи с кодовым переключением вьетского-английского языка. Этот подход может быть применен в сферах, таких как лингвистические исс
Annotation:
Code-switching (CS) presents a significant challenge for general Auto-Speech Recognition (ASR) systems. Existing methods often fail to capture the subtle phonological shifts inherent in CS scenarios. The challenge is particularly difficult for language pairs like Vietnamese and English, where both distinct phonological features and the ambiguity arising from similar sound recognition are present. In this paper, we propose a novel architecture for Vietnamese-English CS ASR, a Two-Stage Phoneme-Ce...
ID: 2509.05983v1 cs.SD, cs.AI, cs.CL, eess.AS
Авторы:

Xiaoran Yang, Jianxuan Yang, Xinyue Guo, Haoyu Wang, Ningning Pan, Gongping Huang

## Контекст Проблема синтеза аудио из сильного видео заключается в том, что методы, хорошо демонстрирующиеся в качестве аудио или скорости выполнения, обычно малосовпадают в другой области. Это возникает из-за того, что модели, основанные на математических фловах, требуют многоэтапного семплирования для построения аудио, что замедляет их обработку. Наряду с этим, методы classifier-free guidance (CFG), несмотря на то что были предложены для улучшения качества генерируемого звука, часто приводят к нежелательным искажениям в результате. Нужна более быстрая, точная и универсальная модель, которая бы справилась с этим взаимоисключающим требованием. ## Метод Модель MeanFlow-accelerated предлагает решение этой проблемы, используя среднюю скорость в потоке (mean flow) для построения потока, которая позволяет генерировать аудио в одном шаге. Это значительно ускоряет процесс и сохраняет качество звука. Для борьбы с CFG-проблемами, авторы внедрили механизм пересчета масштаба (scalar rescaling), который сбалансировал условное и неусловное прогнозирование. Также, аудио-синтез моделью поддерживает текстовый ввод, что дает ей гибкость в работе на различных задачах, таких как text-to-audio (TTA) синтез. ## Результаты Эксперименты показали, что MeanFlow улучшила скорость генерации на 10–15 раз по сравнению с существующими методами, не снижая качества звука. Также, она демонстрирует высокую точность в построении аудио, совпадающего с заданными видео, а также высокую синхронизацию времени. На TTA-задаче модель показала высокую качественную генерацию звука, точно соответствующую текстовым указаниям. ## Значимость Результаты MeanFlow открывают новые возможности для применения в мультимодальных задачах, таких как создание видео-аудио контента, где необходимо быстрое, качественное и точное генерирование звука. Это может быть применено в массовой продаже, тренировках, образовании и других областях, где видео-и-звук играют ключевую роль. Эффективность и гибкость модели делают ее универсальной и полезной в разных сценариях. ## Выводы MeanFlow ускоряет и улучшает процесс видео-аудио синтеза без потерь качества и синхронизации. Это прорыв в области мультимодальных технологий. Будущие исследования могут уделять внимание улучшению еще большего качества звука, а также расширению модели на другие модальности, такие как текст-видео, видео-текст и др.
Annotation:
A key challenge in synthesizing audios from silent videos is the inherent trade-off between synthesis quality and inference efficiency in existing methods. For instance, flow matching based models rely on modeling instantaneous velocity, inherently require an iterative sampling process, leading to slow inference speeds. To address this efficiency bottleneck, we introduce a MeanFlow-accelerated model that characterizes flow fields using average velocity, enabling one-step generation and thereby s...
ID: 2509.06389v1 cs.SD, cs.AI
Авторы:

Liping Chen, Jinghao He, Zhengyan Sheng, Kong Aik Lee, Zhen-Hua Ling

#### Контекст Голосовая звуковая характеристика (timbre) является ключевым аспектом распознавания и идентификации речи. Она отражает не только физиологические характеристики речевого аппарата, но и эмоциональные и поведенческие оттенки речи. Однако объясняемость timbre остается недостаточно изученной, особенно в контексте сравнения интенсивности двух речевых фрагментов в определенной характеристике timbre. Это негативно сказывается на развитии приложений, требующих точного анализа голоса, таких как автоматическое распознавание речи, ангажированность и реализм голоса в коммуникационных технологиях. Для развития этих областей необходимо повысить ясность и систематизм в изучении timbre. #### Метод Для решения данной проблемы был запущен The First Voice Timbre Attribute Detection Challenge. Целью стало создание средств для сравнения интенсивности двух речевых фрагментов в определенной характеристике timbre. Методология основывалась на использовании датасета VCTK-RVA, содержащего голосовые записи с различными характеристиками timbre. Участники системы разрабатывали и реализовывали алгоритмы для оценки интенсивности timbre в указанной характеристике. После этого их решения были оценены организаторами сессии, что обеспечивало объективность и качество результатов. #### Результаты В ходе соревнования приняли участие шесть команд, из которых пять представили подробные описания своих методологий. Оценка проводилась на основе VCTK-RVA датасета, который включал голосовые записи с различными значениями timbre. Результаты показали, что четыре из пяти систем были эффективны в определении интенсивности timbre. Это указывает на успешность применения методологии и ее потенциал для решения задач изучения голоса. #### Значимость Результаты этого соревнования имеют значительное значение для развития области голосовых технологий. В частности, они могут быть применены в области распознавания речи, где точный timbre analysis является критически важным. Также, эта работа может быть использована в области эмоционального анализа речи, а также для повышения реализма и естественности голосовых ассистентов. Благодаря этому, можно ожидать улучшение точности и эффективности существующих систем голосового распознавания. #### Выводы В ходе The First Voice Timbre Attribute Detection Challenge была продемонстрирована эффективность использования методологии для сравнения интенсивности timbre. Однако, необходимо продолжить работу над улучшением методик и выявлением новых характеристик, которые могут быть применены в будущих исследованиях. Это позволит повысить ясность и точность анализа голоса, что будет иметь позитивное влияние на
Annotation:
The first voice timbre attribute detection challenge is featured in a special session at NCMMSC 2025. It focuses on the explainability of voice timbre and compares the intensity of two speech utterances in a specified timbre descriptor dimension. The evaluation was conducted on the VCTK-RVA dataset. Participants developed their systems and submitted their outputs to the organizer, who evaluated the performance and sent feedback to them. Six teams submitted their outputs, with five providing desc...
ID: 2509.06635v1 cs.SD, cs.AI
Авторы:

Emmanouil Karystinaios, Johannes Hentschel, Markus Neuwirth, Gerhard Widmer

#### Контекст В последние годы растет интерес к вычислительным методам в области музыкального анализа. Однако большинство существующих подходов ориентированы на конкретные аналитические задачи, что ограничивает их широкое применение в различных дисциплинах. Эта проблема связана с тем, что музыкальные аналитические данные часто имеют различные форматы и структуры, что затрудняет их объединение в единое решение. Было принято решение разработать универсальный подход, который может обрабатывать разнообразные музыкальные данные с различными типами аналитических задач. #### Метод Мы предлагаем **AnalysisGNN**, новую архитектуру на основе графовых нейронных сетей (GNN). Эта модель использует стратегию перемешивания данных и пользовательский весовой многозадачный функционал потерь, а также фуссирование логитов из задач-классификаторов, чтобы объединить несколько типов аналитических данных. Для улучшения точности детекции нетонных нот (некоторые ноты, не являющиеся частью аккордов), мы добавили модуль для предсказания нетонных нот. Это решение позволяет исключить "ложные сигналы" и улучшить консистентность меток. Мы также разработали адаптивную архитектуру, которая может обрабатывать разные типы музыкальных данных в одном фреймворке. #### Результаты Мы провести эксперименты на нескольких задачах, включая классификацию аккордов, нот, типов нот и нетонных нот. Для этих задач у нас были данные из различных источников с разными метками. Мы сравнили результаты AnalysisGNN с существующими моделями и продемонстрировали, что наш подход показывает конкурентную точность и высокую устойчивость к разным типам аналитических данных. Эти результаты подтверждают устойчивость модели к разным типам музыкальных данных и консистентности меток в различных контекстах. #### Значимость AnalysisGNN может быть применен в разных областях музыкального анализа, таких как классификация музыкальных аккордов, детекция типов нот и нетонных нот. Его преимущество в том, что он может обрабатывать разные типы данных в единой модели, что повышает его универсальность. Это может существенно упростить работу музыкальных аналитиков и облегчить их работу с многообразными данными. Также, AnalysisGNN показал более высокую устойчивость к различным состояниям тренировочных данных, что делает его более надежным для практического применения. #### Выводы Мы представили новую модель AnalysisGNN, которая может интегрировать разные типы музыкальных данных для широкого спектра аналитических задач. Наши результаты показали, что модель демонстрирует высокую точность и устойчивость к разным типам данных. В будущем мы п
Annotation:
Recent years have seen a boom in computational approaches to music analysis, yet each one is typically tailored to a specific analytical domain. In this work, we introduce AnalysisGNN, a novel graph neural network framework that leverages a data-shuffling strategy with a custom weighted multi-task loss and logit fusion between task-specific classifiers to integrate heterogeneously annotated symbolic datasets for comprehensive score analysis. We further integrate a Non-Chord-Tone prediction modul...
ID: 2509.06654v1 cs.SD, cs.AI
Авторы:

Nicholas R. Rasmussen, Rodrigue Rizk, Longwei Wang, KC Santosh

## Контекст Устьевый пассивный акустический мониторинг (UPAM) предоставляет богатые данные по пространству и времени для длительного экологического анализа. Однако наличие встроенного шума и сложных зависимостей сигналов ставит под угрозу устойчивость моделей и их общезначимость. Несмотря на то, что мультислойная гладь улучшила локализацию целевых звуков, проблемы, такие как изменчивость изменчивого шума, различные эффекты распространения и смешанные биологические и антропогенные источники, требуют устойчивых архитектур и строгих экологических оценок. Поэтому требуется развитие методов, позволяющих эффективно работать с этими проблемами. ## Метод Разработан новый фреймворк для кросс-валидации, названный GetNetUPAM. Он разделяет данные на отдельные сегменты "сайт-год", сохраняя характеристики записи и обеспечивая, что каждая валидационная партия представляет собой уникальную экологическую подгруппу. Это снижает вероятность переобучения к местным шумам и артефактам сенсоров. Блокировка "сайт-год" включает общую экологическую разнообразность, в то время как классическая кросс-валидация на случайных подмножествах измеряет общую общую общую генерализацию, которая отсутствует в существующих бенчмарках. Используя GetNetUPAM, предлагается модель ARPA-N с адаптивным резолюционным пулингом и вниманием. Адаптивная пульпация с пространственным вниманием расширяет рецептурное поле, ловит крупномасштабную контекстную информацию без избытка параметров. ## Результаты В GetNetUPAM-окружении ARPA-N показала 14,4% увеличение средней точности по сравнению с DenseNet-базлами. Это привело к порядку меньшей вариабельности результатов во всех метриках. Эти результаты доказывают целесообразность ARPA-N в решении проблем устойчивости и общей эффективности моделей в UPAM. ## Значимость Разработанная архитектура и фреймворк могут быть применены в различных задачах мониторинга биоакустики, а также в других областях, где требуется обработка сложных акустических данных. Они обеспечивают более точную и консистентную обработку, что вносит вклад в улучшение оценок экосистем и развитие стоимостно эффективных решений для биоакустического мониторинга. ## Выводы Основным достижением является разработка универсального фреймворка для кросс-валидации и модели с адаптивным вниманием, которые позволяют увеличить точность и стабильность моделей в UPAM. Будущие исследования будут направлены на расширение возможностей модели для обработки более сложных сценариев и включения дополнительных источников данных для
Annotation:
Underwater Passive Acoustic Monitoring (UPAM) provides rich spatiotemporal data for long-term ecological analysis, but intrinsic noise and complex signal dependencies hinder model stability and generalization. Multilayered windowing has improved target sound localization, yet variability from shifting ambient noise, diverse propagation effects, and mixed biological and anthropogenic sources demands robust architectures and rigorous evaluation. We introduce GetNetUPAM, a hierarchical nested cross...
ID: 2509.04682v1 cs.SD, cs.AI, cs.CV, cs.IR, cs.LG, eess.AS
Показано 191 - 200 из 274 записей