📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Art2Music: Generating Music for Art Images with Multi-modal Feeling Alignment

2025-12-02

Авторы:

Jiaying Hong, Ting Zhu, Thanet Markchom, Huizhi Liang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

With the rise of AI-generated content (AIGC), generating perceptually natural and feeling-aligned music from multimodal inputs has become a central challenge. Existing approaches often rely on explicit emotion labels that require costly annotation, underscoring the need for more flexible feeling-aligned methods. To support multimodal music generation, we construct ArtiCaps, a pseudo feeling-aligned image-music-text dataset created by semantically matching descriptions from ArtEmis and MusicCaps....

ID: 2512.00120v1 cs.SD, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Multimodal Real-Time Anomaly Detection and Industrial Applications

2025-11-26

Авторы:

Aman Verma, Keshav Samdani, Mohd. Samiuddin Shafi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper presents the design, implementation, and evolution of a comprehensive multimodal room-monitoring system that integrates synchronized video and audio processing for real-time activity recognition and anomaly detection. We describe two iterations of the system: an initial lightweight implementation using YOLOv8, ByteTrack, and the Audio Spectrogram Transformer (AST), and an advanced version that incorporates multi-model audio ensembles, hybrid object detection, bidirectional cross-modal...

ID: 2511.18698v1 cs.SD, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Real-Time Object Tracking with On-Device Deep Learning for Adaptive Beamforming in Dynamic Acoustic Environments

2025-11-26

Авторы:

Jorge Ortigoso-Narro, Jose A. Belloch, Adrian Amor-Martin, Sandra Roger, Maximo Cobos

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Advances in object tracking and acoustic beamforming are driving new capabilities in surveillance, human-computer interaction, and robotics. This work presents an embedded system that integrates deep learning-based tracking with beamforming to achieve precise sound source localization and directional audio capture in dynamic environments. The approach combines single-camera depth estimation and stereo vision to enable accurate 3D localization of moving objects. A planar concentric circular micro...

ID: 2511.19396v1 cs.SD, cs.AI, cs.CV

arXiv PDF

📄 IMSE: Efficient U-Net-based Speech Enhancement using Inception Depthwise Convolution and Amplitude-Aware Linear Attention

2025-11-20

Авторы:

Xinxin Tang, Bin Qin, Yufang Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Achieving a balance between lightweight design and high performance remains a significant challenge for speech enhancement (SE) tasks on resource-constrained devices. Existing state-of-the-art methods, such as MUSE, have established a strong baseline with only 0.51M parameters by introducing a Multi-path Enhanced Taylor (MET) transformer and Deformable Embedding (DE). However, an in-depth analysis reveals that MUSE still suffers from efficiency bottlenecks: the MET module relies on a complex "ap...

ID: 2511.14515v1 cs.SD, cs.AI, cs.CV

arXiv PDF

📄 Audio-Guided Visual Perception for Audio-Visual Navigation

2025-10-16

Авторы:

Yi Wang, Yinfeng Yu, Fuchun Sun, Liejun Wang, Wendong Zheng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Audio-Visual Embodied Navigation aims to enable agents to autonomously navigate to sound sources in unknown 3D environments using auditory cues. While current AVN methods excel on in-distribution sound sources, they exhibit poor cross-source generalization: navigation success rates plummet and search paths become excessively long when agents encounter unheard sounds or unseen environments. This limitation stems from the lack of explicit alignment mechanisms between auditory signals and correspon...

ID: 2510.11760v1 cs.SD, cs.AI, cs.CV, cs.MM

arXiv PDF

📄 A Domain Knowledge Informed Approach for Anomaly Detection of Electric Vehicle Interior Sounds

2025-09-19

Авторы:

Deepti Kunte, Bram Cornelis, Claudio Colangeli, Karl Janssens, Brecht Van Baelen, Konstantinos Gryllias

## Контекст Аудиосигналы внутри электрических автомобилей играют ключевую роль в обеспечении качества продукции и комфорта пассажиров. Однако, обнаружение аномалий в этих звуках часто становится проблемой в условиях нехватки или полной отсутствия меток для неисправностей. Большинство существующих моделей обнаружения аномалий обучаются на звуковых данных, помеченных доброкачественными и неисправными примерами. На практике такие сценарии редко встречаются, что приводит к затруднению моделирования. Это ставит перед исследователями задачу разработки моделей, которые способны обнаруживать аномалии в аудиоданных, обучаясь только на звуках без аномалий. Такое подходение требует разработки новых методов для оценки и выбора моделей, так как простые метрики, такие как ошибка воспроизведения, могут оказаться недостаточно надежными. Таким образом, целью данной работы является разработка метода, информированного доменным знанием, для эффективного выбора моделей обнаружения аномалий в аудиоданных. ## Метод Разработанный метод основывается на инженерии прокси-аномалий, которые являются структурированными изменениями звуковых характеристик здоровых аудиоданных. Для этого аудиозаписи разделяются на фиксированные сегменты, а затем в эти сегменты применяются структурированные шумы, процессы искажения и другие манипуляции, чтобы эмулировать аномалии. Эти прокси-аномалии используются в качестве значков для оценки моделей, которые стремятся отличить их от здоровых звуков. Базовая модель обучается на здоровых данных, а затем проверяется на прокси-аномалиях. Эта процедура позволяет подбирать модели, которые оптимально распознают реальные аномалии, так как прокси-аномалии подобны им в своем структурном поведении. Такой подход позволяет улучшить выбор моделей и повысить надежность обнаружения аномалий в условиях ограниченных данных. ## Результаты Исследование проводилось на высококачественной коллекции данных, содержащей звуковые записи внутри электрических автомобилей в нормальных и аномальных условиях. Обучение проводилось на здоровых звуковых данных, а модели оценивались на прокси-аномалиях. Эксперименты проводились на 5 типах аномалий: Imbalance, Modulation, Whine, Wind и Pulse Width Modulation. Результаты показали, что модели, выбранные с помощью прокси-аномалий, показали значительно лучшие показатели по отношению к традиционным методам, таким как ошибка воспроизведения. Эти результаты подтвердили эффективность инженерии прокси-аномалий в подборе моделей, которые более точно отличают нормальные звуки от аномалий в условиях сильного недостатка меток. ## Значимость Разработа

Annotation:

The detection of anomalies in automotive cabin sounds is critical for ensuring vehicle quality and maintaining passenger comfort. In many real-world settings, this task is more appropriately framed as an unsupervised learning problem rather than the supervised case due to the scarcity or complete absence of labeled faulty data. In such an unsupervised setting, the model is trained exclusively on healthy samples and detects anomalies as deviations from normal behavior. However, in the absence of ...

ID: 2509.13390v1 cs.SD, cs.AI, cs.CV, cs.LG, eess.AS, I.2.1; I.2.6; I.2.10; I.5.1; I.5.2; J.2; J.7

arXiv PDF

📄 Adversarial Attacks on Audio Deepfake Detection: A Benchmark and Comparative Study

2025-09-11

Авторы:

Kutub Uddin, Muhammad Umar Farooq, Awais Khan, Khalid Mahmood Malik

#### Контекст Генерируемая с помощью искусственного интеллекта аудиосъемка, так называемая deepfake, стала одной из самых мощных технологий в современной цифровой среде. Она используется для подделки голосов, создания подлоговых аудио-видеоматериалов и даже обмана зрителей при помощи реалистичных, но ложной информации. Эта технология нашла применение в различных сферах: от развлечений до серьезных рисков в профессиональных сферах, например, в системах аудиоконференцсвязи, проверке личности по голосу и расследовании преступлений. Однако с этим резко возросло количество атак, направленных на подделку голоса или скрытие глубоких подделок. Эти атаки могут серьезно повлиять на безопасность, доверие к цифровым системам и юридические процессы. #### Метод Мы провели широкий анализ современных методов обнаружения глубоких подделок, посредством которых можно выявить глубокие подделки, использующие генерируемую звуковую информацию. Методика включала в себя два основных подхода: работу над звуковыми сигналами в "родном" формате (без предварительной обработки) и работу над спектрограммами (графическими представлениями звуковых сигналов). Мы использовали пять разных бенчмарк-датасетов, позволяющих протестировать различные методы обнаружения. Наша инфраструктура включала в себя такие подходы, как оптимизационные атаки (FGSM, PGD, C&W) и статистические модификации (например, разносятройка звуков, фильтрация, шум и др.). Мы проводили сравнительный анализ этих методов по метрикам, таким как точность, сенситивность и восстановление предложенных нюансов. #### Результаты Мы выполнили эксперименты на широком спектре глубоких подделок, используя пять разных датасетов. Мы оценивали как нововведения, так и уже существующие подходы к обнаружению глубоких подделок, чтобы понять, какие методы более эффективны в сравнении с другими. Наши результаты показали, что методы, основывающиеся на спектрограммах, показали лучший результат в том случае, когда данные были предварительно обработаны для извлечения закономерностей. Однако они оказались менее устойчивы в условиях атак, направленных на изменение звукового сигнала в "родной" формате. #### Значимость Наши результаты могут быть применены в сферах, где существует риск подделки голоса или глубоких подделок, таких как системы аудиоконференцсвязи, голосовые помощники, системы безопасности и проверка личности по голосу. Методы, разработанные в рамках нашего исследования, могут помочь в разработке более устойчивых систем,

Annotation:

The widespread use of generative AI has shown remarkable success in producing highly realistic deepfakes, posing a serious threat to various voice biometric applications, including speaker verification, voice biometrics, audio conferencing, and criminal investigations. To counteract this, several state-of-the-art (SoTA) audio deepfake detection (ADD) methods have been proposed to identify generative AI signatures to distinguish between real and deepfake audio. However, the effectiveness of these...

ID: 2509.07132v1 cs.SD, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 PianoVAM: A Multimodal Piano Performance Dataset

2025-09-11

Авторы:

Yonghyun Kim, Junhyung Park, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam

#### Контекст Музыкальное исполнение является кросс-модальным процессом, который включает в себя аудио-, визуальные и даже третье-модальные сигналы (например, ритмические или структурные признаки). Однако большинство данных в области музыкальной информационной ретроспективы (MIR) ограничиваются только аудиосигналом, что существенно ограничивает возможности исследователей. Недостаток мультимодальных данных в MIR затрудняет развитие методов, моделей и алгоритмов, которые могли бы более глубоко и адекватно анализировать и понимать глубинные связи между различными модальностями в музыкальном исполнении. #### Метод Dataset PianoVAM представляет собой крупномасштабную коллекцию мультимодальных данных, содержащую видео, аудио, MIDI, ландмарки рук, метки нотного игры и многочисленную метаинформацию. Данные были записаны с помощью Disklavier-пианино, которое запечатлевало аудио и MIDI в режиме реального времени, а также синхронизированно воспроизводил видеозаписи в виде топ-видков. Ландмарки рук и метки нотного игры были извлечены с использованием предобученных моделей рери-позиционирования рук и с помощью специального алгоритма полуавтоматической аннотации игры. Задача сбора данных была связана с рядом технических трудностей, включая синхронизацию различных модальностей, корректную идентификацию рукопашных движений и их соотнесение с музыкальными заметками. #### Результаты На основе данных PianoVAM проводились эксперименты по транскрибированию аудио и видео. Набор данных был разделен на тренировочную, валидационную и тестовую выборку. Метриками оценки выступали точность транскрибирования и F1-меру. Обучение и оценка использовались на основе последних моделей глубокого обучения, таких как Transformer-based модели для видео-аудио транскрибирования. Исследования показали, что мультимодальный подход, включающий видео, избыточно улучшает точность предсказаний в сравнении с моделями, использующими только аудиосигнал. #### Значимость Полученные результаты указывают на важность мультимодальных методов в области MIR, особенно в контексте транскрибирования музыки. Данные PianoVAM могут быть использованы в разработке моделей, которые будут учитывать взаимодействие между звуком, видео и другими модальностями для получения более точных и естественных результатов. Это может быть применено в синтезе музыки, виртуальных пианистов, анализе исполнений и визуальных представлениях музыки, и даже в улучшении интерактивных систем для обучения и исполнения музыки. #### Выводы Представленный PianoV

Annotation:

The multimodal nature of music performance has driven increasing interest in data beyond the audio domain within the music information retrieval (MIR) community. This paper introduces PianoVAM, a comprehensive piano performance dataset that includes videos, audio, MIDI, hand landmarks, fingering labels, and rich metadata. The dataset was recorded using a Disklavier piano, capturing audio and MIDI from amateur pianists during their daily practice sessions, alongside synchronized top-view videos i...

ID: 2509.08800v1 cs.SD, cs.AI, cs.CV, cs.MM, eess.AS

arXiv PDF

📄 Spectral and Rhythm Feature Performance Evaluation for Category and Class Level Audio Classification with Deep Convolutional Neural Networks

2025-09-11

Авторы:

Friedrich Wolf-Monheim

## Контекст Аудиоданные широко используются в различных областях, таких как музыка, речь и среды. Одним из основных задач было решение классификации аудиозаписей по категориям и классам. Для этого применяются различные методы, включая сверточные нейронные сети (CNNs). Однако существуют различия в качестве и точности классификации в зависимости от выбранных функций. Распространенные функции включают mel-scaled spectrograms, MFCC, cyclic tempograms и др. Чтобы определить, какие функции показывают лучший результат, необходимо провести подробный анализ их результатов с использованием CNN. ## Метод Для анализа был использован диапазон функций, включая mel-scaled spectrograms, MFCC, cyclic tempograms и CQT chromagrams. Эти функции были использованы для построения многоканальных изображений в виде входных данных для сверточной нейронной сети. Набор данных ESC-50, содержащий 2000 записей, использовался для тестирования. Оценивались метрики точности, полнота, реколл и F1-меру. CNN была обучена в рамках энд-то-энд-подхода, чтобы определить качество классификации по категориям и классам. ## Результаты По результатам экспериментов, mel-scaled spectrograms и MFCC показали лучший результат в качестве классификации по категориям и классам. Оба показали высокую точность и F1-меру. MFCC лучше всего показались для классификации по классам, в то время как spectrograms оказались эффективными в категоризации. Остальные функции (cyclic tempograms, CQT chromagrams) показали нижнее качество, заметно уступив лидерам. ## Значимость Эти результаты имеют большую значимость для применения CNN в аудиоклассификации. Функции, эффективны в этой работе, могут стать предпочтительными для классификации в различных областях, таких как музыка, речь и среды. Особенно важно использовать MFCC для классификации по классам, так как они показали лучшие результаты. Это может улучшить качество и точность автоматических систем классификации звука. ## Выводы В итоге, методы mel-scaled spectrograms и MFCC оказались наиболее эффективными для классификации аудиоданных по категориям и классам с использованием CNN. В будущем можно расширить исследования, включив дополнительные данные и алгоритмы, чтобы улучшить качество классификации и расширить представление о данных.

Annotation:

Next to decision tree and k-nearest neighbours algorithms deep convolutional neural networks (CNNs) are widely used to classify audio data in many domains like music, speech or environmental sounds. To train a specific CNN various spectral and rhythm features like mel-scaled spectrograms, mel-frequency cepstral coefficients (MFCC), cyclic tempograms, short-time Fourier transform (STFT) chromagrams, constant-Q transform (CQT) chromagrams and chroma energy normalized statistics (CENS) chromagrams ...

ID: 2509.07756v1 cs.SD, cs.AI, cs.CV, cs.LG, eess.AS

arXiv PDF

📄 Ecologically Valid Benchmarking and Adaptive Attention: Scalable Marine Bioacoustic Monitoring

2025-09-09

Авторы:

Nicholas R. Rasmussen, Rodrigue Rizk, Longwei Wang, KC Santosh

## Контекст Устьевый пассивный акустический мониторинг (UPAM) предоставляет богатые данные по пространству и времени для длительного экологического анализа. Однако наличие встроенного шума и сложных зависимостей сигналов ставит под угрозу устойчивость моделей и их общезначимость. Несмотря на то, что мультислойная гладь улучшила локализацию целевых звуков, проблемы, такие как изменчивость изменчивого шума, различные эффекты распространения и смешанные биологические и антропогенные источники, требуют устойчивых архитектур и строгих экологических оценок. Поэтому требуется развитие методов, позволяющих эффективно работать с этими проблемами. ## Метод Разработан новый фреймворк для кросс-валидации, названный GetNetUPAM. Он разделяет данные на отдельные сегменты "сайт-год", сохраняя характеристики записи и обеспечивая, что каждая валидационная партия представляет собой уникальную экологическую подгруппу. Это снижает вероятность переобучения к местным шумам и артефактам сенсоров. Блокировка "сайт-год" включает общую экологическую разнообразность, в то время как классическая кросс-валидация на случайных подмножествах измеряет общую общую общую генерализацию, которая отсутствует в существующих бенчмарках. Используя GetNetUPAM, предлагается модель ARPA-N с адаптивным резолюционным пулингом и вниманием. Адаптивная пульпация с пространственным вниманием расширяет рецептурное поле, ловит крупномасштабную контекстную информацию без избытка параметров. ## Результаты В GetNetUPAM-окружении ARPA-N показала 14,4% увеличение средней точности по сравнению с DenseNet-базлами. Это привело к порядку меньшей вариабельности результатов во всех метриках. Эти результаты доказывают целесообразность ARPA-N в решении проблем устойчивости и общей эффективности моделей в UPAM. ## Значимость Разработанная архитектура и фреймворк могут быть применены в различных задачах мониторинга биоакустики, а также в других областях, где требуется обработка сложных акустических данных. Они обеспечивают более точную и консистентную обработку, что вносит вклад в улучшение оценок экосистем и развитие стоимостно эффективных решений для биоакустического мониторинга. ## Выводы Основным достижением является разработка универсального фреймворка для кросс-валидации и модели с адаптивным вниманием, которые позволяют увеличить точность и стабильность моделей в UPAM. Будущие исследования будут направлены на расширение возможностей модели для обработки более сложных сценариев и включения дополнительных источников данных для

Annotation:

Underwater Passive Acoustic Monitoring (UPAM) provides rich spatiotemporal data for long-term ecological analysis, but intrinsic noise and complex signal dependencies hinder model stability and generalization. Multilayered windowing has improved target sound localization, yet variability from shifting ambient noise, diverse propagation effects, and mixed biological and anthropogenic sources demands robust architectures and rigorous evaluation. We introduce GetNetUPAM, a hierarchical nested cross...

ID: 2509.04682v1 cs.SD, cs.AI, cs.CV, cs.IR, cs.LG, eess.AS

arXiv PDF

Показано 1 - 10 из 11 записей