📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

2025-11-26

Авторы:

Huadai Liu, Kaicheng Luo, Wen Wang, Qian Chen, Peiwen Sun, Rongjie Huang, Xiangang Li, Jieping Ye, Wei Xue

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Video-to-Audio (V2A) generation requires balancing four critical perceptual dimensions: semantic consistency, audio-visual temporal synchrony, aesthetic quality, and spatial accuracy; yet existing methods suffer from objective entanglement that conflates competing goals in single loss functions and lack human preference alignment. We introduce PrismAudio, the first framework to integrate Reinforcement Learning into V2A generation with specialized Chain-of-Thought (CoT) planning. Our approach dec...

ID: 2511.18833v2 cs.SD, cs.CV, eess.AS, eess.IV

arXiv PDF

📄 Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes

2025-10-30

Авторы:

Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof, Bastian Sigrist, Philipp Fürnstahl, Matthias Seibold

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Purpose: Surgical scene understanding is key to advancing computer-aided and intelligent surgical systems. Current approaches predominantly rely on visual data or end-to-end learning, which limits fine-grained contextual modeling. This work aims to enhance surgical scene representations by integrating 3D acoustic information, enabling temporally and spatially aware multimodal understanding of surgical environments. Methods: We propose a novel framework for generating 4D audio-visual representa...

ID: 2510.24332v1 cs.SD, cs.CV, eess.AS, eess.IV

arXiv PDF

📄 Towards Reliable Audio Deepfake Attribution and Model Recognition: A Multi-Level Autoencoder-Based Framework

2025-08-09

Авторы:

Andrea Di Pierno, Luca Guarnera, Dario Allegra, Sebastiano Battiato

Аудио deepfakes становятся все более распространенными, создавая значительные проблемы для доверия в цифровых коммуникациях. Несмотря на прогресс в области их обнаружения, подтверждение аудио deepfakes до уровня конкретной генерирующей модели остается недооцененной, но крайне важной задачей. В статье предлагается LAVA (Layered Architecture for Voice Attribution) — расширенная архитектура, основанная на автоэнкодере, для обнаружения deepfakes и их привязки к конкретным моделям. Архитектура включает две классификаторы: Audio Deepfake Attribution (ADA) для определения технологии генерации и Audio Deepfake Model Recognition (ADMR) для идентификации конкретной модели. Для повышения устойчивости к условиям open-set внедрен механизм ограничения доверия. Результаты экспериментов на ASVspoof2021, FakeOrReal и CodecFake показали высокую точность: F1-score ADA превышает 95%, а ADMR — 96.31%. Дополнительные испытания подтвердили высокую надежность LAVA. Фреймворк представляет собой новую линию развития аудио deepfake attribution с подтверждённой эффективностью на публичных бенчмарках.

Annotation:

The proliferation of audio deepfakes poses a growing threat to trust in digital communications. While detection methods have advanced, attributing audio deepfakes to their source models remains an underexplored yet crucial challenge. In this paper we introduce LAVA (Layered Architecture for Voice Attribution), a hierarchical framework for audio deepfake detection and model recognition that leverages attention-enhanced latent representations extracted by a convolutional autoencoder trained solely...

ID: 2508.02521v2 cs.SD, cs.CV, eess.AS

arXiv PDF