📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Huadai Liu, Kaicheng Luo, Wen Wang, Qian Chen, Peiwen Sun, Rongjie Huang, Xiangang Li, Jieping Ye, Wei Xue
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Video-to-Audio (V2A) generation requires balancing four critical perceptual dimensions: semantic consistency, audio-visual temporal synchrony, aesthetic quality, and spatial accuracy; yet existing methods suffer from objective entanglement that conflates competing goals in single loss functions and lack human preference alignment. We introduce PrismAudio, the first framework to integrate Reinforcement Learning into V2A generation with specialized Chain-of-Thought (CoT) planning. Our approach dec...
Авторы:
Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof, Bastian Sigrist, Philipp Fürnstahl, Matthias Seibold
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Purpose: Surgical scene understanding is key to advancing computer-aided and
intelligent surgical systems. Current approaches predominantly rely on visual
data or end-to-end learning, which limits fine-grained contextual modeling.
This work aims to enhance surgical scene representations by integrating 3D
acoustic information, enabling temporally and spatially aware multimodal
understanding of surgical environments.
Methods: We propose a novel framework for generating 4D audio-visual
representa...
Авторы:
Andrea Di Pierno, Luca Guarnera, Dario Allegra, Sebastiano Battiato
Аудио deepfakes становятся все более распространенными, создавая значительные проблемы для доверия в цифровых коммуникациях. Несмотря на прогресс в области их обнаружения, подтверждение аудио deepfakes до уровня конкретной генерирующей модели остается недооцененной, но крайне важной задачей. В статье предлагается LAVA (Layered Architecture for Voice Attribution) — расширенная архитектура, основанная на автоэнкодере, для обнаружения deepfakes и их привязки к конкретным моделям. Архитектура включает две классификаторы: Audio Deepfake Attribution (ADA) для определения технологии генерации и Audio Deepfake Model Recognition (ADMR) для идентификации конкретной модели. Для повышения устойчивости к условиям open-set внедрен механизм ограничения доверия. Результаты экспериментов на ASVspoof2021, FakeOrReal и CodecFake показали высокую точность: F1-score ADA превышает 95%, а ADMR — 96.31%. Дополнительные испытания подтвердили высокую надежность LAVA. Фреймворк представляет собой новую линию развития аудио deepfake attribution с подтверждённой эффективностью на публичных бенчмарках.
Annotation:
The proliferation of audio deepfakes poses a growing threat to trust in
digital communications. While detection methods have advanced, attributing
audio deepfakes to their source models remains an underexplored yet crucial
challenge. In this paper we introduce LAVA (Layered Architecture for Voice
Attribution), a hierarchical framework for audio deepfake detection and model
recognition that leverages attention-enhanced latent representations extracted
by a convolutional autoencoder trained solely...