📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 ProAV-DiT: A Projected Latent Diffusion Transformer for Efficient Synchronized Audio-Video Generation

2025-11-19

Авторы:

Jiahui Sun, Weining Wang, Mingzhen Sun, Yirong Yang, Xinxin Zhu, Jing Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Sounding Video Generation (SVG) remains a challenging task due to the inherent structural misalignment between audio and video, as well as the high computational cost of multimodal data processing. In this paper, we introduce ProAV-DiT, a Projected Latent Diffusion Transformer designed for efficient and synchronized audio-video generation. To address structural inconsistencies, we preprocess raw audio into video-like representations, aligning both the temporal and spatial dimensions between audi...

ID: 2511.12072v1 cs.MM, cs.AI, cs.SD

arXiv PDF

📄 SynthGuard: An Open Platform for Detecting AI-Generated Multimedia with Multimodal LLMs

2025-11-19

Авторы:

Shail Desai, Aditya Pawar, Li Lin, Xin Wang, Shu Hu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Artificial Intelligence (AI) has made it possible for anyone to create images, audio, and video with unprecedented ease, enriching education, communication, and creative expression. At the same time, the rapid rise of AI-generated media has introduced serious risks, including misinformation, identity misuse, and the erosion of public trust as synthetic content becomes increasingly indistinguishable from real media. Although deepfake detection has advanced, many existing tools remain closed-sourc...

ID: 2511.12404v1 cs.MM, cs.AI, cs.SD

arXiv PDF

📄 VGGSounder: Audio-Visual Evaluations for Foundation Models

2025-08-14

Авторы:

Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

## Контекст Аудио-визуальные фундаментальные модели, использующие звуковые и зрительные сигналы, приобретают все большую значимость в области машинного обучения. Одной из ключевых задач в этой области является правильное оценивание понимания таких моделей. Для этого часто используется датасет VGGSound, который представляет собой значительный ресурс для оценки классификации аудио-визуальных сигналов. Однако наш анализ выявил несколько проблем, включая неполную меткацию, пересекающиеся классы и неоднородность между модальностями. Эти ошибки влияют на точность оценки моделей и потенциально приводят к неверным выводам. Чтобы устранить эти недостатки, мы предлагаем VGGSounder — расширенный, перезагруженный датасет с подробными мультимодальными метками, который позволяет проводить более точные исследования. ## Метод VGGSounder является дополнением к VGGSound и представляет собой новый многомерный тестовый набор, основанный на том же наборе видео, но с переоцененными метками. Методология включает перезагрузку меток с целью гарантировать точность и полноту. Мы также ввели новый метрику "модальностная путаница", которая позволяет отслеживать различия в производительности моделей при добавлении дополнительной модальности. Данная метрика позволяет выявлять недостатки моделей, связанные с их несовершенным пониманием мультимодальных сигналов. ## Результаты Мы провели эксперименты с использованием VGGSounder на нескольких знаковых моделях аудио-визуального понимания. Наши результаты показали, что многие модели демонстрируют существенные недостатки в понимании одной или обеих модальностей. Например, мы обнаружили, что при добавлении дополнительной модальности производительность моделей значительно ухудшается из-за существующих несовпадений и пересечений классов. Эти результаты демонстрируют необходимость более точных методов оценки для таких моделей. ## Значимость VGGSounder открывает новые возможности для понимания и оценки аудио-визуальных моделей. Он может использоваться в бенчмарках для проверки новых моделей, а также для изучения проблем, связанных с несовпадением модальностей. Возможно, эта работа может привести к новым алгоритмам, которые будут более эффективно обрабатывать мультимодальные данные. Кроме того, VGGSounder может быть применим в различных областях, таких как аудио-визуальная синтезированная реальность, устройства с аудио-визуальным взаимодействием, и мультимодальная аналитика. ## Выводы Мы представили VGGSounder, переоцененную многомерную метку для VGGSound, которая оптимизирована для точной оценки аудио-визуальных моделей. Наши исследования выявили недоста

Annotation:

The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSound dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSound, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introduce V...

ID: 2508.08237v2 cs.MM, cs.AI, cs.SD

arXiv PDF

📄 VGGSounder: Audio-Visual Evaluations for Foundation Models

2025-08-13

Авторы:

Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

#### Контекст Аудио-визуальные фонд-модели становятся важным инструментом для объединения данных из разных чувств. Однако для их эффективного использования необходима надежная оценка их мультимодального понимания. Несмотря на популярность VGGSounder-датасета в качестве бенчмарка для оценки классификации аудио-визуальных данных, его имеются существенные ограничения. Эти ограничения включают неполную метканию, частичное перекрытие классов и несоответствие модальностей. Эти проблемы деформируют оценку возможностей моделей по распознаванию звука и видео. #### Метод Мы предлагаем VGGSounder, новый аудио-визуальный тестовый набор, который является расширением VGGSound. Данный набор был тщательно переоценен и снабжен подробными метками модальностей, позволяющими проводить точные анализы по отдельности силы каждой модальности. Мы также предлагаем новый метрику, "мешанина модальностей", которая позволяет выявлять ограничения моделей при добавлении дополнительных входных модальностей. #### Результаты Исследования проводились на основе VGGSounder-датасета. Мы проанализировали использование аудио-визуальных моделей и их восприятие разных модальностей. Отчёт о результатах включал анализ полученных показателей и сравнения с другими моделями. Наша метрика "мешанина модальностей" позволила выявить сильные и слабые стороны построенных моделей. #### Значимость Предлагаемый набор данных и методы тестирования открывают новые горизонты для эффективного оценивания фондовых аудио-визуальных моделей. Такие наборы данных являются важной инструментовой базой для развития моделей, которые понимают синергетически данные из разных чувств. В целом, достижение VGGSounder-датасета может способствовать развитию широкого спектра приложений, включая робототехнику, медицину, аудио-визуальные системы видеонаблюдения. #### Выводы Мы установили, что VGGSounder является значительным улучшением для понимания ограничений и сил фондовых моделей аудио-визуального характера. Наш рабочий набор данных и метрика "мешанина модальностей" могут стать ключевыми инструментами для будущих исследований. В будущем мы планируем расширить VGGSounder, включив более наборов задач и сценариев, чтобы обеспечить более глубокое понимание мультимодальных моделей.

Annotation:

The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSounder dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSounder, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introdu...

ID: 2508.08237v1 cs.MM, cs.AI, cs.SD

arXiv PDF

📄 Embedding Alignment in Code Generation for Audio

2025-08-08

Авторы:

Sam Kouteili, Hiren Madhu, George Typaldos, Mark Santolucito

## КОНТЕКСТ И ПРОБЛЕМАТИКА Лингвистически моделированные генеративные модели (LLM) открыли новые горизонты в области творческого кодирования, предлагая упрощенный доступ к синтаксически сложному коду. Особенно в области лайв-кодинга, где музыкальные идеи часто требят быстрого преобразования в код, LLMs могут помочь пользователям сосредоточиться на структирных элементах, а не на технических деталях. Однако, несмотря на этот потенциал, существует ряд проблем, связанных с генерацией уникального и разнообразного кода. Традиционные модели кода генерации страдают от недостатка разнообразия в предложенных решениях, что может ограничивать креативные возможества пользователей. Кроме того, эти модели не способны непосредственно связать сгенерированный код с результирующим аудио, что создает препятствие для понимания как кода влияет на финальный звук. Эта проблема особенно критична в контексте музыкального творчества, где важна точная корреляция между кодом и аудиовыходом. Для решения этой проблемы, необходимо изучить связь между кодовыми и аудио-вложениями (embeddings) в пространстве представлений. Если можно было бы научиться предсказывать, как код будет влиять на аудио, это бы позволило создавать более разнообразные и музыкально значимые варианты кода. Таким образом, целью данного исследования является разработка модели, которая может выравнивать кодовые и аудио-вложения, обеспечивая более насыщенные музыкальные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы, авторы предлагают модель, которая выравнивает кодовые и аудио-вложения, создавая "кодо-аудио" алгоритм выравнивания. Эта модель основывается на идее того, что код может быть представлен в виде вложений (embeddings) в многомерном пространстве, где каждое вложение соответствует определенному звуковому выходу. Модель состоит из двух основных компонентов: сначала, она использует код для предсказания аудио-вложений, а затем выравнивает эти вложения, чтобы создать более диверсифицированные варианты кода. Для этого, исследователи используют нейронные сети, которые обучаются на данных, содержащих пары кода и соответствующих им аудио-выходов. Ключевым моментом в этом подходе является то, что модель не просто генерирует код, но и предсказывает, как этот код будет влиять на аудио. Это позволяет пользователям получать не только код, но и понимать, как он будет звучать. Для достижения этой цели, исследователи также используют техники построения топологии пространства вложений, чтобы понять, как код и аудио соотносятся друг с другом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода, исследователи провели ряд экспериментов. Они использовали набор данных, состоящий из пар кода и соответствующих аудиозаписей, для обучения модели. Данные были сборлены из различных источников, включая репозитории кода и музыкальные проекты, чтобы обеспечить разнообразие и представительность. В ходе экспериментов, исследователи измерили точность предсказаний модели, а также разнообразие сгенерированных кодов. Результаты показали, что модель успешно выравнивала кодовые и аудио-вложения, обеспечивая более разнообразные варианты кода. Кроме того, модель показала высокую точность в предсказании аудио-вложений, что подтвердило эффективность предложенного подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкие практические применения в области творческого кодирования, особенно в лайв-кодинге. Он позволяет музыкантам и разработчикам создавать более разнообразные и творческие музыкальные композиции, не тратя время на рутинные задачи кодирования. Благодаря возможности предсказывать аудио-выходы на основе кода, пользователи могут быстро экспериментировать с различными вариантами, что ускоряет процесс творчества. Кроме того, этот подход может быть использован в областях, где необходимо создавать код для аудио-ориентированных приложений, таких как игры, виртуальная реальность и мультимедиа. Он также может быть полезен в обучении, помогая студентам и начинающим разработчикам понять связь между кодом и аудио. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, данное исследование демонстрирует, что выравнивание кодовых и аудио-вложений может значительно улучшить процесс генерации кода для музыкальных приложений. Модель, предложенная авторами, не только повышает разнообразие сгенерированного кода, но и обеспечивает более глубокое понимание того, как код влияет на аудио. В будущем, этот подход может быть расширен для работы с более сложными музыкальными структурами и для создания еще более точных моделей выравнивания. Также, исследователи могут рассмотреть возможность интеграции этого метода с другими генеративными моделями, чтобы создавать еще более инновационные решения для творческого кодирования.

Annotation:

LLM-powered code generation has the potential to revolutionize creative coding endeavors, such as live-coding, by enabling users to focus on structural motifs over syntactic details. In such domains, when prompting an LLM, users may benefit from considering multiple varied code candidates to better realize their musical intentions. Code generation models, however, struggle to present unique and diverse code candidates, with no direct insight into the code's audio output. To better establish a re...

ID: 2508.05473v1 cs.MM, cs.AI, cs.SD, eess.AS

arXiv PDF