📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 StereoSync: Spatially-Aware Stereo Audio Generation from Video

2025-10-09

Авторы:

Christian Marinoni, Riccardo Fosco Gramaccioni, Kazuki Shimada, Takashi Shibuya, Yuki Mitsufuji, Danilo Comminiello

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Although audio generation has been widely studied over recent years, video-aligned audio generation still remains a relatively unexplored frontier. To address this gap, we introduce StereoSync, a novel and efficient model designed to generate audio that is both temporally synchronized with a reference video and spatially aligned with its visual context. Moreover, StereoSync also achieves efficiency by leveraging pretrained foundation models, reducing the need for extensive training while maintai...

ID: 2510.05828v1 cs.SD, cs.CV, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 FoleyGRAM: Video-to-Audio Generation with GRAM-Aligned Multimodal Encoders

2025-10-09

Авторы:

Riccardo Fosco Gramaccioni, Christian Marinoni, Eleonora Grassucci, Giordano Cicchetti, Aurelio Uncini, Danilo Comminiello

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this work, we present FoleyGRAM, a novel approach to video-to-audio generation that emphasizes semantic conditioning through the use of aligned multimodal encoders. Building on prior advancements in video-to-audio generation, FoleyGRAM leverages the Gramian Representation Alignment Measure (GRAM) to align embeddings across video, text, and audio modalities, enabling precise semantic control over the audio generation process. The core of FoleyGRAM is a diffusion-based audio synthesis model con...

ID: 2510.05829v1 cs.SD, cs.CV, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 MDD-Net: Multimodal Depression Detection through Mutual Transformer

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст Сегодня депрессия является одной из наиболее распространенных психических расстройств, значительно снижающих качество жизни и ухудшающих эмоциональное и физическое состояние людей. Одним из перспективных подходов к ее диагностике является использование данных социальных сетей, так как они отражают многообразные аспекты человеческого поведения. Несмотря на это, многие текущие методы диагностики депрессии опираются лишь на одну модальность данных, что приводит к несостоятельной оценке и, как следствие, неточному диагностическому результату. Многомодальный подход, включающий в себя морфологию речи и лицевые выражения, может существенно улучшить точность диагностики. Данная работа предлагает MDD-Net — систему, основанную на mutual transformers, для эффективного диагностирования депрессии с применением акустических и визуальных данных. ## Метод MDD-Net состоит из четырех основных модулей: модуля для извлечения акустических признаков, модуля для извлечения визуальных признаков, mutual transformer для вычисления корреляций между признаками и их слияния, а также модуля для детектирования депрессии на основе сгенерированных признаков. Acoustic Feature Extraction Module использует технологию глубокого обучения для извлечения значимых акустических признаков из звуковых файлов. Visual Feature Extraction Module осуществляет выделение визуальных признаков, отражающих эмоциональное состояние, с использованием конвейера из нескольких контрастных слоёв. Mutual Transformer модуль вычисляет корреляции между акустическими и визуальными данными, а также выполняет их слияние для получения комплексных признаковых представлений. Наконец, Detection Layer принимает эти представления и обеспечивает диагностику депрессии с высокой точностью. ## Результаты Для оценки MDD-Net были проведены тщательные эксперименты на D-Vlog Dataset, который содержит акустические и визуальные данные социальных сетей. Эксперименты показали, что система существенно превосходит существующие методы, повышая F1-Score до 17.37% по сравнению с состоянием арту. Эти результаты подтверждают высокую эффективность MDD-Net в диагностике депрессии, демонстрируя преимущества многомодального подхода с использованием mutual transformers. Детальные результаты и полный исходный код доступны на GitHub по ссылке: [https://github.com/rezwanh001/Multimodal-Depression-Detection](https://github.com/rezwanh001/Multimodal-Depression-Detection). ## Значимость Разработанная система может быть применена в области психиатрии и ментального здоровья для повышения точности диагностики депрессии. Её преимущества заключаются в использовании многомодального подхода, улучшающего достоверность диагноза, и в эффективном использова

Annotation:

Depression is a major mental health condition that severely impacts the emotional and physical well-being of individuals. The simple nature of data collection from social media platforms has attracted significant interest in properly utilizing this information for mental health research. A Multimodal Depression Detection Network (MDD-Net), utilizing acoustic and visual data obtained from social media networks, is proposed in this work where mutual transformers are exploited to efficiently extrac...

ID: 2508.08093v1 cs.CV, cs.LG, cs.MM, eess.AS

arXiv PDF