📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Zero-shot image privacy classification with Vision-Language Models

2025-10-14

Авторы:

Alina Elena Baia, Alessio Xompero, Andrea Cavallaro

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

While specialized learning-based models have historically dominated image privacy prediction, the current literature increasingly favours adopting large Vision-Language Models (VLMs) designed for generic tasks. This trend risks overlooking the performance ceiling set by purpose-built models due to a lack of systematic evaluation. To address this problem, we establish a zero-shot benchmark for image privacy classification, enabling a fair comparison. We evaluate the top-3 open-source VLMs, accord...

ID: 2510.09253v1 cs.CV, cs.LG, cs.MM

arXiv PDF

📄 StereoSync: Spatially-Aware Stereo Audio Generation from Video

2025-10-09

Авторы:

Christian Marinoni, Riccardo Fosco Gramaccioni, Kazuki Shimada, Takashi Shibuya, Yuki Mitsufuji, Danilo Comminiello

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Although audio generation has been widely studied over recent years, video-aligned audio generation still remains a relatively unexplored frontier. To address this gap, we introduce StereoSync, a novel and efficient model designed to generate audio that is both temporally synchronized with a reference video and spatially aligned with its visual context. Moreover, StereoSync also achieves efficiency by leveraging pretrained foundation models, reducing the need for extensive training while maintai...

ID: 2510.05828v1 cs.SD, cs.CV, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 FoleyGRAM: Video-to-Audio Generation with GRAM-Aligned Multimodal Encoders

2025-10-09

Авторы:

Riccardo Fosco Gramaccioni, Christian Marinoni, Eleonora Grassucci, Giordano Cicchetti, Aurelio Uncini, Danilo Comminiello

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this work, we present FoleyGRAM, a novel approach to video-to-audio generation that emphasizes semantic conditioning through the use of aligned multimodal encoders. Building on prior advancements in video-to-audio generation, FoleyGRAM leverages the Gramian Representation Alignment Measure (GRAM) to align embeddings across video, text, and audio modalities, enabling precise semantic control over the audio generation process. The core of FoleyGRAM is a diffusion-based audio synthesis model con...

ID: 2510.05829v1 cs.SD, cs.CV, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters

2025-09-25

Авторы:

Pin-Yen Chiu, I-Sheng Fang, Jun-Cheng Chen

#### Контекст Синтез изображений и видео посредством развитых моделей размытия (diffusion models) продемонстрировал заметный прогресс в области графического дизайна и генерации контента. Однако, несмотря на достижения в области синтеза изображений, остается вызов создания эффективных и гибких методов для контроля над текстовыми признаками. Одним из ключевых задач развития является достижение точного и прозрачного управления (fine-grained control) зависимостей между текстовыми признаками и результирующими изображениями. Существующие подходы, такие как Concept Slider и Attribute Control, требуют значительных ресурсов для обучения, ограничивая их производительность и повторное использование. Необходимость в этих преимуществах привела к разработке Text Slider — нового подхода, который устраняет ограничения существующих методов. #### Метод Text Slider представляет собой новую архитектуру, основанную на LoRA (Low-Rank Adaptation), которая позволяет модифицировать текстовые признаки в предварительно обученной модели текстового энкодера без необходимости долговременного обучения. Эта архитектура строится на том, чтобы идентифицировать низкоранговые направления в представлении текста, которые соответствуют конкретным визуальным признакам. Текстовый энкодер взаимодействует с моделью размытия с помощью этих адаптированных слайдеров, позволяя гибким и мгновенным изменению текстовых признаков в реальном времени. Данная методология позволяет сохранить прозрачность и поддерживать структуру входных данных, не требуя дорогостоящей переучетки модели. #### Результаты Результаты экспериментов показали, что Text Slider превосходит существующие подходы в эффективности. Он обеспечивает 5-кратное ускорение обучения по сравнению с Concept Slider и 47-кратное ускорение по сравнению с Attribute Control. Также, Text Slider требует гораздо меньшего количества памяти GPU, что позволяет его легко адаптировать к различным моделям размытия без дополнительных изменений. Эксперименты подтвердили, что Text Slider обеспечивает управление несколькими признаками с высоким качеством и насыщенностью, позволяя визуально очищать изображения и видео, сохраняя их структуру. #### Значимость Проект Text Slider может быть применен в различных областях, включая графический дизайн, видеомонтаж, приложения в реальном времени и образовательный контент. Его основные преимущества заключаются в том, что он предлагает более высокую производительность, гибкость и экономичность по сравнению с предыдущими подходами. В целом, это предлагает новые возможности для пользователей, позволяя легко управлять визуальными свойствами в реальном времени, в том числе для глубокой настройки

Annotation:

Recent advances in diffusion models have significantly improved image and video synthesis. In addition, several concept control methods have been proposed to enable fine-grained, continuous, and flexible control over free-form text prompts. However, these methods not only require intensive training time and GPU memory usage to learn the sliders or embeddings but also need to be retrained for different diffusion backbones, limiting their scalability and adaptability. To address these limitations,...

ID: 2509.18831v1 cs.GR, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 PhysHDR: When Lighting Meets Materials and Scene Geometry in HDR Reconstruction

2025-09-24

Авторы:

Hrishav Bakul Barua, Kalin Stefanov, Ganesh Krishnasamy, KokSheik Wong, Abhinav Dhall

#### Контекст Область исследования включает в себя задачу перевода Low Dynamic Range (LDR) в High Dynamic Range (HDR), которая является фундаментальной для многих приложений в области вычислительной графики и компьютерного зрения. Существующие методы, основанные на глубоких нейронных сетях, сталкиваются с ограничениями, так как не полностью учитывают взаимодействие световых характеристик, материалов и геометрии сцены. Эти факторы существенно влияют на точность и качество полученных HDR-изображений. В статье предлагается исследовать новый подход, который призван улучшить точность HDR-реконструкции, учитывая эти составляющие. #### Метод В ходе работы предложен метод под названием **PhysHDR**, основанный на технологии латентной диффузии. Он использует сверточные модели для денойсинга LDR-изображений с учетом информации о свете, глубине и материалах. Модель включает оригинальный генеративный процесс, который учитывает не только яркость и цвет, но и отражение и рассеяние света на различных материалах. Архитектура модели включает слои для учитывания материальных свойств и интеграции информации о глубине и отражении света. Это позволяет создавать более точные и физически достоверные HDR-изображения. #### Результаты В экспериментах использовались широкие данные LDR-HDR с различными материалами и световыми условиями. Метод PhysHDR был сравнен с несколькими современными методами, включая GAN-оптимизированные модели и синтетические методы. Результаты показали, что PhysHDR превосходит другие методы по метрикам качества и точности HDR-реконструкции. Особое внимание было уделено измерению визуального качества интерполированных HDR-изображений, где PhysHDR показал существенное преимущество. #### Значимость Предложенный подход может быть применен в различных областях, таких как виртуальная реальность, игровая индустрия, а также в приложениях для смартфонов и дронов. Одним из ключевых преимуществ является увеличение точности HDR-реконструкции за счет учета материальных свойств. Это может привести к более реалистичным изображениям в приложениях, где HDR-технологии играют ключевую роль. В будущем можно предположить расширение применения этой модели в автоматизированные системы, включающие в себя технологии распознавания и визуализации. #### Выводы PhysHDR доказал свою эффективность в HDR-реконструкции, обеспечивая более точные и физически достоверные результаты по сравнению с современными методами. Он подчеркнул важность учета материальных свойств и световых характеристик при реконструкции HDR-изображений. Будущими направлениями иссле

Annotation:

Low Dynamic Range (LDR) to High Dynamic Range (HDR) image translation is a fundamental task in many computational vision problems. Numerous data-driven methods have been proposed to address this problem; however, they lack explicit modeling of illumination, lighting, and scene geometry in images. This limits the quality of the reconstructed HDR images. Since lighting and shadows interact differently with different materials, (e.g., specular surfaces such as glass and metal, and lambertian or dif...

ID: 2509.16869v1 cs.GR, cs.AI, cs.CV, cs.LG, cs.MM, eess.IV, Artificial intelligence, Computer vision, Machine learning, Deep learning, I.3.3; I.4.5

arXiv PDF

📄 ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine

2025-08-22

Авторы:

Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang

#### Контекст Классические знания о традиционной китайской медицине (TCM), основанные на глубокой теоретической базе, весьма ценны для понимания и корректного применения этого направления в лечении. Однако существуют две основные проблемы: отсутствие достаточного количества высококачественных данных для обучения и высокая многомодальность TCM, включающей в себя такие сенсорные модели, как видение, слух, осязание и даже сенсорное восприятие пульса. Традиционные трансформации текста не могут успешно решить эти задачи. Из-за этого LLMs (large language models), несмотря на их успех в других областях, пока не применимы для решения проблем в области TCM. Мы предлагаем ShizhenGPT - первый мультимодальный LLM, разработанный специально для решения проблем в области Традиционной китайской медицины. #### Метод ShizhenGPT разрабатывается на основе предварительной обученной модели LLMs, которая получила многомодальные данные, включая текстовые данные, изображения, аудио и даже физиологические сигналы. Мы сформировали одну из крупнейших коллекций данных в сфере Традиционной китайской медицины, состоящую из 100 ГБ текстовых данных и 200 ГБ мультимодальных данных. Данные включают 1,2 миллиона изображений, 200 часов аудио и физиологические сигналы. Модель ShizhenGPT была обучена на этих данных с использованием предварительной обученной модели LLMs и инструментами обучения с помощью инструкций. Это позволило модели не только получать глубокие знания о Традиционной китайской медицине, но также производить мультимодальный анализ. #### Результаты Мы проверили ShizhenGPT на крупнейших национальных экзаменах по квалификации в области Традиционной китайской медицины. Также был создан визуальный бенчмарк для оценки визуального распознавания и диагностики лекарственных средств. Эксперименты показали, что ShizhenGPT оказалась выигрышной в сравнении с соревнующимися моделями различных масштабов и даже с более крупными моделями, которые имеют доступ к большим ресурсам. Особенно важно отметить, что ShizhenGPT проявила лучшую способность к визуальному распознаванию в TCM, включая распознавание медикаментов по их визуальным свойствам, и демонстрирует гармоничное восприятие данных в разных модальностях, таких как звук, пульс, запах и визуальные сигналы. #### Значимость Мы видим широкие возможности применения ShizhenGPT в области Традиционной китайской медицины. Эта модель может использоваться в области диагностики, лечения, учебных программ и проектах по изучению Традиционной китайской медицины. Широкий спектр модальностей, которые модель может об

Annotation:

Despite the success of large language models (LLMs) in various domains, their potential in Traditional Chinese Medicine (TCM) remains largely underexplored due to two critical barriers: (1) the scarcity of high-quality TCM data and (2) the inherently multimodal nature of TCM diagnostics, which involve looking, listening, smelling, and pulse-taking. These sensory-rich modalities are beyond the scope of conventional LLMs. To address these challenges, we present ShizhenGPT, the first multimodal LLM...

ID: 2508.14706v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 MIND: A Noise-Adaptive Denoising Framework for Medical Images Integrating Multi-Scale Transformer

2025-08-14

Авторы:

Tao Tang, Chengxu Yang

## Контекст Медицинские изображения являются ключевым инструментом в диагностике заболеваний, а их качество имеет прямое влияние на точность клинических оценок. Однако существуют несколько факторов, которые приводят к появлению шума в изображениях, такие как недостаточное дозирование при сканировании, ограничения оборудования и визуальные артефакты. Эти факторы приводят к неровному шуму, который серьезно сказывается на распознавании структур и обнаружении недугов. Для решения этой проблемы требуется эффективный подход к денойсингу медицинских изображений, который мог бы улучшить качество изображений и облегчить взаимодействие с ими в процессе диагностики и лечения. ## Метод Модель MI-ND представляет собой новую модель денойсинга медицинских изображений, использующую многомерную архитектуру, включающую конволюционные слои и Transformer. Она включает в себя два основных компонента: нивелятор шума (NLE) и модуль адаптивного внимания (NAAB). NLE оценивает уровень шума в изображении, а NAAB регулирует внимание канала и пространственное построение изображений. Эти модули работают вместе для достижения лучшего восстановления структур и стабильности изображений, даже при наличии шума. Метод также использует кросс-модальную функцию слияния, чтобы обеспечить устойчивость к различным видам шума и кросс-модальным изменениям. ## Результаты Исследования проводились на нескольких многомодальных общедоступных наборах данных. Эксперименты показали, что MI-ND значительно превосходит конкурирующие методы по таким показателям как PSNR, SSIM и LPIPS. Она также повышает F1-меру и ROC-AUC в задачах диагностики, что демонстрирует ее сильную практическую ценность и потенциал для улучшения медицинских изображений. В частности, MI-ND эффективно восстанавливает структуры, повышает чувствительность диагностики и демонстрирует кросс-модальную устойчивость. Эти результаты подтверждают высокую эффективность модели в решении проблем, связанных с шумом в медицинских изображениях. ## Значимость Модель MI-ND может применяться в различных областях медицинской информатики, включая диагностику, лечение и оценку качества изображений. Ее преимущества заключаются в том, что она обеспечивает точное восстановление структур, улучшает чувствительность диагностики и демонстрирует высокую устойчивость к разным видам шума. Эти достижения могут способствовать улучшению качества диагностики, облегчению процессу лечения и повышению уровня доступности медицинских услуг. Будущие исследования будут сосредоточены на улучшении модели для б

Annotation:

The core role of medical images in disease diagnosis makes their quality directly affect the accuracy of clinical judgment. However, due to factors such as low-dose scanning, equipment limitations and imaging artifacts, medical images are often accompanied by non-uniform noise interference, which seriously affects structure recognition and lesion detection. This paper proposes a medical image adaptive denoising model (MI-ND) that integrates multi-scale convolutional and Transformer architecture,...

ID: 2508.07817v2 eess.IV, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 MDD-Net: Multimodal Depression Detection through Mutual Transformer

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст Сегодня депрессия является одной из наиболее распространенных психических расстройств, значительно снижающих качество жизни и ухудшающих эмоциональное и физическое состояние людей. Одним из перспективных подходов к ее диагностике является использование данных социальных сетей, так как они отражают многообразные аспекты человеческого поведения. Несмотря на это, многие текущие методы диагностики депрессии опираются лишь на одну модальность данных, что приводит к несостоятельной оценке и, как следствие, неточному диагностическому результату. Многомодальный подход, включающий в себя морфологию речи и лицевые выражения, может существенно улучшить точность диагностики. Данная работа предлагает MDD-Net — систему, основанную на mutual transformers, для эффективного диагностирования депрессии с применением акустических и визуальных данных. ## Метод MDD-Net состоит из четырех основных модулей: модуля для извлечения акустических признаков, модуля для извлечения визуальных признаков, mutual transformer для вычисления корреляций между признаками и их слияния, а также модуля для детектирования депрессии на основе сгенерированных признаков. Acoustic Feature Extraction Module использует технологию глубокого обучения для извлечения значимых акустических признаков из звуковых файлов. Visual Feature Extraction Module осуществляет выделение визуальных признаков, отражающих эмоциональное состояние, с использованием конвейера из нескольких контрастных слоёв. Mutual Transformer модуль вычисляет корреляции между акустическими и визуальными данными, а также выполняет их слияние для получения комплексных признаковых представлений. Наконец, Detection Layer принимает эти представления и обеспечивает диагностику депрессии с высокой точностью. ## Результаты Для оценки MDD-Net были проведены тщательные эксперименты на D-Vlog Dataset, который содержит акустические и визуальные данные социальных сетей. Эксперименты показали, что система существенно превосходит существующие методы, повышая F1-Score до 17.37% по сравнению с состоянием арту. Эти результаты подтверждают высокую эффективность MDD-Net в диагностике депрессии, демонстрируя преимущества многомодального подхода с использованием mutual transformers. Детальные результаты и полный исходный код доступны на GitHub по ссылке: [https://github.com/rezwanh001/Multimodal-Depression-Detection](https://github.com/rezwanh001/Multimodal-Depression-Detection). ## Значимость Разработанная система может быть применена в области психиатрии и ментального здоровья для повышения точности диагностики депрессии. Её преимущества заключаются в использовании многомодального подхода, улучшающего достоверность диагноза, и в эффективном использова

Annotation:

Depression is a major mental health condition that severely impacts the emotional and physical well-being of individuals. The simple nature of data collection from social media platforms has attracted significant interest in properly utilizing this information for mental health research. A Multimodal Depression Detection Network (MDD-Net), utilizing acoustic and visual data obtained from social media networks, is proposed in this work where mutual transformers are exploited to efficiently extrac...

ID: 2508.08093v1 cs.CV, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 MIND: A Noise-Adaptive Denoising Framework for Medical Images Integrating Multi-Scale Transformer

2025-08-13

Авторы:

Tao Tang, Chengxu Yang

## Контекст В области медицинской имейджинга высокая точность диагностики и терапии зависит от качества изображений. Однако, из-за таких факторов, как низкодозная съемка, ограничения оборудования и импульсные искажения, медицинские изображения часто подвержены неоднородному шуму, который сильно сказывается на распознавании структур и обнаружении поражений. Это существенно снижает качество клинической оценки и последующих диагностических задач. Для решения этой проблемы необходимо разработать мощный метод адаптивного денойсинга, который бы учитывал многомерные особенности шума и повышал чувствительность диагностики. ## Метод Предлагаемый фреймворк MIND (Noise-Adaptive Denoising Framework for Medical Images) основывается на сочетании мульти-скайла конволюционных и Transformer-архитектур. Основные компоненты: Noise Level Estimator (NLE), который оценивает градации шума на уровне каналов, и Noise Adaptive Attention Module (NAAB), реализующий кросс-канальное внимание и фузирование спектрально-пространственных признаков. Модель использует сильно выраженный канально-пространственный регулятор при помощи преобразований, взвешенных в соответствии с генерируемым шумом. Данная архитектура позволяет реализовать эффективное кросс-модальное обучение и адаптацию к различным типам шумов в медицинских изображениях. ## Результаты Систематические эксперименты проводились на многомодальных публичных датасетах, включая традиционные и специальные модели шума. Исследования показали, что MIND существенно превосходит существующие методы по таким показателям как PSNR, SSIM и LPIPS, а также повышает F1-меру и ROC-AUC в задачах диагностики. Это свидетельствует о высоком качестве восстановления структур и улучшении значимости диагностических результатов. Модель показала себя как гибкое и эффективное решение для улучшения медицинских изображений и поддержки AI-помощи в клинических задачах. ## Значимость Предложенный подход имеет большое практическое значение в медицинской имейджинге. Он повышает точность диагностики, значительно повышает чувствительность к деталям в изображениях и поддерживает кросс-модальную устойчивость. Это открывает широкие возможности для роботов-диагностиков, повышения эффективности лечения и новых возможностей в нейромашинных исследованиях. Будущие исследования будут нацелены на повышение скорости модели, а также на расширение ее применения к нестандартным типам шумов и более сложным диагностическим сценариям. ## Выводы Разработанный фреймворк MIND доказал свою эффективность в адаптивном денойсинге медицинских и

Annotation:

ID: 2508.07817v1 eess.IV, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models

2025-08-09

Авторы:

Zizhan Ma, Wenxuan Wang, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Wenting Chen, Linlin Shen

**Резюме** Появление больших языковых моделей (LLMs) в области медицины открыло новые возможности, но остается спорным из-за недостатка надежности оценочных бенчмарков. Большинство таких бенчмарков либо недостаточно приближены к реальной клинической практике, либо страдают от проблем с данными, такими как попадание контролируемых случаев в обучающие выборки. Для устранения этих проблем авторы предлагают MedCheck — первую разработку, ориентированную на жизненный цикл бенчмарков, с целью глубокого анализа их качества. MedCheck включает 46 критериев, разделенных на 5 этапов жизненного цикла бенчмарков, начиная от разработки и заканчивая государственным управлением. Исследователи применяют MedCheck к 53 LLM-бенчмаркам, выявляя серьезные проблемы, включая отсутствие связи с клинической практикой, риски данных из-за негативного воздействия и недостаток оценки стойкости моделей и их понимания неопределенности. Результаты показывают, что MedCheck может стать мощным инструментом для оценки и улучшения бенчмарков, способствуя более надежной и транспаренной оценке AI в медицине.

Annotation:

Large language models (LLMs) show significant potential in healthcare, prompting numerous benchmarks to evaluate their capabilities. However, concerns persist regarding the reliability of these benchmarks, which often lack clinical fidelity, robust data management, and safety-oriented evaluation metrics. To address these shortcomings, we introduce MedCheck, the first lifecycle-oriented assessment framework specifically designed for medical benchmarks. Our framework deconstructs a benchmark's dev...

ID: 2508.04325v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

Показано 11 - 20 из 20 записей