📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling

2025-08-06

Авторы:

Xinlei Yu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Ruolin Shen, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Shuicheng Yan

**Резюме:** Существующие vision-language модели (VLMs) имеют ограничения в параметрах, ограниченные возможности самокоррекции и сниженную эффективность при работе с длинными визуальными контекстами и сложным логическим выводом, что приводит к неудовлетворительному результату на задачах, связанных с документами. Для решения этой проблемы был предложен MACT — Multi-Agent Collaboration framework с test-time scaling, разработанный для визуального понимания документов и визуального ответа на вопросы (VQA). MACT состоит из четырех малых агентов с четкими ролями: планирование, выполнение, оценка и ответ. Особенностью является judgment agent, который проверяет корректность и направляет задачу на доработку к предыдущим агентам, что является более эффективным по сравнению с традиционными методами коррекции. Дополнительно, используется mixed reward modeling для балансировки агентских и глобальных целей, а также agent-wise hybrid test-time scaling, адаптирующий стратегии масштабирования для каждого агента в зависимости от их функций. Эксперименты показали, что MACT превосходит существующие модели в задачах с длинными контекстами и сложным логическим выводом, показывая высокую эффективность при меньшем количестве параметров. Три варианта MACT занимают лидирующие позиции в средних баллах на 13 из 15 тестов.

Annotation:

Existing vision-language models (VLMs), whether generalists or specialists, remain constrained by their parameter scale, lack robust self-correction capabilities, and underperform in tasks involving long visual contexts and complex reasoning, resulting in suboptimal performance on document-based tasks. To address this, we propose MACT, a Multi-Agent Collaboration framework with Test-Time scaling, tailored for visual document understanding and visual question answering (VQA). It comprises four di...

ID: 2508.03404v1 cs.CV, cs.AI

arXiv PDF

📄 SlotMatch: Distilling Temporally Consistent Object-Centric Representations for Unsupervised Video Segmentation

2025-08-06

Авторы:

Diana-Nicoleta Grigore, Neelu Madan, Andreas Mogelmose, Thomas B. Moeslund, Radu Tudor Ionescu

В статье представлена **SlotMatch**, фреймворк для улучшения управляемого видеосегментации с помощью легковесного студентского модели. Основная проблема состоит в том, что современные модели, основанные на slot attention, требуют больших вычислительных ресурсов. Для решения этой задачи SlotMatch использует механизм knowledge distillation для передачи объектно-центрированных представлений от большого учительского модели к легковесному студенту. Это достигается путем выравнивания соответствующих слотов учителя и студента через косинусное сходство, без необходимости дополнительных целей или надзора. Эксперименты на двух датасетах показали, что студент SlotMatch не только сопоставим с учителем SlotContrast, но и превзойдет его, используя в 3,6 раза меньше параметров и работая в 1,9 раза быстрее. Кроме того, студент SlotMatch превосходит предыдущие модели для управляемой видеосегментации.

Annotation:

Unsupervised video segmentation is a challenging computer vision task, especially due to the lack of supervisory signals coupled with the complexity of visual scenes. To overcome this challenge, state-of-the-art models based on slot attention often have to rely on large and computationally expensive neural architectures. To this end, we propose a simple knowledge distillation framework that effectively transfers object-centric representations to a lightweight student. The proposed framework, cal...

ID: 2508.03411v1 cs.CV, cs.AI

arXiv PDF

📄 Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN

2025-08-06

Авторы:

Shivangi Nigam, Adarsh Prasad Behera, Shekhar Verma, P. Nagabhushan

В статье представлен Fd-CycleGAN, инновационный фреймворк для задач image-to-image (I2I) трансляции, направленный на улучшение обучения латентных представлений для более точного аппроксимации реальных распределений данных. Основываясь на CycleGAN, Fd-CycleGAN интегрирует Local Neighborhood Encoding (LNE) и частотно-ориентированное наблюдение, что позволяет захватывать тонкие локальные семантические характеристики пикселей и сохранять структурную целостность исходного домена. Используя метрики потерь на основе распределений, такие как KL/JS дивергенция и логарифмические меры схожести, Fd-CycleGAN явно оценивает соответствие между реальными и сгенерированными распределениями изображений в пространственной и частотной областях. Эксперименты на различных датасетах (Horse2Zebra, Monet2Photo, Strike-off) показывают, что Fd-CycleGAN превосходит базовый CycleGAN и другие современные методы по характеристикам качества восприятия, скорости сходимости и разнообразия режимов, особенно в условиях ограниченных данных. Результаты подтверждают, что частотно-ориентированное обучение латентных представлений значительно улучшает общее качество трансляции изображений, с многообещающими применениями в областях документного восстановления, художественного стилевого переноса, и синтеза медициных изображений. Также, в статье представлены сравнительные анализы с диффузионными генеративными моделями, выделяя преимущества Fd-CycleGAN по тренировочной эффективности и качеству вывода.

Annotation:

This paper presents Fd-CycleGAN, an image-to-image (I2I) translation framework that enhances latent representation learning to approximate real data distributions. Building upon the foundation of CycleGAN, our approach integrates Local Neighborhood Encoding (LNE) and frequency-aware supervision to capture fine-grained local pixel semantics while preserving structural coherence from the source domain. We employ distribution-based loss metrics, including KL/JS divergence and log-based similarity m...

ID: 2508.03415v1 cs.CV, cs.AI, cs.GR

arXiv PDF

📄 R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation

2025-08-06

Авторы:

Futian Wang, Yuhan Qiao, Xiao Wang, Fuling Wang, Yuxiang Zhang, Dengdi Sun

**Резюме:** Генерация медицинских отчётов на основе рентгеновских изображений является важной задачей в применении искусственного интеллекта в медицине. Однако существующие методы страдают от проблем, таких как генерация недостоверной информации (hallucination) и ограниченные способности к диагностике заболеваний. В этой работе авторы предлагают R2GenKG — иерархический многомодальный знаний граф (M3KG), построенный на основе данных медицинских отчётов с помощью GPT-4. Граф содержит 2477 сущностей, три типа отношений, 37 424 тройки и 6943 диагностически ориентированных визуальных токенов для датасета CheXpert Plus. Для извлечения визуальных признаков используется Swin-Transformer, который взаимодействует с графом через кросс-атенцию. Для генерации текста применяется большой языковой модель, которая отображает знания графа, визуальные признаки и диагностические токены в естественный язык. Результаты экспериментов на различных датасетах подтверждают высокую эффективность предложенного подхода в улучшении качества генерации отчётов и диагностики заболеваний.

Annotation:

X-ray medical report generation is one of the important applications of artificial intelligence in healthcare. With the support of large foundation models, the quality of medical report generation has significantly improved. However, challenges such as hallucination and weak disease diagnostic capability still persist. In this paper, we first construct a large-scale multi-modal medical knowledge graph (termed M3KG) based on the ground truth medical report using the GPT-4o. It contains 2477 entit...

ID: 2508.03426v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Spatial Imputation Drives Cross-Domain Alignment for EEG Classification

2025-08-06

Авторы:

Hongjun Liu, Chao Yao, Yalan Zhang, Xiaokun wang, Xiaojuan Ban

**Резюме:** Классификация сигналов электроэнцефалограммы (EEG) сталкивается с серьезными трудностями, вызванными различиями в конфигурациях электродов, протоколах сбора данных и аппаратуре различных доменов. В этой работе представлена модель **IMAC**, которая решает эту проблему путем выравнивания кросс-доменных данных через задачу импуции (заполнения пропусков) пространственных временных рядов. IMAC выравнивает разнородные конфигурации электродов с помощью метода унификации пространственных представлений, основанного на 3D-to-2D маппинге. Отличительной особенностью является введение channel-dependent масок и реконструкции сигнала в виде задачи импуции с низкого разрешения на высокое. Этот подход эмулирует реальные различия между доменами, такие как отсутствие каналов и временные нестабильности, обеспечивая робастность модели. Дополнительно, IMAC использует дескрипторную структуру для раздельного моделирования пространственной и временной информации, что повышает эффективность и адаптивность. Результаты на 10 открытых наборах данных показывают, что IMAC достигает лучших показателей классификации в кросс-субъектном и кросс-центровом сценариях, превосходя базовые методы на до 35% по метрике целостности и показывая высокую стабильность при реальных и имитированных распределениях. **(145 слов)**

Annotation:

Electroencephalogram (EEG) signal classification faces significant challenges due to data distribution shifts caused by heterogeneous electrode configurations, acquisition protocols, and hardware discrepancies across domains. This paper introduces IMAC, a novel channel-dependent mask and imputation self-supervised framework that formulates the alignment of cross-domain EEG data shifts as a spatial time series imputation task. To address heterogeneous electrode configurations in cross-domain scen...

ID: 2508.03437v1 cs.CV, cs.AI, 62M10, I.5.1; J.3

arXiv PDF

📄 VideoGuard: Protecting Video Content from Unauthorized Editing

2025-08-06

Авторы:

Junjie Cao, Kaizhou Li, Xinchun Yu, Hongxiang Li, Xiaoping Zhang

В последнее время генеративные модели достигли высоких результатов в генерации и редактировании цифрового контента, но их злоупотребление может привести к распространению вводящей в заблуждение информации. Несмотря на существование методов защиты фотографических изображений от несанкционерного редактирования, видеоконтент остаётся менее защищённым. Для решения этой проблемы предлагается VideoGuard — метод защиты видеоконтента от неавторизованных редактирований. Защита основывается на введении малозаметных пертурбаций, которые нарушают работу генеративных моделей диффузии. Учитывая избыточность между кадрами и механизмы внимания межкадрового характера в моделях видеодиффузии, VideoGuard использует совместную оптимизацию кадров и интегрирует в них движенческую информацию. Это позволяет гарантировать, что модели будут генерировать неконсистентные или неправдоподобные результаты. Метод показал высокую эффективность по сравнению с существующими подходами, подтверждая свою преимущественную роль в защите видеоконтента.

Annotation:

With the rapid development of generative technology, current generative models can generate high-fidelity digital content and edit it in a controlled manner. However, there is a risk that malicious individuals might misuse these capabilities for misleading activities. Although existing research has attempted to shield photographic images from being manipulated by generative models, there remains a significant disparity in the protection offered to video content editing. To bridge the gap, we pro...

ID: 2508.03480v1 cs.CV, cs.AI

arXiv PDF

📄 Draw Your Mind: Personalized Generation via Condition-Level Modeling in Text-to-Image Diffusion Models

2025-08-06

Авторы:

Hyungjin Kim, Seokho Ahn, Young-Duk Seo

**Резюме** Персонализированная генерация в моделях типа Text-to-Image (T2I) с диффузионными моделями направлена на то, чтобы учесть предпочтения конкретных пользователей в процессе генерации, при этом свести к минимуму необходимость их участия. Тем не менее, современные подходы зачастую основываются на моделировании на уровне текстовых запросов (prompt-level) с помощью крупномасштабных моделей, что ограничивает эффективность персонализации из-за ограниченной емкости входных токенов в моделях T2I. Чтобы решить эту проблему, была разработка метода DrUM, который интегрирует пользовательский профиль с помощью адаптера на базе трансформера для моделирования на уровне условий (condition-level) в латентном пространстве. Этот подход обеспечивает высокую эффективность на крупных датасетах и легко интегрируется с открытыми текстовыми декодерами, совместимыми с популярными фундаментальными моделями T2I, не требуя дополнительной файн-тюнинга.

Annotation:

Personalized generation in T2I diffusion models aims to naturally incorporate individual user preferences into the generation process with minimal user intervention. However, existing studies primarily rely on prompt-level modeling with large-scale models, often leading to inaccurate personalization due to the limited input token capacity of T2I diffusion models. To address these limitations, we propose DrUM, a novel method that integrates user profiling with a transformer-based adapter to enabl...

ID: 2508.03481v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models

2025-08-06

Авторы:

Dasol Choi Jihwan Lee, Minjae Lee, Minsuk Kahng

**Резюме:** В статье рассматривается проблема демографических предубеждений в объектах, генерируемых моделями text-to-image. Несмотря на то, что предыдущие исследования фокусировались в основном на биасе в демографической характеристике людей, авторы раскрывают более тонкую проблему — стереотипы в визуальных атрибутах объектов, таких как автомобили. Для этого был разработан новый фреймворк SODA (Stereotyped Object Diagnostic Audit), который позволяет систематически измерять такие биаси. Анализ 2700 изображений, сгенерированных тремя современными моделями (GPT Image-1, Imagen 4, Stable Diffusion) в пяти категориях объектов, показал сильную ассоциацию между демографическими признаками (такими как пол или этническая принадлежность) и визуальными чертами объектов. Обнаруженные стереотипы отражают и усиливают социально-культурные представления, в том числе самые тонкие и неочевидные. Также было выявлено, что некоторые модели генерируют менее разнообразные выходные данные, что усиливает различия в визуальных атрибутах. Результаты показывают, что SODA может стать эффективным инструментом для выявления и коррекции стереотипных биасов в моделях генеративного AI.

Annotation:

While prior research on text-to-image generation has predominantly focused on biases in human depictions, we investigate a more subtle yet pervasive phenomenon: demographic bias in generated objects (e.g., cars). We introduce SODA (Stereotyped Object Diagnostic Audit), a novel framework for systematically measuring such biases. Our approach compares visual attributes of objects generated with demographic cues (e.g., "for young people'') to those from neutral prompts, across 2,700 images produced...

ID: 2508.03483v1 cs.CV, cs.AI

arXiv PDF

📄 Retinal Lipidomics Associations as Candidate Biomarkers for Cardiovascular Health

2025-08-06

Авторы:

Inamullah, Imran Razzak, Shoaib Jameel

Несмотря на признание ретинальной микрососудистой архитектуры как окна в системное здоровье, механизмы, связывающие её с липидным профилем крови, оставались неизученными. Авторы анализировали 10 DL-извлечённых вазографических признаков и 4 класса сывороточных липидов (FA, DAG, TAG, CE) в когорте 8 000 здоровых взрослых. Применив корреляционный анализ с FDR-регулировкой, они показали: свободные жирные кислоты предсказывают извилистость сосудов, холестериловые эфиры — средний диаметр артерий и вен, а DAG/TAG обратно коррелировали с шириной и сложностью артериолярной сети. Работа впервые демонстрирует, что ретинальные DL-трейты отражают конкретные липидные сигнатуры, что открывает путь к неинвазивному скринингу метаболического риска задолго до клинических проявлений.

Annotation:

Retinal microvascular imaging is increasingly recognised as a non invasive method for evaluating systemic vascular and metabolic health. However, the association between lipidomics and retinal vasculature remains inadequate. This study investigates the relationships between serum lipid subclasses, free fatty acids (FA), diacylglycerols (DAG), triacylglycerols (TAG), and cholesteryl esters (CE), and retinal microvascular characteristics in a large population-based cohort. Using Spearman correlati...

ID: 2508.03538v1 cs.CV, cs.AI

arXiv PDF

📄 MetaScope: Optics-Driven Neural Network for Ultra-Micro Metalens Endoscopy

2025-08-06

Авторы:

Wuyang Li, Wentao Pan, Xiaoyuan Liu, Zhendong Luo, Chenxin Li, Hengyu Liu, Din Ping Tsai, Mu Ku Chen, Yixuan Yuan

Современные миниатюрные эндоскопы ограничены миллиметровыми линзами. Метаповерхности позволяют уменьшить толщину до микрон, но создают качественный разрыв между физикой света и алгоритмами. Авторы строят первый набор данных для металинзовой эндоскопии и выявляют два ключевых искажения — затухание интенсивности и хроматическую аберрацию. Предложенная сеть MetaScope учитывает оптику двумя модулями: OIA корректирует затухание через оптические эмбеддинги, OCC устраняет аберрации через пространственную деформацию, обученную на распределении PSF. Градиент-направленная дистилляция переносит знания из базовой модели. Эксперименты показывают SOTA-результаты по сегментации и восстановлению изображений, а также успешную работу на реальных биомедицинских сценах.

Annotation:

Miniaturized endoscopy has advanced accurate visual perception within the human body. Prevailing research remains limited to conventional cameras employing convex lenses, where the physical constraints with millimetre-scale thickness impose serious impediments on the micro-level clinical. Recently, with the emergence of meta-optics, ultra-micro imaging based on metalenses (micron-scale) has garnered great attention, serving as a promising solution. However, due to the physical difference of meta...

ID: 2508.03596v1 cs.CV, cs.AI

arXiv PDF

1
2
1159
1160
1161
1162

Показано 11601 - 11610 из 11614 записей