📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 RegionMed-CLIP: A Region-Aware Multimodal Contrastive Learning Pre-trained Model for Medical Image Understanding

2025-08-09

Авторы:

Tianchen Fang, Guiru Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Медицинское изображение — ключевой элемент современной медицины, играющий решающую роль в автоматизированном диагностировании и поддержке клинических решений на основе данных. Однако прогресс в этой области сталкивается с двумя крупными препятствиями. Во-первых, значительный недостаток качественно аннотированных медицинских данных ограничивает разработку эффективных моделей. Во-вторых, существующие модели часто основываются на глобальных признаках изображений, что приводит к пропуску тонких, но клинически важных патологических регионов. Эти регионы могут содержать критическую информацию, необходимую для точного диагностирования. Дополнительная проблема заключается в том, что многие существующие визуально-языковые модели не специально адаптированы для медицинских данных, что ограничивает их эффективность в решении задач, связанных с медицинским изображением. Требуется новый подход, который бы сочетал глобальную семантическую информацию с локализованными, точечными признаками патологий, а также обеспечивал высокую точность в задачах, таких как извлечение изображений по тексту, классификация и визуальные ответы на вопросы. Решение этих проблем требует разработки модели, которая не только обучается на больших медицинских данных, но также учитывает региональные особенности изображений. Такой подход может существенно улучшить качество медицинского изображения и повысить эффективность клинических решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД RegionMed-CLIP представляет собой инновационный region-aware мультимодальный контрастивный предварительный обучающий фреймворк, предназначенный для улучшения понимания медицинских изображений. Основной компонент этого метода — ROI (region-of-interest) процессор, который адаптивно интегрирует тонкие региональные признаки с глобальным контекстом изображения. Это позволяет модели сосредоточиться на клинически важных областях, не теряя при этом общую семантическую информацию. Для поддержки этого процесса авторы предлагают прогрессивную стратегию обучения, которая улучшает иерархическую мультимодальную алгоритмическую выравнивание. Это позволяет модели эффективно обучаться на больших медицинских данных, охватывающих различные уровни клинических описаний. Чтобы обеспечить масштабное обучение на уровне регионов, авторы создали MedRegion-500k — комплексный корпус медицинских изображений и текстов, который включает расширенные региональные аннотации и многоуровневые клинические описания. Этот корпус обеспечивает необходимые данные для обучения модели и позволяет достичь высокой точности в задачах, связанных с медицинским изображением. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий спектр экспериментов для оценки эффективности RegionMed-CLIP. Эксперименты включали задачи изображения-текста, нулевой классификации и визуальные ответы на вопросы. Результаты показали, что RegionMed-CLIP значительно превосходит современные визуально-языковые модели во всех этих задачах. В частности, модель достигла высокой точности в извлечении изображений по тексту, что демонстрирует ее способность точно сопоставлять клинические описания с соответствующими медицинскими изображениями. Также, в задачах классификации и визуальных ответов на вопросы, RegionMed-CLIP показала значительное улучшение по сравнению с другими моделями. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RegionMed-CLIP имеет широкий спектр практических применений в медицинской диагностике и поддержке клинических решений. Благодаря ее способности учитывать региональные особенности изображений, она может использоваться для точного диагностирования различных заболеваний, включая те, которые требуют высокой чувствительности к тонким патологическим изменениям. Кроме того, модель может быть использована для автоматизации процессов классификации и визуального анализа медицинских изображений, что сэкономит время и ресурсы в клинической практике. Ее прогрессивная структура и высокая точность делают ее идеальной для использования в крупных медицинских базах данных, где критически важно обеспечивать высокую точность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ RegionMed-CLIP является передовым решением для медицинского изображения, которое эффективно сочетает глобальные и локальные признаки для улучшения точности диагностики. Будущие исследования могут расширить этот подход, включая большее количество клинических данных и улучшив точность модели в реальных клинических условиях. Также, можно исследовать возможности интеграции RegionMed-CLIP с другими медицинскими технологиями для создания более комплексных решений для медицинской диагностике.

Annotation:

Medical image understanding plays a crucial role in enabling automated diagnosis and data-driven clinical decision support. However, its progress is impeded by two primary challenges: the limited availability of high-quality annotated medical data and an overreliance on global image features, which often miss subtle but clinically significant pathological regions. To address these issues, we introduce RegionMed-CLIP, a region-aware multimodal contrastive learning framework that explicitly incorp...

ID: 2508.05244v1 cs.CV, cs.AI

arXiv PDF

📄 A Study of Gender Classification Techniques Based on Iris Images: A Deep Survey and Analysis

2025-08-09

Авторы:

Basna Mohammed Salih Hasan, Ramadhan J. Mstafa

## КОНТЕКСТ И ПРОБЛЕМАТИКА Классификация пола является важной областью в различных приложениях, таких как слежение и наблюдение, корпоративное профайлинг, и взаимодействие человека с компьютером. Определение пола человека представляет собой форму мягкой биометрии, которая помогает в идентификации личности. За последние годы было разработано множество методов для определения пола, основанных на различных физических признаках, таких как лицо, отпечатки пальцев, отпечатки ладони, ДНК, ухо, шаг и рост ребра. Однако методы, основанные на физических характеристиках лица, являются самыми популярными и широко используемыми. Одним из наиболее перспективных биометрических признаков является рост ребра. Исследования показали, что рост ребра остается вероятно константным на протяжении всей жизни человека. Кроме того, рост ребра виден извне и не требует вторжения в организм пользователя, что делает его удобным и практичным для реальных приложений. Доступны хорошо разработанные методы для сегментации и кодирования изображений роста ребра, что облегчает выбор и извлечение векторов атрибутов из текстур роста ребра. Однако, несмотря на широкое распространение методов классификации пола, существуют некоторые проблемы и пробелы в этой области. Например, многие существующие методы страдают от недостатков в точности и надежности, особенно при работе с большими и разнообразными наборами данных. Кроме того, существует потребность в более глубоком анализе и сравнении различных подходов для классификации пола, чтобы понять их сильные и слабые стороны. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данном исследовании предлагается детальный обзор и анализ различных методов классификации пола, основанных на росте ребра. Авторы предоставляют подробное описание методологий, используемых на различных этапах классификации пола. Обзор включает в себя различные подходы к сегментации и кодированию текстур роста ребра, а также методы извлечения и выбора векторов атрибутов. Авторы также обсуждают различные методы классификации, используемые в предыдущих исследованиях, и анализируют их эффективность. Они предлагают новые подходы и улучшения для существующих методов, направленные на повышение точности и надежности классификации пола. Кроме того, исследование охватывает использование различных алгоритмов машинного обучения и глубокого обучения для улучшения процесса классификации. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проводятся эксперименты с использованием различных наборов данных для оценки эффективности предлагаемых методов. Авторы используют как синтетические, так и реальные данные для тестирования и сравнения различных подходов к классификации пола. Результаты экспериментов показывают, что предлагаемые методы могут достигать высокой точности классификации, особенно при использовании современных методов машинного обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Классификация пола имеет широкое применение в различных областях, таких как безопасность, маркетинг, и медицинские исследования. Использование роста ребра как биометрического признака предоставляет некоторые преимущества, такие как неинвазивность и константность на протяжении жизни. Это делает его привлекательным для практических приложений, где необходима высокая точность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В исследовании представлены основные достижения в области классификации пола на основе роста ребра. Авторы выделяют значительные улучшения в точности и надежности методов, а также предлагают направления для будущих исследований. Они подчеркивают необходимость дальнейшего исследования и разработки более эффективных методов для обработки и анализа текстур роста ребра. Кроме того, исследование выделяет необходимость в создании более крупных и разнообразных наборов данных для тестирования и улучшения методов классификации пола.

Annotation:

Gender classification is attractive in a range of applications, including surveillance and monitoring, corporate profiling, and human-computer interaction. Individuals' identities may be gleaned from information about their gender, which is a kind of soft biometric.Over the years, several methods for determining a person's gender have been devised. Some of the most well-known ones are based on physical characteristics like face, fingerprint, palmprint, DNA, ears, gait, and iris. On the other han...

ID: 2508.05246v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 CF3: Compact and Fast 3D Feature Fields

2025-08-09

Авторы:

Hyunjoon Lee, Joonkyu Min, Jaesik Park

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) — это перспективный подход к представлению трехмерных сцен, который интегрирует богатые 2D-фундаментальные модели для повышения точности и качества. Несмотря на значительные улучшения, многие существующие методы опираются на низкоуровневые (bottom-up) оптимизационные процессы, где необработанные 2D-фундаментальные признаки рассматриваются как истинные данные. Такой подход требует высоких вычислительных ресурсов, что создает барьер для практического применения. Кроме того, большинство существующих методов обучают автоэнкодеры (autoencoders) в 2D-пространстве, а затем применяют их к 3D-данным, что может привести к несоответствию между распределением признаков в 2D и 3D-пространстве. Проблематика заключается в необходимости создания более компактных и эффективных методов для представления 3D-сцен, которые сохраняют детали геометрии и при этом снижают вычислительную сложность. Также важно обеспечить лучшее выравнивание между распределением признаков в 2D и 3D, чтобы повысить качество представления и снизить требования к ресурсам. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается новый подход под названием CF3 (Compact and Fast 3D Feature Fields), который решает вышеупомянутые проблемы путем внедрения топо-низкого (top-down) конвейера. Основные этапы метода включают: 1. **Быстрая взвешенная фьюжн (Weighted Fusion):** На первом этапе производится быстрая интеграция многоугольников 2D-фундаментальных признаков с предварительно обученными Гауссовыми распределениями. Это позволяет эффективно перенести информацию из 2D-пространства в 3D-пространство. 2. **Обучение автоэнкодера на 3D-данных:** В отличие от традиционных методов, CF3 обучает автоэнкодеры непосредственно на 3D-данных, поднятых из 2D-признаков. Это обеспечивает лучшее выравнивание распределения признаков между 2D и 3D-пространством. 3. **Адаптивная спарсификация (Adaptive Sparsification):** Для оптимизации представления 3D-сцены предлагается метод адаптивной спарсификации, который удаляет и сливает избыточные Гауссовы распределения. Это позволяет сократить количество используемых Гауссов на до 95% по сравнению с Feature-3DGS, сохраняя при этом детали геометрии. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных 3D-данных, включая сцены с высокой сложностью геометрии. CF3 демонстрирует следующие результаты: - **Уменьшение количества Гауссов:** Метод достигает высокого качества представления 3D-сцены, используя только 5% Гауссовых распределений по сравнению с Feature-3DGS. - **Снижение вычислительной сложности:** Благодаря адаптивной спарсификации и топо-низкому конвейеру, CF3 значительно сокращает время обработки и использование ресурсов. - **Сохранение геометрии:** Даже при существенном сокращении количества Гауссов, метод сохраняет детали геометрии, что подтверждается качественными и количественными оценками. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CF3 имеет широкое применение в областях, требующих эффективное представление 3D-сцен, таких как: - **Виртуальная и дополненная реальность:** Компактные и быстрые 3D-представления могут улучшить производительность приложений VR/AR. - **3D-моделирование и визуализация:** Метод может быть использован для создания высококачественных и оптимизированных 3D-моделей для различных приложений. - **Автономные системы:** Низкие вычислительные требования делают CF3 пригодным для использования в автономных системах, таких как роботы и автономные автомобили. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CF3 представляет собой эффективный и компактный метод для создания 3D-представлений, который сочетает в себе высокое качество и низкие вычислительные требования. Будущие исследования могут сосредоточиться на дальнейшем улучшении адаптивной спарсификации и интеграции CF3 с другими моделями для повышения качества и эффективности представления 3D-сцен.

Annotation:

3D Gaussian Splatting (3DGS) has begun incorporating rich information from 2D foundation models. However, most approaches rely on a bottom-up optimization process that treats raw 2D features as ground truth, incurring increased computational costs. We propose a top-down pipeline for constructing compact and fast 3D Gaussian feature fields, namely, CF3. We first perform a fast weighted fusion of multi-view 2D features with pre-trained Gaussians. This approach enables training a per-Gaussian autoe...

ID: 2508.05254v1 cs.CV, cs.AI

arXiv PDF

📄 Robust Tracking with Particle Filtering for Fluorescent Cardiac Imaging

2025-08-09

Авторы:

Suresh Guttikonda, Maximilian Neidhart, Johanna Sprenger, Johannes Petersen, Christian Detter, Alexander Schlaefer

## КОНТЕКСТ И ПРОБЛЕМАТИКА Коронарное шунтирование (CABG) остаётся «золотым стандартом» лечения многовеселой ишемической болезни сердца, но его долгосрочный успех напрямую зависит от проходимости создаваемых шунтов. Современные операционные залы оснащаются гибридными системами: после завершения анастомозов хирург может ввести флуоресцентный индикатор (чаще всего индоцианин-зелёный — ICG) и в реальном времени оценивать микроциркуляцию миокарда. Получаемые при этом видеопотоки (обычно 25–30 кадр/с, разрешение 512×512–1024×1024) содержат богатую динамическую информацию: начальный «wash-in» красителя, плато и «wash-out» фазы дают возможность вычислить количественные показатели — время до пика, скорость накопления, площадь под кривой и др. Эти параметры коррелируют с ранним функциональным результатом, позволяя хирургу принимать решение о корректировке плохо перфузируемых участков ещё до закрытия грудной клетки. Однако само сердце продолжает сокращаться, создавая сложную трёхмерную траекторию движения: поворот вокруг оси, смещение основания и вершины, а также высокочастотные вибрации, вызванные вентиляцией лёгких. Кроме того, при наполнении коронарных сосудов ICG структурно обогащается сеть мельчайших артериол и венул, что приводит к резким изменениям яркости, контраста и текстур. Традиционные методы отслеживания опорных точек — от простого KLT-трекера до современных свёрточных нейросетей (Siamese, GOTURN, SiamRPN) — терпят неудачу: либо теряют цель при масштабных изменениях, либо «прилипают» к похожим текстурам соседних сосудов. В результате хирург вынужден полагаться на субъективную оценку «на глаз», а количественная перфузионная карта остаётся неточной. Работа Guttikonda и коллег ставит цель разработать трекер, который был бы одновременно: 1) точным (ошибка < 5 px при разрешении 512×512), 2) устойчивым к контрастным всплескам, 3) масштабируемым до сотен одновременно отслеживаемых точек, и 4) работающим в реальном времени на оборудовании операционной. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают гибридную архитектуру, объединяющую классический фильтр частиц (Sequential Importance Resampling, SIR) с «циклической проверкой согласованности» (cyclic-consistency check). Вход — последовательность флуоресцентных кадров Iₜ, предобработанных гауссовым размытием (σ = 0.8 px) для подавления шумов CMOS-матрицы. Для каждого целевого ландшафта (например, bifurcation коронарной артерии) формируется множество из N = 300 частиц-гипотез {xₜⁱ}ᵢ₌₁ᴺ, где xₜⁱ = (u, v, ẋ, ẏ, θ, s) — 6-мерный вектор состояния: координаты, скорости, вращение и масштаб. Динамическая модель задаётся как xₜ = A xₜ₋₁ + qₜ, где A — матрица постоянной скорости, а qₜ ~ 𝒩(0, Q) учитывает случайные колебания миокарда. Главная инновация — двухэтапный цикл согласованности. Сначала прямой проход (forward pass): частицы прогнозируются из t–1 в t. Затем обратный проход (backward pass): те же частицы регрессируются обратно в t–1 и сравниваются с исходными положениями. Расстояние ‖xₜ₋₁ⁱ − x̂ₜ₋₁ⁱ‖ используется как метрика надёжности wₜⁱ ∝ exp(−‖·‖²/2σ²). Эта процедура эффективно подавляет «дрейф» на текстурно похожих сосудах: если частица ошиблась в прямом направлении, обратный шаг возвращает её далеко от истины, и её вес резко падает. Для измерения правдоподобия применяется адаптивное цветовое моделирование: каждая частица строит локальную цветовую гистограмму HSV (16×4×4 бина) вокруг якорной точки и сравнивает её с шаблоном H* из первого кадра с помощью дивергенции Бхаттачарьи. Также используется аппаратная оптимизация: вычисления распараллелены на GPU (CUDA kernels) с использованием shared memory для

Annotation:

Intraoperative fluorescent cardiac imaging enables quality control following coronary bypass grafting surgery. We can estimate local quantitative indicators, such as cardiac perfusion, by tracking local feature points. However, heart motion and significant fluctuations in image characteristics caused by vessel structural enrichment limit traditional tracking methods. We propose a particle filtering tracker based on cyclicconsistency checks to robustly track particles sampled to follow target lan...

ID: 2508.05262v1 cs.CV, cs.AI

arXiv PDF

📄 SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion

2025-08-09

Авторы:

Xiaoyang Zhang, Zhen Hua, Yakun Ju, Wei Zhou, Jun Liu, Alex C. Kot

## КОНТЕКСТ И ПРОБЛЕМАТИКА Инфракрасно-видимое изображение (IVIF) — это ключевой процесс в области компьютерного зрения, направленный на комбинацию тепловой радиации, присущей инфракрасным изображениям, и деталей текстуры, характерных для видимых изображений. Цель этого процесса — улучшить восприятие и повысить эффективность вычислительных задач, таких как наблюдение, распознавание объектов и мониторинг. Однако традиционные методы IVIF сталкиваются с серьёзными ограничениями. Проблема заключается в том, что существующие подходы часто не могут должным образом сохранить ключевые объекты и детали из-за отсутствия глубокого семантического понимания сцены. Это приводит к потере важной информации и возникновению артефактов в результирующем изображении. Кроме того, процесс слияния может привести к потере деталей и снижению качества изображения, что негативно сказывается на производительности в дополнительных задачах. Мотивация для разработки новых методов заключается в необходимости создания более эффективных решений, которые бы сочетали высокое качество изображений с сохранением ключевых семантических деталей. Подобные методы должны быть в состоянии обеспечить высокую точность функциональных задач, таких как распознавание и классификация, особенно в условиях, где исходные данные имеют различные модальности и сложность. В этой статье авторы предлагают SGDFuse — инновационный подход, который использует Segment Anything Model (SAM) для генерации высококачественных семантических масок. Эти маски служат явными приоритетов для улучшения процесса фузирования, обеспечивая тем самым более точный и высококачественный результат. ## ПРЕДЛОЖЕННЫЙ МЕТОД SGDFuse представляет собой уникальную комбинацию модели Conditional Diffusion Model (CDM) и Segment Anything Model (SAM) для достижения высококачественного и семантически осмысленного фузирования инфракрасных и видимых изображений. Архитектура метода основана на двух этапах. На первом этапе производится предварительное фузирование мультимодальных фичи с использованием традиционных подходов. На втором этапе SAM используется для генерации высококачественных семантических масок, которые вместе с результатом предварительного фузирования служат условием для оптимизации модели CDM. Это гарантирует, что процесс фузирования будет направлен на сохранение важной семантической информации и устранение артефактов. Ключевой момент метода заключается в том, что SAM предоставляет явные семантические приоритеты, которые помогают CDM в процессе шумоподавления и генерации изображений. Этот подход обеспечивает качество результата на высоком уровне, сохраняя при этом важные детали и структуру изображения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий набор экспериментов для оценки эффективности SGDFuse. Использовались различные наборы данных, включая инфракрасные и видимые изображения с различными условиями захвата. Результаты показали, что SGDFuse достигает лучших показателей по качественным и количественным показателям по сравнению с современными методами. В частности, SGDFuse показал значительное улучшение в плане сохранения деталей, уменьшения артефактов и повышения качества результирующих изображений. Эксперименты также подтвердили высокую адаптивность метода к различным задачам, таким как распознавание объектов и мониторинг, что делает его универсальным инструментом для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SGDFuse имеет широкое применение в различных областях, где важна высокая точность и качество обработки изображений. Этот метод может быть использован в таких областях, как наблюдение и мониторинг, распознавание объектов, медицинское изображение и системы безопасности. Его способность сохранять ключевые семантические детали и обеспечивать высокое качество изображений делает его важным инструментом для разработки высокопроизводительных систем компьютерного зрения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SGDFuse представляет собой значительный шаг вперёд в области IVIF, обеспечивая высококачественное и семантически осмысленное фузирование изображений. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, включая использование более продвинутых моделей для генерации семантических масок и оптимизации процесса фузирования. Кроме того, можно исследовать возможности применения этого подхода к другим модальностям изображений и задачам компьютерного зрения.

Annotation:

Infrared and visible image fusion (IVIF) aims to combine the thermal radiation information from infrared images with the rich texture details from visible images to enhance perceptual capabilities for downstream visual tasks. However, existing methods often fail to preserve key targets due to a lack of deep semantic understanding of the scene, while the fusion process itself can also introduce artifacts and detail loss, severely compromising both image quality and task performance. To address th...

ID: 2508.05264v1 cs.CV, cs.AI

arXiv PDF

📄 VS-LLM: Visual-Semantic Depression Assessment based on LLM for Drawing Projection Test

2025-08-09

Авторы:

Meiqi Wu, Yaxuan Kang, Xuchen Li, Shiyu Hu, Xiaotang Chen, Yunfeng Kang, Weiqiang Wang, Kaiqi Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Для диагностики и оценки психического состояния человека в области психотерапии и психодиагностики широко используется тест на рисунки (Drawing Projection Test, DPT). Один из наиболее распространенных видов DPT — тематический тест "A Person Picking an Apple from a Tree" (PPAT), который позволяет выявить различные психологические состояния, включая депрессию. Через анализ рисунков можно получить глубокое понимание психического состояния человека, особенно когда они используют такие элементы, как цвета, пространственное расположение и другие визуальные аспекты. Однако, интерпретация рисунков в DPT требует больших усилий со стороны психологов, которые должны основываться на своем опыте и знаниях. Кроме того, тест PPAT имеет определенные ограничения: он выполняется под временным давлением, без возможности получения вербальных подсказок, что может приводить к неточностям в рисунках и отсутствию детальных описаний. В этой области исследования существует необходимость в разработке эффективных методов автоматизированного анализа рисунков, которые позволяют упрощать и улучшать процесс диагностики. Традиционные методы распознавания рисунков обычно сосредоточены на распознавании отдельных объектов, но DPT требует более широкого подхода, который учитывает общую оценку рисунков, включая использование цветов, пространственного расположения и других визуальных элементов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этих проблем, авторы предлагают метод Visual-Semantic Depression Assessment based on LLM (VS-LLM). Этот метод основывается на использовании технологии языковых моделей (LLM) для анализа визуально-семантических аспектов рисунков. Архитектура VS-LLM включает в себя несколько ключевых компонентов: 1. **Визуальный анализ**: Метод анализирует визуальные элементы рисунков, такие как использование цветов, пространственное расположение объектов и общую композицию. Эти элементы играют важную роль в оценке психологического состояния. 2. **Семантический анализ**: Дополнительно к визуальным аспектам, метод учитывает семантические элементы, такие как выбор объектов, их размеры, формы и их взаимодействие. Это позволяет получить более глубокий инсайт в психическое состояние человека. 3. **Интеграция LLM**: Языковые модели используются для обработки и анализа данных, полученных из рисунков. LLM позволяет создавать более точные модели для оценки психического состояния, основываясь на комплексном анализе визуальных и семантических данных. 4. **Автоматизированная система**: Авторы также разработали систему, которая позволяет автоматизировать процесс анализа рисунков, что значительно упрощает работу психологов и повышает эффективность диагностики. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода VS-LLM были проведены эксперименты на базе данных рисунков, собранных в рамках тестирования PPAT. Данные включали рисунки, созданные участниками теста, которые были подвергнуты анализу с помощью предложенного метода. Результаты показали, что метод VS-LLM достигает значительного улучшения по сравнению со знаниями психологов. Конкретно, VS-LLM показал лучшие результаты на 17.6% по сравнению с традиционным методом оценки психологами. Это улучшение связано с более точным анализом визуальных и семантических элементов рисунков, который позволяет выявить более точные характеристики психического состояния. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое применение в области психологической диагностики. Он может быть использован для большого количества задач, таких как: - **Диагностика депрессии**: VS-LLM позволяет быстро и точно оценивать психическое состояние человека на основе его рисунков. - **Психотерапия и консультирование**: Метод может быть использован для поддержки психотерапевтических сессий, помогая психологам лучше понять состояние пациентов. - **Автоматизация процессов**: Автоматическая система упрощает работу психологов, позволяя им сосредоточиться на более сложных аспектах диагностики. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод VS-LLM, который улучшает процесс оценки психического состояния человека на основе рисунков. Этот метод демонстрирует высокую эффективность и может быть применен в различных областях психологии и психотерапии. В будущем, дальнейшее исследование может быть направлено на улучшение точности и расширение областей применения данного метода, а также на интеграцию с другими методами диагностики психического состояния.

Annotation:

The Drawing Projection Test (DPT) is an essential tool in art therapy, allowing psychologists to assess participants' mental states through their sketches. Specifically, through sketches with the theme of "a person picking an apple from a tree (PPAT)", it can be revealed whether the participants are in mental states such as depression. Compared with scales, the DPT can enrich psychologists' understanding of an individual's mental state. However, the interpretation of the PPAT is laborious and de...

ID: 2508.05299v1 cs.CV, cs.AI

arXiv PDF

📄 mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering

2025-08-09

Авторы:

Xu Yuan, Liangbo Ning, Wenqi Fan, Qing Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Retrieval-Augmented Generation (RAG) стал ключевым подходом для расширения внутреннего знания Многомодальных Больших Языковых Моделей (МБЯМ) путем интеграции внешних баз знаний в процесс генерации, что широко применяется в задачах Знаний-ориентированного Ответа на Вопросы с Изображениями (VQA). Несмотря на значительные достижения в этой области, традиционные методы RAG, основанные на неструктурированных документах, часто игнорируют структурные отношения между элементами знаний. Это приводит к возникновению неуместной или вводящей в заблуждение информации, что снижает точность и надежность ответов. Данная проблема особенно актуальна в контексте задач VQA, где точность ответов критически важна. Неспособность существующих методов эффективно обрабатывать структурированные отношения между различными модальностями (такими как текст и изображения) является ключевой проблемой. Кроме того, многие существующие подходы не могут эффективно интегрировать многомодальные знания в процесс генерации, что ограничивает их применимость в реальных сценариях. В связи с этим возникает потребность в разработке новых методологий, которые могут эффективно интегрировать структурированные многомодальные знания в RAG-based VQA системы для улучшения точности и надежности ответов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой работе авторы предлагают новый метод mKG-RAG, основанный на многомодальных знаниях для улучшения задач VQA. Основная идея заключается в интеграции многомодальных графов знаний (multimodal KGs) в RAG-based VQA фреймворк для обеспечения более точной и структурированной генерации ответов. mKG-RAG использует модели Многомодальных Больших Языковых Моделей (MLLM) для извлечения ключевых слов и оптимизации соответствия текста и изображений. Этот процесс позволяет выделить семантически согласованные и модальностью-алгоритмически оптимизированные сущности и отношения из многомодальных документов. Затем эти сущности и отношения используются для построения высококачественных многомодальных графов знаний (KGs), которые служат структурированным представлением знаний. Кроме того, авторы предлагают двухступенчатую стратегию извлечения, оснащенную вопрос-зависимым многомодальным ретриевером (question-aware multimodal retriever). Эта стратегия позволяет улучшить эффективность извлечения информации и повысить точность получаемых результатов. Этот метод также обеспечивает более точное сопоставление вопроса с соответствующими элементами знаний в многомодальном графе. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексные эксперименты для оценки эффективности mKG-RAG по сравнению с существующими методами. Были использованы различные наборы данных для задач VQA, которые включали как текстовую, так и визуальную информацию. Результаты экспериментов показали, что mKG-RAG значительно превосходит существующие методы показателями точности и надежности ответов. В частности, mKG-RAG показал лучшие результаты в условиях, где вопросы требовали интеграции знаний из различных модальностей. Двухступенчатая стратегия извлечения также показала свою эффективность в обеспечении высокой точности поиска и извлечения релевантных элементов знаний. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ mKG-RAG имеет широкие возможности применения в реальных сценариях, где критически важна точность ответов на вопросы, основанные на многомодальных данных. Этот метод может быть использован в различных областях, таких как медицинские диагностики, системы поддержки решений, интеллектуальные помощники, и других приложениях, требующих интеграции структурированных многомодальных знаний. Основными преимуществами mKG-RAG является его способность обрабатывать сложные взаимосвязи между различными модальностями знаний, что позволяет получать более точные и релевантные ответы. Это может существенно повысить эффективность и надежность систем, основанных на VQA, в различных прикладных областях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод mKG-RAG, который интегрирует многомодальные графы знаний в RAG-based VQA фреймворк для улучшения точности и надежности ответов. Эксперименты показали, что этот метод значительно превосходит существующие подходы в задачах VQA. В будущем могут быть исследованы другие способы улучшения mKG-RAG, такие как интеграция дополнительных модальностей знаний, улучшение моделей извлечения и генерации, а также применение этого подхода к другим типам задач, требующих интеграции многомодальных знаний.

Annotation:

Recently, Retrieval-Augmented Generation (RAG) has been proposed to expand internal knowledge of Multimodal Large Language Models (MLLMs) by incorporating external knowledge databases into the generation process, which is widely used for knowledge-based Visual Question Answering (VQA) tasks. Despite impressive advancements, vanilla RAG-based VQA methods that rely on unstructured documents and overlook the structural relationships among knowledge elements frequently introduce irrelevant or mislea...

ID: 2508.05318v1 cs.CV, cs.AI

arXiv PDF

📄 PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation

2025-08-09

Авторы:

Kang Liu, Zhuoqi Ma, Zikang Fang, Yunan Li, Kun Xie, Qiguang Miao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация медицинских докладов на основе рентгеновских снимков грудной клетки (Chest X-ray Report Generation) является ключевой задачей в медицинском обработке изображений, направленной на сокращение рабочей нагрузки радиологов путем автоматического создания прелмининарных докладов. Эта задача требует не только точного анализа визуальных признаков снимков, но также учета пациентского контекста, такого как симптомы, медицинская история, а также данные из предыдущих обследований. Радиологи используют эту информацию для диагностического рассмотрения и оценки прогрессирования болезни. Тем не менее, большинство существующих методов фокусируются только на анализе отдельных изображений, игнорируя важную пациентскую информацию, что приводит к недостатку в диагностическом контексте и неполноте в отчетах. Существующие методы генерации докладов не учитывают динамику изменений в данных пациента, что может привести к неточностям в отчетах и отсутствию важного диагностического контекста. Это ограничение становится критичным, особенно когда необходимо отследить прогрессирование заболевания или изменения в состоянии пациента. Таким образом, необходимо разработать подход, который бы интегрировал пациентскую информацию в процесс генерации докладов, чтобы улучшить качество и точность полученных отчетов. Предлагаемый подход PriorRG предназначен для решения этой проблемы, внедряя пациентский контекст в процесс генерации докладов. Он использует предварительное обучение с учетом клинического контекста (prior-guided contrastive pre-training) и метод декодирования с учетом предыдущих данных (prior-aware coarse-to-fine decoding) для создания более точных и клинически соответствующих докладов. ## ПРЕДЛОЖЕННЫЙ МЕТОД PriorRG предлагает двухступенчатый подход к генерации докладов по рентгеновским снимкам грудной клетки. **Stage 1: Prior-Guided Contrastive Pre-training** В этом этапе предлагается метод предварительного обучения, который использует пациентский контекст для руководства процессом извлечения пространственно-временных признаков. Это позволяет модели лучше понимать семантические отношения в радиологических отчетах. Метод основывается на контрастивном обучении, где клинический контекст, такой как симптомы и медицинская история, используется для направления извлечения признаков, что позволяет модели лучше выравниваться с семантическими аспектами радиологических докладов. **Stage 2: Prior-Aware Coarse-to-Fine Decoding** На втором этапе предлагается метод декодирования, который постепенно интегрирует пациентскую информацию в процессе генерации докладов. Этот подход работает на основе предыдущих данных пациента, что позволяет модели выравниваться с диагностическим фокусом и отслеживать изменения в состоянии пациента. Декодирование осуществляется в несколько этапов, начиная с общего представления и продвигаясь к более детальному анализу, что повышает качество и точность генерируемых отчетов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на двух наборах данных: MIMIC-CXR и MIMIC-ABN. Результаты показали, что PriorRG превосходит современные методы по нескольким метрикам. На наборе данных MIMIC-CXR достигнут прирост в 3.6% по BLEU-4 и 3.8% по F1-мере, а на MIMIC-ABN — прирост в 5.9% по BLEU-1. Эти результаты демонстрируют значительное улучшение качества генерируемых докладов благодаря использованию пациентского контекста. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ PriorRG может быть применен в клинической практике для автоматизации генерации докладов по рентгеновским снимкам, что позволяет сократить нагрузку на радиологов. Преимущества этого подхода заключаются в более точном отражении диагностического контекста и отслеживании изменений в состоянии пациентов, что может повысить качество медицинского обслуживания. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ PriorRG является значительным шагом вперед в области генерации медицинских докладов, улучшая точность и клиническую значимость генерируемых отчетов. Будущие исследования могут фокусироваться на дальнейшем улучшении интеграции пациентского контекста и расширении применения этого подхода к другим областям медицинской диагностики.

Annotation:

Chest X-ray report generation aims to reduce radiologists' workload by automatically producing high-quality preliminary reports. A critical yet underexplored aspect of this task is the effective use of patient-specific prior knowledge -- including clinical context (e.g., symptoms, medical history) and the most recent prior image -- which radiologists routinely rely on for diagnostic reasoning. Most existing methods generate reports from single images, neglecting this essential prior information ...

ID: 2508.05353v1 cs.CV, cs.AI

arXiv PDF

📄 UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation

2025-08-09

Авторы:

Wonjun Kang, Byeongkeun Ahn, Minjae Lee, Kevin Galim, Seunghyuk Oh, Hyung Il Koo, Nam Ik Cho

## КОНТЕКСТ И ПРОБЛЕМАТИКА Текст-в-изображение (T2I) генерация является одной из ключевых областей искусственного интеллекта, которая преобразует текстовое описание в соответствующее визуальное представление. Эта область активно развивалась за последние годы благодаря развитию моделей, таких как Diffusion Models и Autoregressive Models. Однако, несмотря на значительные успехи, создание высококачественных изображений с композиционной точностью остается сложной задачей. Традиционные модели, основанные на Autoregressive Models, страдают от ограничений, вызванных каузальной (последовательной) вниманием и последовательным декодированием, что затрудняет эффективное и качественное генерирование изображений. В последнее время Masked Generative Transformers (MGT) получили широкое распространение как альтернатевная к Autoregressive Models. Они используют бидирекционное внимание и параллельное декодирование, что позволяет достигать более высокой эффективности и качества генерации. Однако, несмотря на эти преимущества, MGT также сталкиваются с проблемой композиционной точности. Например, даже современные модели Diffusion Models часто не могут правильно связать атрибуты и обеспечить точное соответствие текста и изображения. Эта проблема особенно заметна в сложных сценариях, где необходимо точно отображать отдельные объекты и их атрибуты. Несмотря на то, что Diffusion Models были широко исследованы в этом контексте, Masked Generative Transformers не получили такого же уровня внимания. Таким образом, требуется новый подход, который может улучшить композиционную точность в MGT без необходимости дополнительного обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают метод под названием **UNCAGE: Unmasking with Contrastive Attention Guidance**. Этот метод является методом без обучения, который улучшает композиционную точность MGT путем использования attention maps для определения токенов, которые лучше всего представляют отдельные объекты. UNCAGE работает на основе механизма "unmasking", где токены, которые были маскированы во время обучения, выделяются и улучшаются с помощью attention guidance. Ключевой компонент метода заключается в том, чтобы использовать contrastive attention guidance для того, чтобы повысить важность токенов, которые лучше всего соответствуют индивидуальным объектам в изображении. Это позволяет модели лучше фокусироваться на ключевых аспектах изображения, таких как объекты и их атрибуты, и поэтому повышает точность их представления. Техническая реализация UNCAGE включает в себя несколько этапов. Во-первых, модель генерирует изображение на основе заданного текста. Затем, с помощью attention maps, выбираются токены, которые больше всего соответствуют отдельным объектам. Эти токены получают больше веса в процессе декодирования, что приводит к лучшей композиционной точности. Метод не требует дополнительного обучения модели, что делает его высокоэффективным и пригодным для быстрого применения в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода UNCAGE, авторы провели ряд экспериментов на различных датасетах, включая COCO и CUB. Использовались различные метрики, такие как FID (Fréchet Inception Distance) и R-Precision, для оценки качества генерированных изображений. Результаты показали, что UNCAGE значительно улучшает композиционную точность генерированных изображений по сравнению со стандартными моделями MGT. Например, в моделях, использующих UNCAGE, было замечено значительное улучшение в плане точности представления отдельных объектов и их атрибутов. Это привело к лучшему FID и R-Precision по сравнению с базовыми моделями. Кроме того, эксперименты показали, что UNCAGE не только повышает качество генерации, но также делает это с незначительным дополнительным расходом ресурсов во время инференса. Это делает метод пригодным для использования в реальных приложениях, где важно сочетание качества и эффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ UNCAGE имеет широкий спектр практических приложений. Он может быть использован в областях, где важна высокая точность генерации изображений на основе текста, таких как компьютерная графика, дизайн, реклама, и даже в области медицины, где точность визуализации критична. Преимущества метода заключаются в том, что он не только повышает качество генерации, но также делает это без необходимости дополнительного обучения модели, что значительно упрощает его внедрение в существующие системы. Кроме того, UNCAGE может быть использован в сочетании с различными моделями MGT, что делает его универсальным инструментом для улучшения композиционной точности в различных контекстах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод UNCAGE, который улучшает композиционную точность Masked Generative Transformers в задачах текст-в-изображение генерации. Этот метод является безучебным и не требует дополнительного обучения модели, что делает его высокоэффективным и практичным для реального применения. Результаты экспериментов показали значительное улучшение качества генерации, особенно в сложных сценариях, где необходима точная представление отдельных объектов. В будущем, метод может быть дальнейше разработан для улучшения его применимости в более широких контекстах, включая мультимодальные модели и приложения в реальном времени. Кроме того, могут быть исследованы дополнительные способы улучшения attention guidance для еще более точного представления объектов и их атрибутов.

Annotation:

Text-to-image (T2I) generation has been actively studied using Diffusion Models and Autoregressive Models. Recently, Masked Generative Transformers have gained attention as an alternative to Autoregressive Models to overcome the inherent limitations of causal attention and autoregressive decoding through bidirectional attention and parallel decoding, enabling efficient and high-quality image generation. However, compositional T2I generation remains challenging, as even state-of-the-art Diffusion...

ID: 2508.05399v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions

2025-08-09

Авторы:

Hubert Baniecki, Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer, Eyke Hüllermeier, Przemyslaw Biecek

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы language-image pre-training (LIP) стала одной из ведущих технологий в области компьютерного зрения и обработки естественного языка. Эти модели, такие как CLIP и SigLIP-2, обучаются на больших наборах данных изображений и текстов, что позволяет им выполнять задачи нулевого выстрела (zero-shot classification), локализации объектов, мультимодального поиска и семантического понимания. Однако, несмотря на их высокую эффективность, понимание того, как эти модели принимают решения, остается сложной задачей. Одним из ключевых проблем является то, что существующие методы объяснения, такие как салиентные карты (saliency maps), ограничены первой порядковой атрибутизацией (first-order attributions). Это означает, что они могут показывать, какие части изображения или текста важны для модели, но они не могут учитывать сложные взаимодействия между разными модальностями (cross-modal interactions), которые являются важной частью работы этих моделей. Это ограничение приводит к неполному пониманию процесса принятия решений моделью. Таким образом, есть потребность в более сложных методах объяснения, которые могут учитывать не только отдельные элементы, но и их взаимодействия. Такой подход может помочь в лучшем понимании как работы моделей, так и их ограничений, что в свою очередь может привести к улучшению их производительности и интерпретируемости. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод FIxLIP (Faithful Interaction Explanations for LIP Models), который основывается на идеях теории игр (game theory) для анализа взаимодействий между модальностями в моделях LIP. Основная идея заключается в использовании взвешенного индекса Банджафа (weighted Banzhaf interaction index) для оценки взаимодействий между разными частями входных данных, такими как изображения и текст. В отличие от традиционных методов, основанных на первом порядке (first-order), FIxLIP позволяет учитывать сложные взаимодействия между разными элементами входных данных. Это достигается благодаря тому, что метод анализирует не только каждый элемент по отдельности, но и их совместное влияние на выход модели. Кроме того, FIxLIP предлагает более эффективный с точки зрения вычислений подход по сравнению с другими методами, основанными на теории игр, такими как Shapley interaction index. Метод FIxLIP также предлагает расширение существующих метрик оценки объяснений, таких как pointing game и area between insertion/deletion curves, для использования с второпорядковыми методами объяснения (second-order interaction explanations). Это позволяет более точно оценивать качество полученных объяснений и сравнивать различные модели LIP. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода FIxLIP были проведены эксперименты на двух наборах данных: MS COCO и ImageNet-1k. Эти наборы данных широко используются для оценки моделей компьютерного зрения и естественного языка. В экспериментах были использованы различные модели LIP, такие как CLIP и SigLIP-2, а также различные варианты архитектуры, такие как ViT-B/32 и ViT-L/16. Результаты показали, что FIxLIP значительно превосходит традиционные методы, основанные на первом порядке, в терминах качества объяснений. Это продемонтрировано через метрики, такие как pointing game, где FIxLIP показал лучшие результаты. Кроме того, FIxLIP позволил лучше понять различия в работе различных моделей, таких как CLIP и SigLIP-2, а также показал, как разные архитектуры, такие как ViT-B/32 и ViT-L/16, влияют на качество объяснений. Это подтверждает практическую ценность метода для сравнения и анализа моделей LIP. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость метода FIxLIP заключается в том, что он позволяет лучше понять, как работают модели LIP, и как различные компоненты входных данных влияют на их решения. Это может быть полезно в различных приложениях, таких как медицинское изображение, автономные транспортные системы и другие области, где важно понимание принятия решений моделью. Кроме того, FIxLIP может быть использован для сравнения различных моделей и архитектур, что помогает выбрать лучшую модель для конкретной задачи. Это также может помочь в улучшении моделей, поскольку разработчики могут использовать полученные объяснения для идентификации и исправления ошибок в моделях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, FIxLIP представляет собой значительный шаг вперед в области объяснений моделей LIP. Он предлагает более сложный и точный подход к анализу взаимодействий между модальностями, что позволяет лучше понять, как эти модели принимают решения. В будущем, метод FIxLIP может быть расширен для использования в других областях, таких как обработка видео или мультимодальных данных. Кроме того, можно исследовать другие методы теории игр для дальнейшего улучшения качества объяснений. Это может привести к новым направлениям в разработке более интерпретируемых и надежных моделей LIP.

Annotation:

Language-image pre-training (LIP) enables the development of vision-language models capable of zero-shot classification, localization, multimodal retrieval, and semantic understanding. Various explanation methods have been proposed to visualize the importance of input image-text pairs on the model's similarity outputs. However, popular saliency maps are limited by capturing only first-order attributions, overlooking the complex cross-modal interactions intrinsic to such encoders. We introduce fa...

ID: 2508.05430v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
223
224
225
226
227
228

Показано 2241 - 2250 из 2274 записей