📚 Саммари научных статей из arXiv

Найдено 11614 результатов по запросу 'cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ReasoningTrack: Chain-of-Thought Reasoning for Long-term Vision-Language Tracking

2025-08-09

Авторы:

Xiao Wang, Liye Jin, Xufeng Lou, Shiao Wang, Lan Chen, Bo Jiang, Zhipeng Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуально-языковое отслеживание представляет собой быстроразвивающееся направление в компьютерном зрении, которое объединяет визуальную информацию из видеопоследовательностей с текстовыми описаниями целевого объекта. Традиционные методы визуального отслеживания сталкиваются с фундаментальной проблемой: они полагаются исключительно на визуальные признаки, что делает их негибкими и подверженными ошибкам при изменении внешнего вида объекта, появлении препятствий или в условиях сложных сцен. Текстовое описание объекта, содержащее семантическую информацию о его характеристиках, может существенно повысить надежность и точность отслеживания в долгосрочной перспективе. Существующие подходы к визуально-языковому отслеживанию страдают от нескольких ключевых ограничений. Первые работы просто объединяли фиксированные языковые описания с визуальными признаками без адаптивной способности реагировать на изменения внешнего вида объекта. Более современные методы используют механизмы внимания для модификации языковых признаков, но они не способны к глубокому пониманию контекста и семантически осмысленному обновлению описаний. Недавние исследования попытались применить генеративные модели для динамического обновления текстовых описаний, однако эти методы оказались "черными ящиками" - они не предоставляют интерпретируемую информацию о процессе принятия решений и не полностью используют потенциал больших языковых моделей. Критическая проблема заключается в отсутствии крупномасштабных долгосрочных бенчмарков для визуально-языкового отслеживания, что затрудняет объективную оценку методов и сравнение различных подходов. Долгосрочное отслеживание особенно сложно, так как требует устойчивости к полным исчезновениям объекта из кадра, его повторному появлению после длительного отсутствия и устойчивости к значительным изменениям внешнего вида. Эти вызовы требуют разработки новых методов, способных к рассуждениям и адаптивному обновлению текстовых описаний на основе накопленной информации о треке. ## ПРЕДЛОЖЕННЫЙ МЕТОД ReasoningTrack представляет собой инновационную рамку для визуально-языкового отслеживания, которая использует pre-trained мультимодальную модель Qwen2.5-VL в качестве основы. Ключевой концепцией является внедрение цепочки рассуждений (Chain-of-Thought) в процесс генерации и обновления текстовых описаний целевого объекта. В отличие от предыдущих работ, которые использовали статические или поверхностно обновляемые языковые признаки, ReasoningTrack динамически генерирует обоснованные текстовые описания, которые адаптируются к изменениям внешнего вида объекта на протяжении всей видеопоследовательности. Архитектура системы состоит из трех основных компонентов: модуля рассуждений на основе языковой модели, унифицированной трекинговой backbone-сети и предсказывающей головки. Модуль рассуждений использует Qwen2.5-VL для генерации последовательных рассуждений о текущем состоянии объекта на основе исторической информации и текущего визуального наблюдения. Эти рассуждения представлены в виде естественного языка и включают анализ изменений внешнего вида, потенциальных причин сбоев в отслеживании и обновленное описание объекта. Генерация текста оптимизируется через два этапа: сначала используется Supervised Fine-Tuning (SFT) для обучения базовой способности к рассуждениям, затем применяется алгоритм GRPO (Group Relative Policy Optimization) из области reinforcement learning для дальнейшего улучшения качества рассуждений и их полезности для задачи отслеживания. Обновленные языковые описания затем эмбедируются и объединяются с визуальными признаками в унифицированной backbone-сети, которая использует механизмы перекрестного внимания для эффективного взаимодействия между модальностями. Конечная трекинговая голова генерирует предсказания границ объекта на основе объединенных мультимодальных признаков. Уникальность подхода заключается в том, что языковые рассуждения не только предоставляют семантическую информацию, но и служат формой внешней памяти, сохраняя контекстуальную информацию о треке на протяжении времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для всесторонней оценки пред

Annotation:

Vision-language tracking has received increasing attention in recent years, as textual information can effectively address the inflexibility and inaccuracy associated with specifying the target object to be tracked. Existing works either directly fuse the fixed language with vision features or simply modify using attention, however, their performance is still limited. Recently, some researchers have explored using text generation to adapt to the variations in the target during tracking, however,...

ID: 2508.05221v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Navigating the Trade-off: A Synthesis of Defensive Strategies for Zero-Shot Adversarial Robustness in Vision-Language Models

2025-08-09

Авторы:

Zane Xu, Jason Sun

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные мультимодальные модели, такие как CLIP, продемонстрировали выдающиеся способности к zero-shot классификации изображений, используя естественные языковые описания в качестве семантических якорей. Эти модели обучаются на масштабных датасетах сопряженных текстовых и визуальных данных, формируя общее встраиваемое пространство, где текстовые и визуальные представления близки по семантике. Однако, несмотря на впечатляющие результаты в "чистых" условиях, такие модели остаются крайне уязвимы к адверсариальным атакам - незаметным для человеческого глаза возмущениям во входных данных, способным полностью изменить предсказания модели. Ключевая проблема заключается в фундаментальном конфликте между повышением адверсариальной робастности и сохранением zero-shot обобщающей способности. Традиционные методы защиты, эффективные для чисто визуальных моделей, оказываются неприменимыми в контексте VLMs из-за уникальной двухмодальной природы архитектуры и необходимости сохранения кросс-модального выравнивания. Более того, большинство существующих защит предполагают наличие обучающего набора из конкретной задачи, что противоречит zero-shot парадигме. Исследовательское сообщество столкнулось с необходимостью разработки специализированных защитных механизмов, которые бы учитывали особенности мультимодального обучения и при этом не требовали переобучения модели на конкретной задаче. Это привело к формированию двух основных направлений: методов, модифицирующих параметры модели (Adversarial Fine-Tuning), и методов, работающих без изменения предобученных весов (Training-Free/Test-Time Defenses). Каждый подход имеет свои фундаментальные ограничения: первый рискует разрушить zero-shot обобщение, второй - ограничен в выразительной мощности защитных преобразований. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы обзора систематизируют восемь ключевых работ в области zero-shot адверсариальной робастности VLMs, классифицируя их по двум основным парадигмам защиты. Первая парадигма - Adversarial Fine-Tuning (AFT) - предполагает градиентное обновление параметров модели с целью повышения робастности, при этом критически важным является сохранение zero-shot способностей. Вторая парадигма - Training-Free/Test-Time Defenses - стремится обеспечить защиту без изменения предобученных весов модели. Эволюция методов прослеживается от простых эвристик до сложных многоуровневых защит. Первоначально предлагались alignment-preserving методы, такие как TeCoA (Test-time Consistency Alignment), которые используют консистентность между исходными и возмущенными представлениями в качестве сигнала для обучения. Затем развились методы re-engineering встраиваемого пространства: LAAT (Learnable Adversarial Augmentation for Text) и TIMA (Test-time Image Modulation for Adversarial robustness) вносят адаптивные изменения в текстовые и визуальные встраивания соответственно. Следующим этапом стало развитие input-level эвристик: AOM (Adversarial Output Matching) использует согласование выходов между оригинальными и преобразованными изображениями, а TTC (Test-time Transformation Consistency) применяет набор трансформаций для устранения адверсариального шума. Кульминацией стало развитие методов latent-space purification, представленных CLIPure, который использует диффузионные модели для очистки встраиваемых представлений в скрытом пространстве признаков. Каждый метод вносит уникальный вклад в решение trade-off между робастностью и обобщением: от легковесных эвристик с минимальными вычислительными затратами до сложных многоступенчатых систем с диффузионной очисткой. Ключевым достижением является разработка методов, которые либо минимально вмешиваются в обученные представления, либо производят обучение исключительно на уровне адаптеров и модулей тонкой настройки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эмпирическая оценка методов проводилась на стандартных бенчмарках для zero-shot классификации, включая ImageNet и его различные смещения (ImageNet-A, ImageNet-R, ImageNet-Sketch), а также на специализированных датасетах для оценки адверсариальной робастности. Атаки оценивались как белые (PGD, AutoAttack), так и черные (Square Attack, Boundary Attack) сценарии, с фокусом на ImageNet-1K как основной тестовой площадке. Результаты показывают интересную динамику trade-off между чистой точностью (clean accuracy) и ад

Annotation:

This report synthesizes eight seminal papers on the zero-shot adversarial robustness of vision-language models (VLMs) like CLIP. A central challenge in this domain is the inherent trade-off between enhancing adversarial robustness and preserving the model's zero-shot generalization capabilities. We analyze two primary defense paradigms: Adversarial Fine-Tuning (AFT), which modifies model parameters, and Training-Free/Test-Time Defenses, which preserve them. We trace the evolution from alignment-...

ID: 2508.05237v1 cs.CV, cs.AI

arXiv PDF

📄 Coarse-to-Fine Joint Registration of MR and Ultrasound Images via Imaging Style Transfer

2025-08-09

Авторы:

Junyi Wang, Xi Zhu, Yikun Guo, Zixi Wang, Haichuan Gao, Le Zhang, Fan Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Регистрация магнитно-резонансных (MR) и ультразвуковых (US) изображений представляет собой критически важную задачу в нейрохирургии, особенно при планировании и навигации во время операций по удалению опухолей головного мозга. Современная нейрохирургическая практика требует точного совмещения предоперационных данных МРТ, которые предоставляют высококонтрастные анатомические структуры, с пострезекционными ультразвуковыми изображениями, которые позволяют врачам в реальном времени оценить полноту удаления опухолевой ткани. Однако существует ряд фундаментальных проблем, которые препятствуют эффективной регистрации этих модальностей. Первая и наиболее значительная проблема заключается в кардинальном различии физических принципов формирования изображений. МРТ использует ядерный магнетизм и радиочастотные импульсы для создания детализированных анатомических снимков, тогда как ультразвук основан на отражении акустических волн, что приводит к значительно более низкому пространственному разрешению и различным типам артефактов. Это различие приводит к тому, что даже одна и та же анатомическая структура будет выглядеть совершенно по-разному на изображениях разных модальностей. Вторая проблема связана с изменениями, происходящими в мозге во время операции. После вмешательства происходит смещение мозговых тканей, изменение формы желудочков, появление отёков и гематом, что делает прямую точечную регистрацию предоперационных и постоперационных изображений практически невозможной. Традиционные методы регистрации, основанные на сопоставлении интенсивностей пикселей, оказываются неэффективными из-за этих драматических изменений. Кроме того, существует проблема отсутствия парных данных для обучения. Получение идеально зарегистрированных пар MR-US изображений представляет собой трудоемкий и дорогостоящий процесс, который требует участия экспертов-радиологов и нейрохирургов. Это ограничивает возможности применения методов глубокого обучения, которые требуют больших объемов обучающих данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают инновационный многоступенчатый подход к регистрации MR и US изображений, который решает описанные проблемы через комбинацию нейростилевого переноса и крупномасштабной деформируемой регистрации. Центральным элементом предложенной методики является использование 3D CycleGAN для генерации синтетических T1-взвешенных MR изображений из ультразвуковых данных, что позволяет существенно уменьшить разрыв между модальностями. Архитектура CycleGAN адаптирована для работы с трехмерными медицинскими изображениями. Генераторы модели используют 3D сверточные слои с пропусками (dilated convolutions) для увеличения рецептивного поля и эффективного захвата долгосрочных зависимостей в пространственных данных. Дискриминаторы реализованы в виде 3D PatchGAN, которые оценивают реалистичность локальных патчей размером 70x70x70 вокселей. Для стабилизации обучения применяется спектральная нормализация в слоях дискриминатора и цикловая консистентная потеря, которая гарантирует, что обратное преобразование восстановит исходное изображение. Процесс регистрации организован по схеме "грубо-к-тонкому" (coarse-to-fine). На первом этапе применяется аффинное преобразование, которое выполняет глобальное выравнивание изображений через вращение, масштабирование и трансляцию. Для оптимизации аффинных параметров используется нормализованная взаимная информация в качестве функции потерь, что позволяет эффективно работать даже при значительных различиях в интенсивностях между модальностями. На втором этапе реализуется локальная деформируемая регистрация с использованием свободно деформируемой модели (free-form deformation) на основе B-сплайнов. Деформационное поле параметризуется регулярной сеткой контрольных точек, где каждая точка может смещаться в трех направлениях. Для предотвращения чрезмерной деформации применяется гладкое регуляризационное слагаемое, которое штрафует большие значения градиентов деформационного поля. Оптимизация выполняется через градиентный спуск с адаптивным шагом обучения. ## ЭКСПЕРИМЕН

Annotation:

We developed a pipeline for registering pre-surgery Magnetic Resonance (MR) images and post-resection Ultrasound (US) images. Our approach leverages unpaired style transfer using 3D CycleGAN to generate synthetic T1 images, thereby enhancing registration performance. Additionally, our registration process employs both affine and local deformable transformations for a coarse-to-fine registration. The results demonstrate that our approach improves the consistency between MR and US image pairs in m...

ID: 2508.05240v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 RegionMed-CLIP: A Region-Aware Multimodal Contrastive Learning Pre-trained Model for Medical Image Understanding

2025-08-09

Авторы:

Tianchen Fang, Guiru Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Медицинское изображение — ключевой элемент современной медицины, играющий решающую роль в автоматизированном диагностировании и поддержке клинических решений на основе данных. Однако прогресс в этой области сталкивается с двумя крупными препятствиями. Во-первых, значительный недостаток качественно аннотированных медицинских данных ограничивает разработку эффективных моделей. Во-вторых, существующие модели часто основываются на глобальных признаках изображений, что приводит к пропуску тонких, но клинически важных патологических регионов. Эти регионы могут содержать критическую информацию, необходимую для точного диагностирования. Дополнительная проблема заключается в том, что многие существующие визуально-языковые модели не специально адаптированы для медицинских данных, что ограничивает их эффективность в решении задач, связанных с медицинским изображением. Требуется новый подход, который бы сочетал глобальную семантическую информацию с локализованными, точечными признаками патологий, а также обеспечивал высокую точность в задачах, таких как извлечение изображений по тексту, классификация и визуальные ответы на вопросы. Решение этих проблем требует разработки модели, которая не только обучается на больших медицинских данных, но также учитывает региональные особенности изображений. Такой подход может существенно улучшить качество медицинского изображения и повысить эффективность клинических решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД RegionMed-CLIP представляет собой инновационный region-aware мультимодальный контрастивный предварительный обучающий фреймворк, предназначенный для улучшения понимания медицинских изображений. Основной компонент этого метода — ROI (region-of-interest) процессор, который адаптивно интегрирует тонкие региональные признаки с глобальным контекстом изображения. Это позволяет модели сосредоточиться на клинически важных областях, не теряя при этом общую семантическую информацию. Для поддержки этого процесса авторы предлагают прогрессивную стратегию обучения, которая улучшает иерархическую мультимодальную алгоритмическую выравнивание. Это позволяет модели эффективно обучаться на больших медицинских данных, охватывающих различные уровни клинических описаний. Чтобы обеспечить масштабное обучение на уровне регионов, авторы создали MedRegion-500k — комплексный корпус медицинских изображений и текстов, который включает расширенные региональные аннотации и многоуровневые клинические описания. Этот корпус обеспечивает необходимые данные для обучения модели и позволяет достичь высокой точности в задачах, связанных с медицинским изображением. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий спектр экспериментов для оценки эффективности RegionMed-CLIP. Эксперименты включали задачи изображения-текста, нулевой классификации и визуальные ответы на вопросы. Результаты показали, что RegionMed-CLIP значительно превосходит современные визуально-языковые модели во всех этих задачах. В частности, модель достигла высокой точности в извлечении изображений по тексту, что демонстрирует ее способность точно сопоставлять клинические описания с соответствующими медицинскими изображениями. Также, в задачах классификации и визуальных ответов на вопросы, RegionMed-CLIP показала значительное улучшение по сравнению с другими моделями. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RegionMed-CLIP имеет широкий спектр практических применений в медицинской диагностике и поддержке клинических решений. Благодаря ее способности учитывать региональные особенности изображений, она может использоваться для точного диагностирования различных заболеваний, включая те, которые требуют высокой чувствительности к тонким патологическим изменениям. Кроме того, модель может быть использована для автоматизации процессов классификации и визуального анализа медицинских изображений, что сэкономит время и ресурсы в клинической практике. Ее прогрессивная структура и высокая точность делают ее идеальной для использования в крупных медицинских базах данных, где критически важно обеспечивать высокую точность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ RegionMed-CLIP является передовым решением для медицинского изображения, которое эффективно сочетает глобальные и локальные признаки для улучшения точности диагностики. Будущие исследования могут расширить этот подход, включая большее количество клинических данных и улучшив точность модели в реальных клинических условиях. Также, можно исследовать возможности интеграции RegionMed-CLIP с другими медицинскими технологиями для создания более комплексных решений для медицинской диагностике.

Annotation:

Medical image understanding plays a crucial role in enabling automated diagnosis and data-driven clinical decision support. However, its progress is impeded by two primary challenges: the limited availability of high-quality annotated medical data and an overreliance on global image features, which often miss subtle but clinically significant pathological regions. To address these issues, we introduce RegionMed-CLIP, a region-aware multimodal contrastive learning framework that explicitly incorp...

ID: 2508.05244v1 cs.CV, cs.AI

arXiv PDF

📄 A Study of Gender Classification Techniques Based on Iris Images: A Deep Survey and Analysis

2025-08-09

Авторы:

Basna Mohammed Salih Hasan, Ramadhan J. Mstafa

## КОНТЕКСТ И ПРОБЛЕМАТИКА Классификация пола является важной областью в различных приложениях, таких как слежение и наблюдение, корпоративное профайлинг, и взаимодействие человека с компьютером. Определение пола человека представляет собой форму мягкой биометрии, которая помогает в идентификации личности. За последние годы было разработано множество методов для определения пола, основанных на различных физических признаках, таких как лицо, отпечатки пальцев, отпечатки ладони, ДНК, ухо, шаг и рост ребра. Однако методы, основанные на физических характеристиках лица, являются самыми популярными и широко используемыми. Одним из наиболее перспективных биометрических признаков является рост ребра. Исследования показали, что рост ребра остается вероятно константным на протяжении всей жизни человека. Кроме того, рост ребра виден извне и не требует вторжения в организм пользователя, что делает его удобным и практичным для реальных приложений. Доступны хорошо разработанные методы для сегментации и кодирования изображений роста ребра, что облегчает выбор и извлечение векторов атрибутов из текстур роста ребра. Однако, несмотря на широкое распространение методов классификации пола, существуют некоторые проблемы и пробелы в этой области. Например, многие существующие методы страдают от недостатков в точности и надежности, особенно при работе с большими и разнообразными наборами данных. Кроме того, существует потребность в более глубоком анализе и сравнении различных подходов для классификации пола, чтобы понять их сильные и слабые стороны. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данном исследовании предлагается детальный обзор и анализ различных методов классификации пола, основанных на росте ребра. Авторы предоставляют подробное описание методологий, используемых на различных этапах классификации пола. Обзор включает в себя различные подходы к сегментации и кодированию текстур роста ребра, а также методы извлечения и выбора векторов атрибутов. Авторы также обсуждают различные методы классификации, используемые в предыдущих исследованиях, и анализируют их эффективность. Они предлагают новые подходы и улучшения для существующих методов, направленные на повышение точности и надежности классификации пола. Кроме того, исследование охватывает использование различных алгоритмов машинного обучения и глубокого обучения для улучшения процесса классификации. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проводятся эксперименты с использованием различных наборов данных для оценки эффективности предлагаемых методов. Авторы используют как синтетические, так и реальные данные для тестирования и сравнения различных подходов к классификации пола. Результаты экспериментов показывают, что предлагаемые методы могут достигать высокой точности классификации, особенно при использовании современных методов машинного обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Классификация пола имеет широкое применение в различных областях, таких как безопасность, маркетинг, и медицинские исследования. Использование роста ребра как биометрического признака предоставляет некоторые преимущества, такие как неинвазивность и константность на протяжении жизни. Это делает его привлекательным для практических приложений, где необходима высокая точность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В исследовании представлены основные достижения в области классификации пола на основе роста ребра. Авторы выделяют значительные улучшения в точности и надежности методов, а также предлагают направления для будущих исследований. Они подчеркивают необходимость дальнейшего исследования и разработки более эффективных методов для обработки и анализа текстур роста ребра. Кроме того, исследование выделяет необходимость в создании более крупных и разнообразных наборов данных для тестирования и улучшения методов классификации пола.

Annotation:

Gender classification is attractive in a range of applications, including surveillance and monitoring, corporate profiling, and human-computer interaction. Individuals' identities may be gleaned from information about their gender, which is a kind of soft biometric.Over the years, several methods for determining a person's gender have been devised. Some of the most well-known ones are based on physical characteristics like face, fingerprint, palmprint, DNA, ears, gait, and iris. On the other han...

ID: 2508.05246v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 CF3: Compact and Fast 3D Feature Fields

2025-08-09

Авторы:

Hyunjoon Lee, Joonkyu Min, Jaesik Park

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) — это перспективный подход к представлению трехмерных сцен, который интегрирует богатые 2D-фундаментальные модели для повышения точности и качества. Несмотря на значительные улучшения, многие существующие методы опираются на низкоуровневые (bottom-up) оптимизационные процессы, где необработанные 2D-фундаментальные признаки рассматриваются как истинные данные. Такой подход требует высоких вычислительных ресурсов, что создает барьер для практического применения. Кроме того, большинство существующих методов обучают автоэнкодеры (autoencoders) в 2D-пространстве, а затем применяют их к 3D-данным, что может привести к несоответствию между распределением признаков в 2D и 3D-пространстве. Проблематика заключается в необходимости создания более компактных и эффективных методов для представления 3D-сцен, которые сохраняют детали геометрии и при этом снижают вычислительную сложность. Также важно обеспечить лучшее выравнивание между распределением признаков в 2D и 3D, чтобы повысить качество представления и снизить требования к ресурсам. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается новый подход под названием CF3 (Compact and Fast 3D Feature Fields), который решает вышеупомянутые проблемы путем внедрения топо-низкого (top-down) конвейера. Основные этапы метода включают: 1. **Быстрая взвешенная фьюжн (Weighted Fusion):** На первом этапе производится быстрая интеграция многоугольников 2D-фундаментальных признаков с предварительно обученными Гауссовыми распределениями. Это позволяет эффективно перенести информацию из 2D-пространства в 3D-пространство. 2. **Обучение автоэнкодера на 3D-данных:** В отличие от традиционных методов, CF3 обучает автоэнкодеры непосредственно на 3D-данных, поднятых из 2D-признаков. Это обеспечивает лучшее выравнивание распределения признаков между 2D и 3D-пространством. 3. **Адаптивная спарсификация (Adaptive Sparsification):** Для оптимизации представления 3D-сцены предлагается метод адаптивной спарсификации, который удаляет и сливает избыточные Гауссовы распределения. Это позволяет сократить количество используемых Гауссов на до 95% по сравнению с Feature-3DGS, сохраняя при этом детали геометрии. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных 3D-данных, включая сцены с высокой сложностью геометрии. CF3 демонстрирует следующие результаты: - **Уменьшение количества Гауссов:** Метод достигает высокого качества представления 3D-сцены, используя только 5% Гауссовых распределений по сравнению с Feature-3DGS. - **Снижение вычислительной сложности:** Благодаря адаптивной спарсификации и топо-низкому конвейеру, CF3 значительно сокращает время обработки и использование ресурсов. - **Сохранение геометрии:** Даже при существенном сокращении количества Гауссов, метод сохраняет детали геометрии, что подтверждается качественными и количественными оценками. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CF3 имеет широкое применение в областях, требующих эффективное представление 3D-сцен, таких как: - **Виртуальная и дополненная реальность:** Компактные и быстрые 3D-представления могут улучшить производительность приложений VR/AR. - **3D-моделирование и визуализация:** Метод может быть использован для создания высококачественных и оптимизированных 3D-моделей для различных приложений. - **Автономные системы:** Низкие вычислительные требования делают CF3 пригодным для использования в автономных системах, таких как роботы и автономные автомобили. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CF3 представляет собой эффективный и компактный метод для создания 3D-представлений, который сочетает в себе высокое качество и низкие вычислительные требования. Будущие исследования могут сосредоточиться на дальнейшем улучшении адаптивной спарсификации и интеграции CF3 с другими моделями для повышения качества и эффективности представления 3D-сцен.

Annotation:

3D Gaussian Splatting (3DGS) has begun incorporating rich information from 2D foundation models. However, most approaches rely on a bottom-up optimization process that treats raw 2D features as ground truth, incurring increased computational costs. We propose a top-down pipeline for constructing compact and fast 3D Gaussian feature fields, namely, CF3. We first perform a fast weighted fusion of multi-view 2D features with pre-trained Gaussians. This approach enables training a per-Gaussian autoe...

ID: 2508.05254v1 cs.CV, cs.AI

arXiv PDF

📄 Robust Tracking with Particle Filtering for Fluorescent Cardiac Imaging

2025-08-09

Авторы:

Suresh Guttikonda, Maximilian Neidhart, Johanna Sprenger, Johannes Petersen, Christian Detter, Alexander Schlaefer

## КОНТЕКСТ И ПРОБЛЕМАТИКА Коронарное шунтирование (CABG) остаётся «золотым стандартом» лечения многовеселой ишемической болезни сердца, но его долгосрочный успех напрямую зависит от проходимости создаваемых шунтов. Современные операционные залы оснащаются гибридными системами: после завершения анастомозов хирург может ввести флуоресцентный индикатор (чаще всего индоцианин-зелёный — ICG) и в реальном времени оценивать микроциркуляцию миокарда. Получаемые при этом видеопотоки (обычно 25–30 кадр/с, разрешение 512×512–1024×1024) содержат богатую динамическую информацию: начальный «wash-in» красителя, плато и «wash-out» фазы дают возможность вычислить количественные показатели — время до пика, скорость накопления, площадь под кривой и др. Эти параметры коррелируют с ранним функциональным результатом, позволяя хирургу принимать решение о корректировке плохо перфузируемых участков ещё до закрытия грудной клетки. Однако само сердце продолжает сокращаться, создавая сложную трёхмерную траекторию движения: поворот вокруг оси, смещение основания и вершины, а также высокочастотные вибрации, вызванные вентиляцией лёгких. Кроме того, при наполнении коронарных сосудов ICG структурно обогащается сеть мельчайших артериол и венул, что приводит к резким изменениям яркости, контраста и текстур. Традиционные методы отслеживания опорных точек — от простого KLT-трекера до современных свёрточных нейросетей (Siamese, GOTURN, SiamRPN) — терпят неудачу: либо теряют цель при масштабных изменениях, либо «прилипают» к похожим текстурам соседних сосудов. В результате хирург вынужден полагаться на субъективную оценку «на глаз», а количественная перфузионная карта остаётся неточной. Работа Guttikonda и коллег ставит цель разработать трекер, который был бы одновременно: 1) точным (ошибка < 5 px при разрешении 512×512), 2) устойчивым к контрастным всплескам, 3) масштабируемым до сотен одновременно отслеживаемых точек, и 4) работающим в реальном времени на оборудовании операционной. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают гибридную архитектуру, объединяющую классический фильтр частиц (Sequential Importance Resampling, SIR) с «циклической проверкой согласованности» (cyclic-consistency check). Вход — последовательность флуоресцентных кадров Iₜ, предобработанных гауссовым размытием (σ = 0.8 px) для подавления шумов CMOS-матрицы. Для каждого целевого ландшафта (например, bifurcation коронарной артерии) формируется множество из N = 300 частиц-гипотез {xₜⁱ}ᵢ₌₁ᴺ, где xₜⁱ = (u, v, ẋ, ẏ, θ, s) — 6-мерный вектор состояния: координаты, скорости, вращение и масштаб. Динамическая модель задаётся как xₜ = A xₜ₋₁ + qₜ, где A — матрица постоянной скорости, а qₜ ~ 𝒩(0, Q) учитывает случайные колебания миокарда. Главная инновация — двухэтапный цикл согласованности. Сначала прямой проход (forward pass): частицы прогнозируются из t–1 в t. Затем обратный проход (backward pass): те же частицы регрессируются обратно в t–1 и сравниваются с исходными положениями. Расстояние ‖xₜ₋₁ⁱ − x̂ₜ₋₁ⁱ‖ используется как метрика надёжности wₜⁱ ∝ exp(−‖·‖²/2σ²). Эта процедура эффективно подавляет «дрейф» на текстурно похожих сосудах: если частица ошиблась в прямом направлении, обратный шаг возвращает её далеко от истины, и её вес резко падает. Для измерения правдоподобия применяется адаптивное цветовое моделирование: каждая частица строит локальную цветовую гистограмму HSV (16×4×4 бина) вокруг якорной точки и сравнивает её с шаблоном H* из первого кадра с помощью дивергенции Бхаттачарьи. Также используется аппаратная оптимизация: вычисления распараллелены на GPU (CUDA kernels) с использованием shared memory для

Annotation:

Intraoperative fluorescent cardiac imaging enables quality control following coronary bypass grafting surgery. We can estimate local quantitative indicators, such as cardiac perfusion, by tracking local feature points. However, heart motion and significant fluctuations in image characteristics caused by vessel structural enrichment limit traditional tracking methods. We propose a particle filtering tracker based on cyclicconsistency checks to robustly track particles sampled to follow target lan...

ID: 2508.05262v1 cs.CV, cs.AI

arXiv PDF

📄 SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion

2025-08-09

Авторы:

Xiaoyang Zhang, Zhen Hua, Yakun Ju, Wei Zhou, Jun Liu, Alex C. Kot

## КОНТЕКСТ И ПРОБЛЕМАТИКА Инфракрасно-видимое изображение (IVIF) — это ключевой процесс в области компьютерного зрения, направленный на комбинацию тепловой радиации, присущей инфракрасным изображениям, и деталей текстуры, характерных для видимых изображений. Цель этого процесса — улучшить восприятие и повысить эффективность вычислительных задач, таких как наблюдение, распознавание объектов и мониторинг. Однако традиционные методы IVIF сталкиваются с серьёзными ограничениями. Проблема заключается в том, что существующие подходы часто не могут должным образом сохранить ключевые объекты и детали из-за отсутствия глубокого семантического понимания сцены. Это приводит к потере важной информации и возникновению артефактов в результирующем изображении. Кроме того, процесс слияния может привести к потере деталей и снижению качества изображения, что негативно сказывается на производительности в дополнительных задачах. Мотивация для разработки новых методов заключается в необходимости создания более эффективных решений, которые бы сочетали высокое качество изображений с сохранением ключевых семантических деталей. Подобные методы должны быть в состоянии обеспечить высокую точность функциональных задач, таких как распознавание и классификация, особенно в условиях, где исходные данные имеют различные модальности и сложность. В этой статье авторы предлагают SGDFuse — инновационный подход, который использует Segment Anything Model (SAM) для генерации высококачественных семантических масок. Эти маски служат явными приоритетов для улучшения процесса фузирования, обеспечивая тем самым более точный и высококачественный результат. ## ПРЕДЛОЖЕННЫЙ МЕТОД SGDFuse представляет собой уникальную комбинацию модели Conditional Diffusion Model (CDM) и Segment Anything Model (SAM) для достижения высококачественного и семантически осмысленного фузирования инфракрасных и видимых изображений. Архитектура метода основана на двух этапах. На первом этапе производится предварительное фузирование мультимодальных фичи с использованием традиционных подходов. На втором этапе SAM используется для генерации высококачественных семантических масок, которые вместе с результатом предварительного фузирования служат условием для оптимизации модели CDM. Это гарантирует, что процесс фузирования будет направлен на сохранение важной семантической информации и устранение артефактов. Ключевой момент метода заключается в том, что SAM предоставляет явные семантические приоритеты, которые помогают CDM в процессе шумоподавления и генерации изображений. Этот подход обеспечивает качество результата на высоком уровне, сохраняя при этом важные детали и структуру изображения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий набор экспериментов для оценки эффективности SGDFuse. Использовались различные наборы данных, включая инфракрасные и видимые изображения с различными условиями захвата. Результаты показали, что SGDFuse достигает лучших показателей по качественным и количественным показателям по сравнению с современными методами. В частности, SGDFuse показал значительное улучшение в плане сохранения деталей, уменьшения артефактов и повышения качества результирующих изображений. Эксперименты также подтвердили высокую адаптивность метода к различным задачам, таким как распознавание объектов и мониторинг, что делает его универсальным инструментом для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SGDFuse имеет широкое применение в различных областях, где важна высокая точность и качество обработки изображений. Этот метод может быть использован в таких областях, как наблюдение и мониторинг, распознавание объектов, медицинское изображение и системы безопасности. Его способность сохранять ключевые семантические детали и обеспечивать высокое качество изображений делает его важным инструментом для разработки высокопроизводительных систем компьютерного зрения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SGDFuse представляет собой значительный шаг вперёд в области IVIF, обеспечивая высококачественное и семантически осмысленное фузирование изображений. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, включая использование более продвинутых моделей для генерации семантических масок и оптимизации процесса фузирования. Кроме того, можно исследовать возможности применения этого подхода к другим модальностям изображений и задачам компьютерного зрения.

Annotation:

Infrared and visible image fusion (IVIF) aims to combine the thermal radiation information from infrared images with the rich texture details from visible images to enhance perceptual capabilities for downstream visual tasks. However, existing methods often fail to preserve key targets due to a lack of deep semantic understanding of the scene, while the fusion process itself can also introduce artifacts and detail loss, severely compromising both image quality and task performance. To address th...

ID: 2508.05264v1 cs.CV, cs.AI

arXiv PDF

📄 VS-LLM: Visual-Semantic Depression Assessment based on LLM for Drawing Projection Test

2025-08-09

Авторы:

Meiqi Wu, Yaxuan Kang, Xuchen Li, Shiyu Hu, Xiaotang Chen, Yunfeng Kang, Weiqiang Wang, Kaiqi Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Для диагностики и оценки психического состояния человека в области психотерапии и психодиагностики широко используется тест на рисунки (Drawing Projection Test, DPT). Один из наиболее распространенных видов DPT — тематический тест "A Person Picking an Apple from a Tree" (PPAT), который позволяет выявить различные психологические состояния, включая депрессию. Через анализ рисунков можно получить глубокое понимание психического состояния человека, особенно когда они используют такие элементы, как цвета, пространственное расположение и другие визуальные аспекты. Однако, интерпретация рисунков в DPT требует больших усилий со стороны психологов, которые должны основываться на своем опыте и знаниях. Кроме того, тест PPAT имеет определенные ограничения: он выполняется под временным давлением, без возможности получения вербальных подсказок, что может приводить к неточностям в рисунках и отсутствию детальных описаний. В этой области исследования существует необходимость в разработке эффективных методов автоматизированного анализа рисунков, которые позволяют упрощать и улучшать процесс диагностики. Традиционные методы распознавания рисунков обычно сосредоточены на распознавании отдельных объектов, но DPT требует более широкого подхода, который учитывает общую оценку рисунков, включая использование цветов, пространственного расположения и других визуальных элементов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этих проблем, авторы предлагают метод Visual-Semantic Depression Assessment based on LLM (VS-LLM). Этот метод основывается на использовании технологии языковых моделей (LLM) для анализа визуально-семантических аспектов рисунков. Архитектура VS-LLM включает в себя несколько ключевых компонентов: 1. **Визуальный анализ**: Метод анализирует визуальные элементы рисунков, такие как использование цветов, пространственное расположение объектов и общую композицию. Эти элементы играют важную роль в оценке психологического состояния. 2. **Семантический анализ**: Дополнительно к визуальным аспектам, метод учитывает семантические элементы, такие как выбор объектов, их размеры, формы и их взаимодействие. Это позволяет получить более глубокий инсайт в психическое состояние человека. 3. **Интеграция LLM**: Языковые модели используются для обработки и анализа данных, полученных из рисунков. LLM позволяет создавать более точные модели для оценки психического состояния, основываясь на комплексном анализе визуальных и семантических данных. 4. **Автоматизированная система**: Авторы также разработали систему, которая позволяет автоматизировать процесс анализа рисунков, что значительно упрощает работу психологов и повышает эффективность диагностики. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода VS-LLM были проведены эксперименты на базе данных рисунков, собранных в рамках тестирования PPAT. Данные включали рисунки, созданные участниками теста, которые были подвергнуты анализу с помощью предложенного метода. Результаты показали, что метод VS-LLM достигает значительного улучшения по сравнению со знаниями психологов. Конкретно, VS-LLM показал лучшие результаты на 17.6% по сравнению с традиционным методом оценки психологами. Это улучшение связано с более точным анализом визуальных и семантических элементов рисунков, который позволяет выявить более точные характеристики психического состояния. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое применение в области психологической диагностики. Он может быть использован для большого количества задач, таких как: - **Диагностика депрессии**: VS-LLM позволяет быстро и точно оценивать психическое состояние человека на основе его рисунков. - **Психотерапия и консультирование**: Метод может быть использован для поддержки психотерапевтических сессий, помогая психологам лучше понять состояние пациентов. - **Автоматизация процессов**: Автоматическая система упрощает работу психологов, позволяя им сосредоточиться на более сложных аспектах диагностики. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод VS-LLM, который улучшает процесс оценки психического состояния человека на основе рисунков. Этот метод демонстрирует высокую эффективность и может быть применен в различных областях психологии и психотерапии. В будущем, дальнейшее исследование может быть направлено на улучшение точности и расширение областей применения данного метода, а также на интеграцию с другими методами диагностики психического состояния.

Annotation:

The Drawing Projection Test (DPT) is an essential tool in art therapy, allowing psychologists to assess participants' mental states through their sketches. Specifically, through sketches with the theme of "a person picking an apple from a tree (PPAT)", it can be revealed whether the participants are in mental states such as depression. Compared with scales, the DPT can enrich psychologists' understanding of an individual's mental state. However, the interpretation of the PPAT is laborious and de...

ID: 2508.05299v1 cs.CV, cs.AI

arXiv PDF

📄 mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering

2025-08-09

Авторы:

Xu Yuan, Liangbo Ning, Wenqi Fan, Qing Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Retrieval-Augmented Generation (RAG) стал ключевым подходом для расширения внутреннего знания Многомодальных Больших Языковых Моделей (МБЯМ) путем интеграции внешних баз знаний в процесс генерации, что широко применяется в задачах Знаний-ориентированного Ответа на Вопросы с Изображениями (VQA). Несмотря на значительные достижения в этой области, традиционные методы RAG, основанные на неструктурированных документах, часто игнорируют структурные отношения между элементами знаний. Это приводит к возникновению неуместной или вводящей в заблуждение информации, что снижает точность и надежность ответов. Данная проблема особенно актуальна в контексте задач VQA, где точность ответов критически важна. Неспособность существующих методов эффективно обрабатывать структурированные отношения между различными модальностями (такими как текст и изображения) является ключевой проблемой. Кроме того, многие существующие подходы не могут эффективно интегрировать многомодальные знания в процесс генерации, что ограничивает их применимость в реальных сценариях. В связи с этим возникает потребность в разработке новых методологий, которые могут эффективно интегрировать структурированные многомодальные знания в RAG-based VQA системы для улучшения точности и надежности ответов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой работе авторы предлагают новый метод mKG-RAG, основанный на многомодальных знаниях для улучшения задач VQA. Основная идея заключается в интеграции многомодальных графов знаний (multimodal KGs) в RAG-based VQA фреймворк для обеспечения более точной и структурированной генерации ответов. mKG-RAG использует модели Многомодальных Больших Языковых Моделей (MLLM) для извлечения ключевых слов и оптимизации соответствия текста и изображений. Этот процесс позволяет выделить семантически согласованные и модальностью-алгоритмически оптимизированные сущности и отношения из многомодальных документов. Затем эти сущности и отношения используются для построения высококачественных многомодальных графов знаний (KGs), которые служат структурированным представлением знаний. Кроме того, авторы предлагают двухступенчатую стратегию извлечения, оснащенную вопрос-зависимым многомодальным ретриевером (question-aware multimodal retriever). Эта стратегия позволяет улучшить эффективность извлечения информации и повысить точность получаемых результатов. Этот метод также обеспечивает более точное сопоставление вопроса с соответствующими элементами знаний в многомодальном графе. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексные эксперименты для оценки эффективности mKG-RAG по сравнению с существующими методами. Были использованы различные наборы данных для задач VQA, которые включали как текстовую, так и визуальную информацию. Результаты экспериментов показали, что mKG-RAG значительно превосходит существующие методы показателями точности и надежности ответов. В частности, mKG-RAG показал лучшие результаты в условиях, где вопросы требовали интеграции знаний из различных модальностей. Двухступенчатая стратегия извлечения также показала свою эффективность в обеспечении высокой точности поиска и извлечения релевантных элементов знаний. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ mKG-RAG имеет широкие возможности применения в реальных сценариях, где критически важна точность ответов на вопросы, основанные на многомодальных данных. Этот метод может быть использован в различных областях, таких как медицинские диагностики, системы поддержки решений, интеллектуальные помощники, и других приложениях, требующих интеграции структурированных многомодальных знаний. Основными преимуществами mKG-RAG является его способность обрабатывать сложные взаимосвязи между различными модальностями знаний, что позволяет получать более точные и релевантные ответы. Это может существенно повысить эффективность и надежность систем, основанных на VQA, в различных прикладных областях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод mKG-RAG, который интегрирует многомодальные графы знаний в RAG-based VQA фреймворк для улучшения точности и надежности ответов. Эксперименты показали, что этот метод значительно превосходит существующие подходы в задачах VQA. В будущем могут быть исследованы другие способы улучшения mKG-RAG, такие как интеграция дополнительных модальностей знаний, улучшение моделей извлечения и генерации, а также применение этого подхода к другим типам задач, требующих интеграции многомодальных знаний.

Annotation:

Recently, Retrieval-Augmented Generation (RAG) has been proposed to expand internal knowledge of Multimodal Large Language Models (MLLMs) by incorporating external knowledge databases into the generation process, which is widely used for knowledge-based Visual Question Answering (VQA) tasks. Despite impressive advancements, vanilla RAG-based VQA methods that rely on unstructured documents and overlook the structural relationships among knowledge elements frequently introduce irrelevant or mislea...

ID: 2508.05318v1 cs.CV, cs.AI

arXiv PDF

1
2
1156
1157
1158
1159
1160
1161
1162

Показано 11571 - 11580 из 11614 записей