📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Simple o3: Towards Interleaved Vision-Language Reasoning

2025-08-19

Авторы:

Ye Wang, Qianglong Chen, Zejun Li, Siyuan Wang, Shijie Guo, Zhirui Zhang, Zhongyu Wei

#### Контекст В последние годы видение-языковые (визаулизованные) задачи, такие как обработка данных видео и синтез текста, приобрели неизменное значение в области искусственного интеллекта. Особенно заметно это в области компьютерного зрения, где модели используют текст для описания изображений, выявления объектов и даже контроля роботов. Однако существуют проблемы, связанные с недостаточным использованием визуальных контекстов, а также с ограниченными возможностями в реализации динамического обучения. Многие модели способны только ограниченно выполнять визуально-языковые логические задачи, особенно когда требуется длительный цепной роутинг (Chain-of-Thought, CoT). Многие текущие модели не могут работать с реальными изображениями в реальном времени. Мы предлагаем Simple o3, модель, которая объединяет визуальные и языковые операции в одной структуре, чтобы улучшить возможности модели в работе с визуальными данными. #### Метод Simple o3 — это модель, реализующая динамический подход к визуально-языковому резонью. Она нацелена на улучшение возможностей MLLMs (от Multimodal Large Language Models) при работе с изображениями. Метод основывается на OpenAI's "o3", который использует итеративные трансформации визуальных данных и языковые операции для реализации человеческих "воображений с изображениями". Мы внедрили новый подход к методу CoT, используя интерлейдированный (разбитый на этапы) визуально-языковой подход, который позволяет модели более эффективно работать с изображениями. Модель основывается на выполнении трех типов операций: cropping, zooming и reusing, что позволяет модели динамически обрабатывать изображения в течение всего процесса рассуждений. Мы также разработали уникальную архитектуру для того, чтобы модель могла учитывать сложные визуальные задачи, используя только небольшое количество раундов рассуждений. Мы подготавливаем набор данных TWI-Tools-146K, который включает в себя высококачественные интерлейдированные визуально-языковые задачи, с использованием технологии "observe-reason-act" и строгих верификаций. #### Результаты Мы провели ряд экспериментов на различных бенчмарках для визуально-языковых задач, в том числе на задаче Visual Question Answering (VQA). Модель Simple o3 показала существенное улучшение по сравнению с другими моделями, в том числе LXMERT и ViLT. Мы проверили, как различные виды визуально-языковых операций влияют на подготовленные результаты. Например, мы провели эксперименты с разными видами режимов cropping, zooming и reusing, и выявили, что точное cropping, опираясь на ключевые определения, позволяет модели более точно определять объекты и регионы. Мы также протестировали

Annotation:

Multimodal Large Language Models (MLLMs) have shown impressive performance on vision-language tasks, but their long Chain-of-Thought (CoT) capabilities in multimodal scenarios remain underexplored. Inspired by OpenAI's o3 model, which emulates human-like ''thinking with image'' through iterative visual transformations and linguistic reasoning, we propose Simple o3, an end-to-end framework that integrates dynamic tool interactions (e.g., cropping, zooming, and reusing) into interleaved vision-lan...

ID: 2508.12109v1 cs.CV, cs.AI

arXiv PDF

📄 KP-INR: A Dual-Branch Implicit Neural Representation Model for Cardiac Cine MRI Reconstruction

2025-08-19

Авторы:

Donghang Lyu, Marius Staring, Mariya Doneva, Hildo J. Lamb, Nicola Pezzotti

## Контекст Cardiac Magnetic Resonance (CMR) imaging является неинвазивным методом оценки структуры, функции и кровотока сердечных сосудов. Для снижения времени сканирования и уменьшения неприятных ощущений при дыхании, были разработаны быстрые аккумуляционные техники, но они ухудшили качество изображений. Интерес к Implicit Neural Representation (INR) набирает обороты в связи с его возможностью восстанавливать качественные изображения из неполных данных. Однако существующие INR-модели ограничиваются позиционными индентификаторами, не учитывая локальные контекстные особенности. Наша модель KP-INR предложена для решения этой проблемы, реализуя кросс-бранч интеракцию и обеспечивая точность восстановления. ## Метод KP-INR представляет собой двухветвенную конфигурацию INR. Одна ветвь обрабатывает позиционные индентификаторы координат в k-пространстве, тогда как другая обучается на многомерных контекстных фичах в k-пространстве. Для этого используется архитектура с отдельными нейросетевыми модулями для каждого канала в k-пространстве. Интеракция между ветвями происходит через объединение выходных данных, что позволяет модели подсчитать восстанавливаемые значения в k-пространстве с учетом контекста. Модель обучена на CMRxRecon2024 датасете, где наблюдается улучшение качества восстановления по сравнению с базовыми INR-моделями. ## Результаты Проведенные эксперименты показали, что KP-INR превосходит существующие модели по метрикам качества, таким как PSNR и SSIM. Модель продемонстрировала способность восстанавливать качественные изображения даже при сильной неполноте входных данных. Особенно выдающимися результатами она показалась в сценариях с использованием Cartesian undersampling. Наглядные примеры изображений и метрические сравнения подтвердили значительное преимущество KP-INR над конкурентами. ## Значимость Предложенная модель может быть применена в области медицинских изображений для быстрого и качественного восстановления CMR-изображений. Она предлагает преимущества в снижении дыхательного дискомфорта пациентов и сокращении времени сканирования. Благодаря улучшенному качеству изображений, модель может способствовать точной диагностике и настройке лечения. Это делает KP-INR прорывным решением в области Implicit Neural Representation. ## Выводы Модель KP-INR продемонстрировала сильную эффективность в восстановлении CMR-изображений из неполных k-пространствных данных. Она сочетает в себе преимущества двухветвенной архитектуры, обеспечивая кросс-бранч интеракцию и учитывая локальные контекстные особенности. Будущие исследования будут сконцентрированы на расширении модели для работы с другими типами сканирования и улучшении про

Annotation:

Cardiac Magnetic Resonance (CMR) imaging is a non-invasive method for assessing cardiac structure, function, and blood flow. Cine MRI extends this by capturing heart motion, providing detailed insights into cardiac mechanics. To reduce scan time and breath-hold discomfort, fast acquisition techniques have been utilized at the cost of lowering image quality. Recently, Implicit Neural Representation (INR) methods have shown promise in unsupervised reconstruction by learning coordinate-to-value map...

ID: 2508.12147v1 cs.CV, cs.AI

arXiv PDF

📄 Demystifying Foreground-Background Memorization in Diffusion Models

2025-08-19

Авторы:

Jimmy Z. Di, Yiwei Lu, Yaoliang Yu, Gautam Kamath, Adam Dziedzic, Franziska Boenisch

#### Контекст Diffusion models (DMs) — модели глубокого обучения, которые генерируют изображения за счет постепенного замены шума на данные. Они показали свою эффективность в задачах, таких как генерация реалистичных изображений. Однако модели DMs также сохраняют возможность реплицировать элементы обучающих данных, что приводит к их воспроизведению во время генерации. Этот эффект, известный как "памятность", может привести к ненамеренной разглашению информации или к нежелательным последствиям, таким как переобучение. Данная проблема вызывает большой интерес, так как она отражает ограничения существующих моделей и их потенциальные опасности. Цель данного исследования — понять, каким образом DMs сохраняют информацию и как можно измерить эту "памятность" в различных режимах генерации. #### Метод Для изучения проблемы "памятности" в DMs была разработана новая метрика, названная Foreground-Background Memorization (FB-Mem). Эта метрика делит генерируемые изображения на фоновые и переднего плана (foreground), что позволяет определить, какие части изображений были получены из обучающих данных. FB-Mem использует сегментацию изображений для точного выделения областей, которые были запомнены моделью. Метод также позволяет классифицировать и измерить степень "памятности" в разных режимах, включая генерацию по заданному стимулу. Эта новая метрика значительно расширяет понимание "памятности" в DMs, позволяя выявить не только полное воспроизведение изображений, но и частичный клонирование регионов, включая локальные участки образов. #### Результаты Исследователи применили FB-Mem к нескольким моделям DMs и обнаружили, что "памятность" в действительности шире, чем предполагалось. Модели не только воспроизводят целые изображения, но и запоминают отдельные участки, такие как лица основных персонажей или детали фона. Даже при использовании различных методов модельного урезания, таких как удаление нейронов или преобразования слоев, "памятность" в локальных регионах остается в силе. Также наблюдалось, что некоторые изображения могут быть сгенерированы из нескольких похожих обучающих примеров, что указывает на сложные модели памяти, которые не ограничиваются одно-к-одному соответствием между обучением и генерацией. #### Значимость Результаты данного исследования имеют важное значение для области безопасности и приватности в области генерируемых моделей. Запечатанная информация, которая может быть воспроизведена моделями DMs, представляет собой огромный риск для конфиденциальности пользователей. Благодаря FB-Mem, модели могут быть более транспарентны,

Annotation:

Diffusion models (DMs) memorize training images and can reproduce near-duplicates during generation. Current detection methods identify verbatim memorization but fail to capture two critical aspects: quantifying partial memorization occurring in small image regions, and memorization patterns beyond specific prompt-image pairs. To address these limitations, we propose Foreground Background Memorization (FB-Mem), a novel segmentation-based metric that classifies and quantifies memorized regions wi...

ID: 2508.12148v1 cs.CV, cs.AI

arXiv PDF

📄 RealTalk: Realistic Emotion-Aware Lifelike Talking-Head Synthesis

2025-08-19

Авторы:

Wenqing Wang, Yun Fu

#### Контекст Эмоции являются ключевым компонентом искусственного социального интеллекта. Однако, несмотря на то, что нынешние методы достигли высокой точности в синтезе говорящих голов и качества изображения, они часто сталкиваются с проблемой точного генерирования эмоциональных выражений, сохраняя при этом точность идентификации субъекта. Это приводит к неестественности и неподходящим эмоциональным реакциям. Для решения этой проблемы мы предлагаем RealTalk — новую систему для создания реалистичных эмоциональных говорящих голов, которая обеспечивает высокую точность в определении эмоций, эмоциональную контролируемость и надежные результаты в сохранении идентичности. #### Метод RealTalk основывается на комбинации вариационного автоэнкодера (VAE) и модели ResNet-based landmark deformation model (LDM). Аудиосигнал обучает VAE для генерирования 3D-фасетов лица. Эти фасетов затем конкатенируются с эмоциональными этикетками, используя LDM, чтобы создавать эмоционально-специфические фасетовые деформации. Эти деформации, вместе с фасетовыми коэффициентами лица, подаются в NeRF с три-плоскостным аутентификатором для создания реалистичных эмоциональных говорящих голов. Наша архитектура работает на базе NeRF, но применяет дополнительные эмоциональные признаки для улучшения реализма и контроля. #### Результаты Мы провели серию экспериментов на различных данных, включая говорящие головы с различными эмоциями. Наши результаты показывают, что RealTalk превосходит существующие методы в области точности, контроля и сохранения идентичности. Мы также провели сравнительный анализ с наиболее популярными моделями, подтвердив, что RealTalk обеспечивает более естественные и точные эмоциональные выражения. Эти результаты подтверждают ценность нашего подхода в создании систем, которые могут эмоционально взаимодействовать с пользователями. #### Значимость Применение RealTalk может иметь значительные последствия в области искусственного интеллекта, в частности для создания социально интеллектуальных систем. Наши результаты демонстрируют повышенную точность и контроль эмоциональных выражений, что может быть удобно для видеоконференций, геймдизайна, робототехники и других приложений, требующих эмоциональной интерактивности. Помимо этого, RealTalk может быть использован в области психологии для исследования эмоциональных реакций и в обучении искусственного интеллекта. #### Выводы Мы представили RealTalk — новую модель для эмоционального синтеза говорящих голов, которая обеспечивает высокую точность эмоционального выражения, эмоциональную контролируемость и надежную идентичность. Наши результаты показывают, что RealTalk п

Annotation:

Emotion is a critical component of artificial social intelligence. However, while current methods excel in lip synchronization and image quality, they often fail to generate accurate and controllable emotional expressions while preserving the subject's identity. To address this challenge, we introduce RealTalk, a novel framework for synthesizing emotional talking heads with high emotion accuracy, enhanced emotion controllability, and robust identity preservation. RealTalk employs a variational a...

ID: 2508.12163v1 cs.CV, cs.AI, cs.HC, cs.LG, I.4; I.3; I.2

arXiv PDF

📄 Region-Level Context-Aware Multimodal Understanding

2025-08-19

Авторы:

Hongliang Wei, Xianqi Zhang, Xingtao Wang, Xiaopeng Fan, Debin Zhao

#### Контекст В последние годы был продолжительный прогресс в области многомодальных языковых моделей (MLLMs). Однако имеются значительные проблемы в их отношении. Многие из них сосредоточены на улучшении общей визуальной поддержки, в то время как меньше внимания уделяется возможности интеграции текстового контекста, связанного с объектами, для получения более контекстно-ориентированного понимания мультимодальных данных. Это недостаток мы обозначили как **Region-Level Context-Aware Multimodal Understanding (RCMU)**. Задача RCMU заключается в том, чтобы модели могли реагировать на пользовательские команды, основываясь на информации, содержащейся в объектах изображения и их текстовых описаниях. Несмотря на то, что существуют многомидальные модели, их обработка контекстных связей между объектами и текстом остается недостаточной. #### Метод Для решения этой проблемы мы предлагаем **Region-Level Context-Aware Visual Instruction Tuning (RCVIT)**. Эта архитектура включает в себя объектно-ориентированные данные, например, баундинговые координаты объектов, для эффективной интеграции визуальных и текстовых данных. Модель RCVIT может оперировать напрямую с объектами на изображении, распознавая их контекстную связь с текстовым описанием. Таким образом, мы повышаем точность и контекстность реакции моделей на задачи мультимодального понимания. Для проведения экспериментов мы разработали датасет **RCMU Dataset**, который содержит многочисленные задачи, требующие мультимодального понимания, включая RCMU. Для оценки того, насколько эффективно модели справляются с этими задачами, мы предложили **RC\&P-Bench** — комплексный бенчмарк, позволяющий измерить показатели в различных областях, включая RCMU и мультимодальную персонализацию. Также мы предложили новую метрику для референс-фри оценки, которая позволяет детально оценивать результаты обработки регионального контекста в изображениях. #### Результаты Мы провели эксперименты с моделями Qwen2-VL, используя RCMU Dataset для обучения. Результаты показали, что модели RC-Qwen2-VL, развитые с использованием RCVIT, демонстрируют выдающиеся результаты на нескольких тестах RCMU. Они не только достигли высокой точности, но и удачно применяются в таких задачах, как мультимодальное моделирование человеческого роста (Multimodal RAG) и персонализированная беседа. Эти результаты обосновывают мощь RCVIT и его приложений в различных сценариях. #### Значимость Наши разработки могут иметь широкое применение в многомодальных системах, включая системы разработки контента, персонализированные системы рекомендаций и интерактивные системы. Мы обладаем преимуществом в том, что RCVIT не только улучшает понимание

Annotation:

Despite significant progress, existing research on Multimodal Large Language Models (MLLMs) mainly focuses on general visual understanding, overlooking the ability to integrate textual context associated with objects for a more context-aware multimodal understanding -- an ability we refer to as Region-level Context-aware Multimodal Understanding (RCMU). To address this limitation, we first formulate the RCMU task, which requires models to respond to user instructions by integrating both image co...

ID: 2508.12263v1 cs.CV, cs.AI

arXiv PDF

📄 TSLA: A Task-Specific Learning Adaptation for Semantic Segmentation on Autonomous Vehicles Platform

2025-08-19

Авторы:

Jun Liu, Zhenglun Kong, Pu Zhao, Weihao Zeng, Hao Tang, Xuan Shen, Changdi Yang, Wenbin Zhang, Geng Yuan, Wei Niu, Xue Lin, Yanzhi Wang

## Контекст **Область исследования и существующие проблемы** Autonomous driving является ключевым направлением развития технологий, требующих решения проблем, связанных с высокими затратами вычислительных ресурсов и сложностью адаптации к различным сценариям. Существующие semantic segmentation сети, используемые в системах автономного вождения, часто не могут эффективно адаптироваться к ограниченным ресурсам эmbedded девайсов, таким как NVIDIA DRIVE PX 2. Это ограничение приводит к неэффективному использованию ресурсов и недостаточной точности в задачах семантической сегментации. **Мотивация** Поэтому, существует необходимость в разработке методов, которые позволяют адаптировать модели к конкретным требованиям сценариев и ограничений вычислительных ресурсов. ## Метод **Архитектура и Методология** Статья предлагает Task-Specific Learning Adaptation (TSLA), которая является динамически адаптируемой сетью семантической сегментации, разработанной с учетом ограничений ресурсов и сценариев автономного вождения. Алгоритм TSLA включает в себя трехуровневый механизм управления: 1. **Width Multiplier** – адаптирует толщину сети, меняя число каналов в ней; 2. **Classifier Depth** – контролирует глубину classifier'а; 3. **Classifier Kernel** – регулирует размер ядра в classifier'е. Эти уровни динамической адаптации позволяют гибко масштабировать модель, от оптимизации ресурсов до точной оптимизации задач. **Оптимизация** Для эффективного поиска гиперпараметров в условиях ограниченных вычислительных ресурсов, авторы применяют **Bayesian Optimization** с **Surrogate Modeling**. Эта стратегия эффективно исследует гиперпространство параметров, нацеленным на минимизацию MACs (Multiply-Accumulate Operations) без ущерба качеству. ## Результаты **Данные и Методы Измерения** Для экспериментов использовались данные с различных сценариев автономного вождения, включая сложные условия погоды и высокий динамический диапазон. Результаты были измерены через метрики точности сегментации и MACs. **Результаты** TSLA показала существенное улучшение в точности сегментации, сравнительно с базовыми сетями, при значительном сокращении MACs. Это указывает на эффективность адаптивной тонкой настройки модели под конкретные задачи и ограничения. ## Значимость **Применение и Преимущества** TSLA может применяться в самоуправляемых автомобилях, системах поддержки вождения, и других системах, требующих высокой точности семантической сегментации в реальном времени. Основные преимущества: 1. **Эффективность** – уменьшение MACs без потери качества; 2. **Универсальность** – адаптация к различным сценариям; 3. **Современный

Annotation:

Autonomous driving platforms encounter diverse driving scenarios, each with varying hardware resources and precision requirements. Given the computational limitations of embedded devices, it is crucial to consider computing costs when deploying on target platforms like the NVIDIA\textsuperscript{\textregistered} DRIVE PX 2. Our objective is to customize the semantic segmentation network according to the computing power and specific scenarios of autonomous driving hardware. We implement dynamic a...

ID: 2508.12279v1 cs.CV, cs.AI, cs.AR, cs.LG

arXiv PDF

📄 Semantic Discrepancy-aware Detector for Image Forgery Identification

2025-08-19

Авторы:

Ziye Wang, Minghang Yu, Chunyan Xu, Zhen Cui

## Контекст Современные технологии генерации изображений позволяют создавать реалистичные снимки, что становится вопросом для обеспечения доверия к цифровым медиа. Несанкционированное изменение изображений может привести к серьезным последствиям, включая повреждение репутации индивида или организации. Обнаружение подделок в изображениях является ключевым заданием, требующим внимательного подхода. Несмотря на прогрессы в искусственном интеллекте, существуют проблемы, связанные с несоответствием между пространствами подделок и семантических понятий, что снижает эффективность существующих моделей. Этот факт требует разработки новых подходов, способных лучше интерпретировать формальные и семантические признаки подделок в изображениях. ## Метод Мы предлагаем метод Semantic Discrepancy-aware Detector (SDD), который оперирует семантическими признаками изображений. Метод основывается на реконструкционном обучении для выравнивания пространств семантических понятий и подделок. В качестве основы используется предварительно обученная модель визионного языкового моделирования. Мы разработали модуль выбора семантических токенов, который способствует уменьшению шума семантических признаков, не относящихся ни к подделке, ни к семантическим понятиям. Далее, используя визуальную реконструкцию, мы предложили модуль обучения дискрепантности понятий, который усиливает взаимодействие между семантическими признаками и признаками подделки, используя семантические понятия в качестве руководства. Наконец, модуль улучшения низкоуровневых признаков подделки интегрирует полученные семантические различия, чтобы сократить ненужный информационный шум. ## Результаты Нами проведены эксперименты на двух стандартных датасетах для обнаружения подделок в изображениях. Обнаружено, что SDD превосходит существующие модели в точности и общей эффективности. В частности, SDD демонстрирует высокую точность в локализации формализованных признаков подделки и уменьшает шум в семантических признаках. Результаты показывают, что SDD может более точно идентифицировать различные типы подделок, включая пропорциональные и стилистические модификации. Наши результаты доступны в открытом доступе по ссылке: https://github.com/wzy1111111/SSD. ## Значимость Предложенный подход имеет широкое потенциальное применение в области безопасности цифровых медиа, включая мониторинг содержимого в социальных сетях, проверку документов и видео, а также в области сертификации цифровых медиа. SDD предоставляет значительные преимущества по сравнению с предыдущими моделями, включая улучшенную

Annotation:

With the rapid advancement of image generation techniques, robust forgery detection has become increasingly imperative to ensure the trustworthiness of digital media. Recent research indicates that the learned semantic concepts of pre-trained models are critical for identifying fake images. However, the misalignment between the forgery and semantic concept spaces hinders the model's forgery detection performance. To address this problem, we propose a novel Semantic Discrepancy-aware Detector (SD...

ID: 2508.12341v1 cs.CV, cs.AI

arXiv PDF

📄 Synthetic Data is Sufficient for Zero-Shot Visual Generalization from Offline Data

2025-08-19

Авторы:

Ahmet H. Güzel, Ilija Bogunovic, Jack Parker-Holder

#### Контекст Обучение с использованием визуальных данных представляет собой ключевой аспект развития систем с автоматическим управлением. Однако, получение высококачественных и разнообразных визуальных данных часто становится проблемой, особенно при обучении агентов с нуля. Ошибки, внедренные в процессе сбора данных, могут привести к недостаточной разнообразности, что повлияет на устойчивость и общезначимость тренированных моделей. Это делает важной задачу повышения разнообразия данных и улучшения их качества, независимо от того, используются ли они в традиционных или бездыханых (offline) методах обучения. Мы предлагаем новый подход, основанный на генерации синтетических данных, который позволяет улучшить общезначимость агентов в визуальных задачах без дополнительных интервалов взаимодействия с окружением. #### Метод Мы предлагаем двухшаговый подход к генерации синтетических данных для повышения общезначимости моделей. В первом этапе мы расширяем оригинальные данные, собранные в реальной среде, добавляя визуальные и другие разнообразия. Это позволяет улучшить устойчивость модели к новым условиям. Во втором этапе мы используем модель Diffusion Model для генерации дополнительных данных в латентном пространстве, что приводит к еще большему разнообразию. Метод не требует каких-либо изменений в существующих моделях и может быть легко интегрирован в существующие алгоритмы бездыханого обучения. #### Результаты Мы проверили наш метод на трех средах: Visual D4RL (для визуальных задач с непрерывным действием) и Procgen (для задач с дискретным действием). Мы сравнили наш подход с другими методами, такими как Simple Augmentation, CoDA и D4RL-Aug. Наши результаты показали, что генерация синтетических данных позволяет значительно повысить общезначимость агентов, улучшить их результаты в задачах, где необходимо обобщаться на новые среды, и уменьшить общий падение в производительности. Эти результаты достигнуты без каких-либо изменений в алгоритмах или дополнительных ресурсах. #### Значимость Модели, обученные с помощью нашего подхода, могут широко применяться в ситуациях, требующих обучения моделей с нуля на основе визуальных данных. Наш подход может быть применен в различных областях, включая робототехнику, игровые игры, автомобильную технику и другие, где визуальные сигналы являются ключевым источником информации. Наш подход позволяет обеспечить более равномерное и детальное обучение, уменьшая чрезмерную зависимость от конкретных данных. Это может привести к повышению эффективности и надежности систем в реальном мире. #### Выводы Наш подход показы

Annotation:

Offline reinforcement learning (RL) offers a promising framework for training agents using pre-collected datasets without the need for further environment interaction. However, policies trained on offline data often struggle to generalise due to limited exposure to diverse states. The complexity of visual data introduces additional challenges such as noise, distractions, and spurious correlations, which can misguide the policy and increase the risk of overfitting if the training data is not suff...

ID: 2508.12356v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 IPGPhormer: Interpretable Pathology Graph-Transformer for Survival Analysis

2025-08-19

Авторы:

Guo Tang, Songhan Jiang, Jinpeng Lu, Linghan Cai, Yongbing Zhang

## Контекст Оценка прогноза рака на основе патологических изображений широко применяется в медицине для прогнозирования клинических результатов, таких как время первичного рецидива или смерть больных. Такие анализы позволяют принять более информированные решения в лечении и мониторинге. Однако существующие методы сталкиваются с несколькими проблемами: ограниченная моделирование длинных дистанционных связей, недостаточная интерпретируемость результатов и неэффективное использование контекста. Эти ограничения затрудняют их клиническое применение. Наша мотивация заключается в разработке метода, который бы привносил улучшения в моделирование сложных зависимостей, обеспечивал интерпретируемость и повышал эффективность классификации и предсказания клинических показателей. ## Метод Мы предлагаем Interpretable Pathology Graph-Transformer (IPGPhormer), новый подход для анализа патологических изображений. IPGPhormer основывается на преобразователях (Transformers) и графовых моделях, которые эффективно кодируют длинные пространственные зависимости и локальные контексты. Он использует патологические слайды в виде графов, где узлы представляют клетки, а ребра — их взаимодействия. Основной инновацией является интерпретируемость модели, которая позволяет отобразить вклад каждой клетки в прогноз. Мы также предлагаем алгоритм интерпретации, который отображает вклады клеток в показатели смерти и рецидива. IPGPhormer обрабатывает Whole-Slide Images (WSIs), не требуя выделения областей интереса, что упрощает применение. ## Результаты Мы провели эксперименты на четырьмя публичными датасетами, включая TCGA-BRCA, TCGA-PRAD, TCGA-LUAD и GSE14773. Для сравнения были использованы три современных стандартных метода: Multi-task Learning, Co-attention Network и Graph-based Survival Analysis. IPGPhormer показал высокую точность прогнозирования времени первичного рецидива и смерти, при этом превосходил традиционные методы по интерпретируемости прогноза. Метрики, такие как AUC-ROC и AUC-PR, показали значительные улучшения в прогностической точности. Также мы провели сравнение с постобработкой, что подтвердило выигрыш в интерпретируемости при использовании IPGPhormer. ## Значимость Метод IPGPhormer может быть применен в различных областях, включая раннее обнаружение рака, мониторинг клинических результатов и персонализированное лечение. Он предоставляет более точные и понятные прогнозы, что повышает доверие клинических специалистов к результатам. Важной особенностью является возможность анализа ошибок и факторов, влияющих на результат, что может помочь в улучшении клинических протоколов. Будущие исследования будут фокусироваться на расширении применения IPGPhormer к

Annotation:

Pathological images play an essential role in cancer prognosis, while survival analysis, which integrates computational techniques, can predict critical clinical events such as patient mortality or disease recurrence from whole-slide images (WSIs). Recent advancements in multiple instance learning have significantly improved the efficiency of survival analysis. However, existing methods often struggle to balance the modeling of long-range spatial relationships with local contextual dependencies ...

ID: 2508.12381v1 cs.CV, cs.AI

arXiv PDF

📄 SRMA-Mamba: Spatial Reverse Mamba Attention Network for Pathological Liver Segmentation in MRI Volumes

2025-08-19

Авторы:

Jun Zeng, Yannan Huang, Elif Keles, Halil Ertugrul Aktas, Gorkem Durak, Nikhil Kumar Tomar, Quoc-Huy Trinh, Deepak Ranjan Nayak, Ulas Bagci, Debesh Jha

#### Контекст Обработка и анализ изображений медицинских магнитных резонансных сканов (MRI) являются ключевыми задачами в медицинских исследованиях. Одной из сложных задач является сегментация патологических изменений в подкожной ткани, в том числе и желчного пузыря. Эта задача сложна по нескольким причинам: деликатная анатомическая структура, разнообразие патологических изменений и недостаточность методик, позволяющих эффективно использовать мощность глубоких нейронных сетей. Наличие этих проблем способствует неточности в диагностике и неэффективности лечения. Таким образом, необходимо развитие методов, которые бы стабильно повышали точность и обоснованность моделей, основанных на глубоких нейронных сетях. #### Метод Мы предлагаем новую архитектуру нейронной сети, основанную на технологии Reverse Mamba Attention (RMA). Архитектура SRMA-Mamba включает два ключевых модуля: 1. **Spatial Anatomy-Based Mamba Module (SABMamba)**. Он использует координаты пикселей как дополнительные признаки, чтобы определить существенные анатомические рельефы. Это позволяет модели добиться эффективной сегментации не только общих, но и специфичных для определенных болезней областей. 2. **Spatial Reverse Attention Module (SRMA)**. Этот модуль применяется для тонкой регулировки границ сегментации, полученных с помощью SABMamba. Он позволяет сфокусироваться на частичных деталях, которые могли быть упущены при первом проходе. #### Результаты Мы проверили SRMA-Mamba на стандартных наборах данных RGB-изображений, а также на наших собственных данных, полученных из обработки MRI. Наши эксперименты показали, что SRMA-Mamba превосходит существующие методы по метрикам точности, высокой вариативности и точности диагностики. Он способен эффективно учитывать вложенные анатомические рельефы и выделять мелкие фактуры, которые обычно не определяются другими моделями. #### Значимость Наша работа может быть применена в медицинской практике для точной диагностики и мониторинга патологических изменений в подкожной ткани. Она может быть использована в большинстве моделей, основанных на глубоких нейронных сетях, для улучшения точности и добавления интерпретируемости. Также она демонстрирует потенциал для расширения на другие виды медицинских изображений, где анатомическая структура играет ключевую роль. #### Выводы Мы представили SRMA-Mamba, новую модель, которая значительно повышает эффективность сегментации патологических изменений в подкожной ткани. Наши результаты показали, что модель превосходит современные методы. В будущем мы планируем расширить работу, включив моделирование динамических изменений в подкожной ткани и

Annotation:

Liver Cirrhosis plays a critical role in the prognosis of chronic liver disease. Early detection and timely intervention are critical in significantly reducing mortality rates. However, the intricate anatomical architecture and diverse pathological changes of liver tissue complicate the accurate detection and characterization of lesions in clinical settings. Existing methods underutilize the spatial anatomical details in volumetric MRI data, thereby hindering their clinical effectiveness and exp...

ID: 2508.12410v1 cs.CV, cs.AI

arXiv PDF

1
2
203
204
205
206
207
227
228

Показано 2041 - 2050 из 2274 записей