📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Architectural Co-Design for Zero-Shot Anomaly Detection: Decoupling Representation and Dynamically Fusing Features in CLIP

2025-08-13

Авторы:

Ke Ma, Jun Long, Hongxiao Fei, Liujie Hua, Yueyi Luo

#### Контекст Предварительно обученные Vision-Language Models (VLMs) широко применяются в задачах обработки изображений и текста. Однако при их использовании в Zero-Shot Anomaly Detection (ZSAD) возникают серьезные проблемы, связанные с отсутствием локальных индуктивных приращений для точной сегментации и статичным подходом к скрещиванию признаков. Эти ограничения приводят к низкой точности и недостаточной устойчивости моделей в задачах детектирования аномалий. Этот аспект подчеркивает необходимость развития более гибких и эффективных архитектур, которые могли бы улучшить процесс адаптации VLMs к ZSAD. #### Метод Предлагаемая архитектура Architectural Co-Design состоит из двух основных компонентов. Адаптер Convolutional Low-Rank Adaptation (Conv-LoRA) реализует локальные приращения, улучшая точность представления локальных признаков. Dynamic Fusion Gateway (DFG) вводит динамическую модификацию текстовых признаков, адаптируемую к визуальному контексту. Эти компоненты совмещаются в единой архитектуре, обеспечивающей мощный поиск признаков и гибкий механизм скрещивания. Такой подход позволяет не только улучшить результаты ZSAD, но и достичь высокой устойчивости в различных сценариях применения. #### Результаты Исследования проводились на различных датасетах, включая индустриальные и медицинские наборы данных. Предложенная модель показала существенное превосходство по точности и устойчивости по сравнению с современными методами. Эксперименты также подтвердили высокую эффективность Conv-LoRA в точной региональной обработке и DFG в адаптивной модификации признаков. Эти результаты демонстрируют, что сочетание локальной индуктивной модификации и динамического скрещивания признаков является ключевым фактором успеха. #### Значимость Предложенный подход может быть применен в различных областях, включая обработку изображений, анализ данных, индустрию и медицину. Он предоставляет преимущества в точности, устойчивости и гибкости. Потенциальное влияние заключается в улучшении адаптации VLMs к задачам ZSAD, что может привести к новым решениям в области ИИ, в том числе для детектирования и раннего обнаружения аномалий. #### Выводы Предложенная модель Architectural Co-Design демонстрирует эффективность в ZSAD за счет комбинации Conv-LoRA и DFG. Будущие исследования будут сфокусированы на расширении модели для задач с большим масштабом и уточнении динамических механизмов скрещивания признаков. Это может привести к еще более высокой точности и устойчивости в применении моделей VLMs к задачам детектирования аномалий.

Annotation:

Pre-trained Vision-Language Models (VLMs) face a significant adaptation gap when applied to Zero-Shot Anomaly Detection (ZSAD), stemming from their lack of local inductive biases for dense prediction and their reliance on inflexible feature fusion paradigms. We address these limitations through an Architectural Co-Design framework that jointly refines feature representation and cross-modal fusion. Our method integrates a parameter-efficient Convolutional Low-Rank Adaptation (Conv-LoRA) adapter t...

ID: 2508.07819v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Deep Space Weather Model: Long-Range Solar Flare Prediction from Multi-Wavelength Images

2025-08-13

Авторы:

Shunya Nagashima, Komei Sugiura

## Контекст Предсказание солнечных вспышек (solar flares) является ключевым заданием в астрономии и солнечной физике. Эти вспышки могут существенно повлиять на критическую инфраструктуру, такую как системы связи, системы координации спутников и энергетические сети. Несмотря на значительные успехи в методах прогнозирования, имеющихся сегодня, полноценное решение задачи предсказания солнечных вспышек до сих пор не достигнуто. Существующие подходы, основанные на физических признаках, часто недостаточно точны в описании сложных процессов на поверхности Солнца. Энд-то-энд аппроксимации, напротив, сталкиваются с проблемой моделирования долгосрочных временных зависимостей в наборах данных. Наша работа фокусируется на построении модели Deep Space Weather Model (Deep SWM), которая объединяет в себе несколько современных deep learning моделей для обработки солнечных изображений и моделирования длинных временных зависимостей. ## Метод Deep SWM основывается на нескольких глубоких искусственных нейронных сетей, работающих в совокупности для обработки мульти-канальных солнечных изображений. Мы предлагаем новый подход к предварительной обработке данных, названный **sparse masked autoencoder**, который применяет два этапа маскирования. Это позволяет сохранить ключевые области, такие как sunspots, при этом сжимая ненужные детали. Модель также моделирует длинные временные зависимости с использованием deep state space models. Мы проверили Deep SWM на FlareBench — новой публичной базе данных, покрывающей целый 11-летний цикл солнечной активности. Это обеспечило достоверную оценку модели на различных условиях во времени и пространстве. ## Результаты В ходе экспериментов Deep SWM показала существенное превосходство по сравнению с базовыми методами. Мы получили достоверные результаты, которые превосходят показатели базовых моделей и даже профессиональных экспертов в солнечной физике. Это достижение достиглось благодаря тому, что Deep SWM удалось лучше всего моделировать долгие временные зависимости и обрабатывать мульти-канальные данные. Благодаря новой FlareBench мы также смогли проверить нашу модель в различных условиях, включая разные стадии 11-летнего солнечного цикла. ## Значимость Deep SWM может применяться в различных областях, включая астрономию, кибербезопасность и энергетические системы. Модель позволяет предупреждать о потенциальных возмущениях в сетях в реальном времени, что дает возможность принять меры по минимизации воздействия вспышек. Мы также отмечаем повышенную надежность и точность, что делает нашу модель привлекательной для разработчиков и исследователей. Этот подход также открывает новые пути для дальнейших исследо

Annotation:

Accurate, reliable solar flare prediction is crucial for mitigating potential disruptions to critical infrastructure, while predicting solar flares remains a significant challenge. Existing methods based on heuristic physical features often lack representation learning from solar images. On the other hand, end-to-end learning approaches struggle to model long-range temporal dependencies in solar images. In this study, we propose Deep Space Weather Model (Deep SWM), which is based on multiple dee...

ID: 2508.07847v1 cs.CV, cs.AI

arXiv PDF

📄 Selective Contrastive Learning for Weakly Supervised Affordance Grounding

2025-08-13

Авторы:

WonJun Moon, Hyun Seok Seong, Jae-Pil Heo

#### Контекст В современной робототехнике и искусственном интеллекте значительное внимание уделяется проблеме опознавания аффорданций — возможностей действий с объектами. Эта задача играет ключевую роль в обеспечении самостоятельной работы роботов, в том числе в ситуациях, когда доступ к точным тренировочным данным ограничен. Особенно актуальной является задача **Weakly Supervised Affordance Grounding (WSAG)**, которая предполагает выявление функциональных частей объектов с помощью небольших количеств классических иллюстративных примеров, не требуя полных примитивных подробных меток. Решение этой проблемы позволяет роботам улучшить свои возможности взаимодействия с реальным миром, опираясь только на небольшие демонстрации человека. #### Метод Мы предлагаем **Selective Contrastive Learning (SCL)**, метод, который использует **прототипы селективного обучения** и **объектно-уровневые отличия**. Этот подход сочетает в себе обучение с помощью прототипов с уровнем частей и отдельных пикселей, чтобы приспособиться к уровню контекста в данных. Мы используем **CLIP (Contrastive Language-Image Pretraining)** для идентификации действий и связанных с ними объектов в глазах стражей. Затем мы построили **прототипы аффорданций**, которые позволяют извлекать частичное внимание к частям объектов. Это достигается с помощью кросс-реперспективного анализа данных, сочетающих как виды с целевым объектом, так и виды с человеком, демонстрирующим объект. Метод регулирует внимание, перенаправляя его от неаффордантных к аффордантным частям, чтобы устранить различия между разными объектами и стимулировать направленное увеличение репрезентации для аффордантных частей. #### Результаты Мы проверяли наш метод на нескольких стандартных датасетах, таких как EPIC-KITCHENS и Gibson. Эксперименты показали, что **SelectiveCL** превосходит существующие методы по метрикам точности опознавания аффорданций. Например, на EPIC-KITCHENS мы достигли увеличения точности на 15% в сравнении с основными алгоритмами. Мы также провели анализ того, как селективные прототипы и сравнения пикселей влияют на обучение, и показали, что они эффективно снижают классификационные ошибки, особенно в ситуациях с частичным видом. Мы привели подробный анализ результатов, включая визуализации, чтобы показать, как наш метод улучшает выделение полезных частей объектов. #### Значимость Наш подход имеет большое значение для **робототехники**, **интеллектуальных систем**, **обработки графических данных** и **роботов, работающих в реальном мире**. Он позволяет роботам понимать возможности взаимодействия с объ

Annotation:

Facilitating an entity's interaction with objects requires accurately identifying parts that afford specific actions. Weakly supervised affordance grounding (WSAG) seeks to imitate human learning from third-person demonstrations, where humans intuitively grasp functional parts without needing pixel-level annotations. To achieve this, grounding is typically learned using a shared classifier across images from different perspectives, along with distillation strategies incorporating part discovery ...

ID: 2508.07877v1 cs.CV, cs.AI

arXiv PDF

📄 NeeCo: Image Synthesis of Novel Instrument States Based on Dynamic and Deformable 3D Gaussian Reconstruction

2025-08-13

Авторы:

Tianle Zeng, Junlei Hu, Gerardo Loza Galindo, Sharib Ali, Duygu Sarikaya, Pietro Valdastri, Dominic Jones

#### Контекст Компьютерное зрение широко применяется в сургерической автоматизации для улучшения систем трекинга инструментов, детекции и локализации. Однако текущие приемки семантической аналитики, основанные на данных, требуют больших, высококачественных и методично отмеченных изображений, что ограничивает их применение в сургерской науке. Наша работа ставит целью решение проблемы нехватки данных в области сургерии, используя динамическую технологию Гауссовского рендеринга. Мы предлагаем модель динамических Гауссовских моделей для представления динамических сургерических сцен, что позволяет рендерить инструменты хирургических операций из невиденных точек зрения и с деформациями в реальных тканевых фонах. #### Метод Мы предложили новый динамический Гауссовский моделирований, отражающий характеристики деформаций и динамических сцен сургерии. Модель использует техники рендеринга Гауссовского шума для создания реалистичных изображений инструментов в движении и с деформациями. Мы также применяем динамическую стратегию обучения для адаптации к камерам с некорректными позициями из реальных условий. Для автоматического генерирования аннотаций в синтетических данных мы предлагаем метод, основанный на динамических Гауссовых моделях. Это подход позволяет создать высококачественные датасеты для обучения моделей. #### Результаты Мы строили новый датасет, содержащий 14,000 кадров инструментов и камеры в сценах с подкорпусным свином. Мы сравнили синтетические изображения, сгенерированные нашей моделью, с изображениями, полученными стандартным методом данных. Результаты показали, что наш метод выдает изображения с реалистичным качеством, с оценкой Peak-Signal-to-Noise Ratio (PSNR) в 29.87. Мы также утвердили, что нейронные сети, обученные на синтетических данных, показали лучшую производительность по сравнению с моделями, обученными на данных стандартных методов. #### Значимость Наша технология может быть применена в сургерической науке для обучения моделей сургерических инструментов. У нее есть преимущества, такие как увеличение качества тренировочных данных, снижение необходимости в больших датасетах и более высокая точность. Мы применили нашу технологию к различным сценам и демонстрируем, что она может быть применена в различных сургерических операциях, чтобы повысить качество обучения и анализа данных. #### Выводы Мы достигли существенных улучшений в качестве синтетических изображений в сургерии. Наш метод может быть использован для аддитивного обучения систем, чтобы повысить точность в с

Annotation:

Computer vision-based technologies significantly enhance surgical automation by advancing tool tracking, detection, and localization. However, Current data-driven approaches are data-voracious, requiring large, high-quality labeled image datasets, which limits their application in surgical data science. Our Work introduces a novel dynamic Gaussian Splatting technique to address the data scarcity in surgical image datasets. We propose a dynamic Gaussian model to represent dynamic surgical scenes,...

ID: 2508.07897v1 cs.CV, cs.AI, I.3.3

arXiv PDF

📄 Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

2025-08-13

Авторы:

Fangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu

################################# ## Контекст ################################# Визуальные эффекты (Visual Effects, VFX) являются ключевым компонентом современного кинематографа, добавляя натуральность и животность к изображениям. Изначально, эти эффекты были создаваемыми ручками разработчиков, но в последние годы появились методы, позволяющие использовать модели генерации видео для создания эффектов. Тем не менее, существующие модели строятся на архитектуре LoRA (Low-Rank Adaptation) и требуют подготовки отдельных моделей для каждого эффекта, что ограничивает их мощность. Эта проблема вызывает необходимость в разработке универсальной модели, которая способна генерировать несколько эффектов одновременно и контролировать их расположение в изображении. Таким образом, целью данных исследований является создание модели, которая может объединить различные эффекты в единую модель и обеспечить их контроль в пространстве. ################################# ## Метод ################################# Разработанная модель Omni-Effects представляет собой впервые созданную архитектуру, способную генерировать несколько визуальных эффектов одновременно и контролировать их положение в изображении. Основой модели является LoRA-based Mixture of Experts (LoRA-MoE), которая соединяет различные эффекты в единую модель, минимизируя влияние пространственного разделения между ними. Для повышения контрольности, введена Spatial-Aware Prompt (SAP), которая внедряет информацию о масках в текстовые токены, что позволяет контролировать расположение эффектов в пространстве. Также, внутри SAP используется Independent-Information Flow (IIF), который изолирует сигналы управления для каждого эффекта, чтобы избежать смешения сигналов. Датасет для обучения и тестирования Omni-Effects был создан с помощью собственной технологии FLF2V, которая объединяет изображения и видео для создания датасета VFX. ################################# ## Результаты ################################# Для проверки работы модели Omni-Effects был проведен набор экспериментов с использованием сгенерированного датасета Omni-VFX. Модель имела высокую точность в пространственном разместивании эффектов и способность генерировать различные эффекты, включая единичные и комбинированные. Гибкость и точность работы демонстрируются на примерах генерации таких эффектов, как затенение, огонь и ночной освещенный режим. Основным достижением является удачное решение проблем выделения пространственного размещения эффектов и уменьшения влияния между ними в единой модели. ################################# ## Значимость ################################# Модель Omni-Effects открывает новые возможности в области визуальных эффектов, позволяя создавать кинематографические эффекты в реальном времени. Это решение может быть применено в различных областях, включая кино, игры, рекламу и AR-

Annotation:

Visual effects (VFX) are essential visual enhancements fundamental to modern cinematic production. Although video generation models offer cost-efficient solutions for VFX production, current methods are constrained by per-effect LoRA training, which limits generation to single effects. This fundamental limitation impedes applications that require spatially controllable composite effects, i.e., the concurrent generation of multiple effects at designated locations. However, integrating diverse eff...

ID: 2508.07981v2 cs.CV, cs.AI

arXiv PDF

📄 Investigating the Design Space of Visual Grounding in Multimodal Large Language Model

2025-08-13

Авторы:

Weitai Kang, Weiming Zhuang, Zhizhong Li, Yan Yan, Lingjuan Lyu

## Контекст В последние годы многомодальные большие языковые модели (MLLMs) стали центром внимания в искусственном интеллекте, особенно в сфере обработки текста и визуальной информации. Одной из ключевых задач, с которой сталкиваются эти модели, является **визуальная граундинг (Visual Grounding, VG)** — техника, которая позволяет модели ассоциировать текстовые запросы с конкретными объектами на изображениях. Несмотря на то, что существующие модели показали значительные улучшения в этой области, они часто используют различные и несогласованные подходы к оптимизации моделей для VG. Это существенно сковывает их потенциал и затрудняет правильные сравнения между подходами. В данном исследовании мы определились на полной исследовательской диаграмме, чтобы изучить, как различные дизайн-решения влияют на возможности MLLMs в области VG. ## Метод Исследование включает детальный анализ различных дизайн-решений, влияющих на результаты VG в MLLMs. Мы выбрали **LLaVA-1.5** — одну из самых известных моделей MLLMs — для всех экспериментов, чтобы обеспечить выводы, которые могут быть распространены на другие архитектуры. Мы исследовали два главных вопроса: 1. **Изучение визуальных граундинговых парадигм**: Мы оценили разные подходы к визуальной граундинг-оптимизации MLLM, выявив максимально эффективные решения и получив полезные рекомендации для дальнейшей работы. 2. **Оптимизация данных для VG**: Мы проводили абляционные исследования для оптимизации тренировочных данных в VG, чтобы определить, как желательно изменять модель в ходе тренировки. ## Результаты Наши эксперименты показали, что управление различными дизайн-решениями может значительно влиять на результаты VG моделей. Мы обнаружили, что наша оптимизированная модель LLaVA-1.5 показала улучшение в +5.6% / +6.9% / +7.0% на RefCOCO/+/g общих данных по сравнению с исходной версией. Эти результаты указывают на значительный вклад нашего исследования в улучшение качества визуальных граундинговых моделей. ## Значимость Наша работа имеет широкие применения в области многомодального обучения и визуальной граундинг-оптимизации. Она может заинтересовать исследователей, работающих в сфере мультимодальных моделей и технологий обработки текста и изображений. Наши рекомендации могут помочь сократить разрыв между теоретическим потенциалом и практическим применением визуальной граундинг-технологии в MLLMs. Кроме того, наши результаты открывают возможности для дальнейшего исследования в этих областях, в том числе разработки более сложных моделей и улучшения существующих архитектур. ## Вы

Annotation:

Fine-grained multimodal capability in Multimodal Large Language Models (MLLMs) has emerged as a critical research direction, particularly for tackling the visual grounding (VG) problem. Despite the strong performance achieved by existing approaches, they often employ disparate design choices when fine-tuning MLLMs for VG, lacking systematic verification to support these designs. To bridge this gap, this paper presents a comprehensive study of various design choices that impact the VG performance...

ID: 2508.08066v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Hyperspectral Imaging

2025-08-13

Авторы:

Danfeng Hong, Chenyu Li, Naoto Yokoya, Bing Zhang, Xiuping Jia, Antonio Plaza, Paolo Gamba, Jon Atli Benediktsson, Jocelyn Chanussot

#### Контекст Hyperspectral imaging (HSI) — это передовая технология, которая позволяет одновременно захватывать пространственную и спектральную информацию. Она используется для неинвазивного, без меток анализа материальных, химических и биологических свойств. HSI находит применение в различных областях, включая наблюдение Земли, точечную сельскую хозяйственную продуктивность, биомедицину, промышленные испытания, культурное наследие и безопасность. Однако современные HSI-системы сталкиваются с проблемами, такими как трафаретные тормоза, разнообразие приема данных и высокая размерность данных, которые затрудняют их эффективное применение. #### Метод HSI-системы состоят из специальных сенсоров, которые захватывают данные в десятках или сотнях спектральных каналов. Данные проходят фазой приёка и калибровки, чтобы обеспечить точность и совместимость. Основные шаги в обработке HSI включают препроцессинг (коррекцию и исправление), реductию размерности, классификацию, спектральный размок и использование искусственного интеллекта, включая методы глубокого обучения. Архитектура HSI-системы основывается на комбинации физических принципов, точных алгоритмов и высокоточных датчиков. #### Результаты Исследования по HSI проводятся на различных датасетах, включая сцены Земли, ткани биологических образцов и промышленные образцы. Результаты показывают, что HSI может распознавать мелкие структуры и свойства, которые не видны в других изображениях. Например, в биомедицине HSI позволяет выявлять раковые клетки с высокой точностью. В сельском хозяйстве она используется для определения урожайности и качества урожая. Изучение HSI показало, что она может обнаруживать видимые и невидимые признаки для точного мониторинга и принятия решений. #### Значимость HSI имеет широкое применение в науке, технологиях и обществе. Она позволяет выявлять информацию, недоступную другим методам, и применяется в таких областях, как биомедицина, точечная сельская хозяйственная продуктивность и промышленные испытания. Области применения HSI продолжают расширяться, и её потенциал для преобразования различных сфер жизнедеятельности остается высоким. #### Выводы Основные достижения HSI включают развитие методов для улучшения точности, репрезентативности и эффективности изображений. Будущие исследования будут сконцентрированы на создании меньших, быстрых и универсальных HSI-систем, использующих миниатюрные датчики, самостоятельное обучение и фундаментальные модели. Эти разработки будут позволить использовать HSI в реальном времени для решения проблем в различных обла

Annotation:

Hyperspectral imaging (HSI) is an advanced sensing modality that simultaneously captures spatial and spectral information, enabling non-invasive, label-free analysis of material, chemical, and biological properties. This Primer presents a comprehensive overview of HSI, from the underlying physical principles and sensor architectures to key steps in data acquisition, calibration, and correction. We summarize common data structures and highlight classical and modern analysis methods, including dim...

ID: 2508.08107v1 cs.CV, cs.AI

arXiv PDF

📄 GRASPTrack: Geometry-Reasoned Association via Segmentation and Projection for Multi-Object Tracking

2025-08-13

Авторы:

Xudong Han, Pengcheng Fang, Yueying Tian, Jianhui Yu, Xiaohao Cai, Daniel Roggen, Philip Birch

## Контекст Multi-object tracking (MOT) в монокурсных видео сталкивается с значимыми задачами, такими как рассеивание и амбигуитность глубины, что создает серьезные проблемы для традиционных методов трекинга-по-обнаружению (tracking-by-detection, TBD). Эти методы часто не учитывают геометрические свойства объектов, что приводит к неточностям в определении места и движения. Для решения этих проблем требуется новый подход, призванный включить геометрическую осмысленность и усовершенствовать механизмы связывания объектов в пространстве. ## Метод GRASPTrack представляет собой инновационный подход к MOT, который интегрирует модели многоканального глубинного распознавания и инстансной сегментации в стандартную трубу TBD. Эта интеграция позволяет генерировать точные 3D-точечные множества из 2D-обнаружений, обеспечивая геометрическое осмысление в пространстве. Далее, эти точечные множества возводятся в 3D-воксели для возможности точного пространственного сравнения с помощью Voxel-Based 3D Intersection-over-Union (IoU). Чтобы повысить надежность отслеживания, предлагается Depth-aware Adaptive Noise Compensation, которая подстраивает процессное шум отклонений для более точного оценивания состояния. Также вводится Depth-enhanced Observation-Centric Momentum, расширяющее согласованность движения объектов из плоскости изображения на пространство 3D, чтобы улучшить подсказки для ассоциации в операциях сложных движений. ## Результаты GRASPTrack протестирован на MOT17, MOT20 и DanceTrack, где показал высокую надежность в условиях частых рассеиваний и хитроумных движений. Метод повысил производительность отслеживания, особенно в сложных сценах, и демонстрировал свою превосходность по сравнению с современными алгоритмами. Эксперименты показали, что геометрическое осмысление и пространственное сравнение внесли значительный вклад в повышение точности и надежности отслеживания. ## Значимость GRASPTrack может применяться в различных сферах, таких как безопасность, автоматизированные системы, анализ сложных сцен и др. Он обеспечивает более точное и надежное отслеживание, улучшает обработку в сложных сценах и подходит для решения задач, требующих высокой точности и производительности в 3D-моделировании. ## Выводы GRASPTrack достигает значительных улучшений в MOT, используя геометрическое осмысление и пространственное сравнение. Будущие исследования будут сконцентрированы на улучшении моделей глубины, расширении многоканальных сенсоров и расширении применений в сложных реальных сценах.

Annotation:

Multi-object tracking (MOT) in monocular videos is fundamentally challenged by occlusions and depth ambiguity, issues that conventional tracking-by-detection (TBD) methods struggle to resolve owing to a lack of geometric awareness. To address these limitations, we introduce GRASPTrack, a novel depth-aware MOT framework that integrates monocular depth estimation and instance segmentation into a standard TBD pipeline to generate high-fidelity 3D point clouds from 2D detections, thereby enabling ex...

ID: 2508.08117v1 cs.CV, cs.AI

arXiv PDF

📄 MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision

2025-08-13

Авторы:

Zhonghao Yan, Muxi Diao, Yuxuan Yang, Jiayuan Xu, Kaizhou Zhang, Ruoyan Jing, Lele Yang, Yanxi Liu, Kongming Liang, Zhanyu Ma

#################### ## Контекст #################### В сфере медицинских изображений критически важно точно определять области интереса (ROIs) для правильной диагностики и разработки режимов лечения. Такие задачи, как предсказание и разметка областей, часто требуют не только визуального понимания, но и клинической рассуждения. Несмотря на то, что модели типа multimodal large language models (MLLMs) объединяют визуальное восприятие с естественным языком, существующие пипелйны граундинга в медицине базируются на супервизорном оптимизации с использованием явных спатиальных подсказок. Это делает их неэффективными для решения задач, где запросы явным образом не являются частью входных данных, что широко распространено в клинической практике. Целью настоящего исследования является развитие новых подходов к граундингу, ориентированных на интеллектуальное зрелище и клинические рассуждения, чтобы улучшить точность и точность при работе с неявными запросами. #################### ## Метод #################### Мы предлагаем новую методологию, основанную на reinforcement learning (RL), чтобы обеспечить клинический граундинг с пиксельной точностью. Наша модель, MedReasoner, состоит из двух модулей: 1. **Reasoner (RL-оптимизированный модуль):** Это модель, основанная на многомодальных больших языковых моделях (MLLM), которая обрабатывает неявные запросы клинического знания, сформированные в виде текста. 2. **Segmenter (модуль с пиксельной точностью):** Это предобученная модель, которая преобразует текстовые запросы в пиксельные маски с помощью явных подсказок. MedReasoner использует формат ввода-вывода, который отделяет логику принятия решений от фактической разметки. Результаты этих модулей оцениваются с помощью форматированных наград, чтобы обеспечить согласованность между ними. Эта архитектура позволяет MedReasoner быть эффективной в обработке запросов, где контекст и специфичные требования клинического знания являются ключевыми. #################### ## Результаты #################### Мы оценили MedReasoner на датасете U-MRG-14K, состоящем из 14 тысяч примеров, включающих пиксельные маски, неявные клинические запросы и специфичные модальности визуальных данных. Наши эксперименты показали, что MedReasoner существенно превосходит другие подходы в зоне граундинга в медицине, особенно в сфере неявных запросов. Модель достигла state-of-the-art результатов в предсказании пиксельных масок, превосходя соревнователей по метрикам accuracy и F1-score. Более того, MedReasoner продемонстрировал высокую универсальность, успешно обрабатывая нестандартные клинические запросы, что указывает на сильную общеприменимость и интерактивность модели в клиничес

Annotation:

Accurately grounding regions of interest (ROIs) is critical for diagnosis and treatment planning in medical imaging. While multimodal large language models (MLLMs) combine visual perception with natural language, current medical-grounding pipelines still rely on supervised fine-tuning with explicit spatial hints, making them ill-equipped to handle the implicit queries common in clinical practice. This work makes three core contributions. We first define Unified Medical Reasoning Grounding (UMRG)...

ID: 2508.08177v1 cs.CV, cs.AI

arXiv PDF

📄 OMGSR: You Only Need One Mid-timestep Guidance for Real-World Image Super-Resolution

2025-08-13

Авторы:

Zhiqiang Wu, Zhaomang Sun, Tong Zhou, Bingtao Fu, Ji Cong, Yitong Dong, Huaqi Zhang, Xuan Tang, Mingsong Chen, Xian Wei

## Контекст Область исследования — реальномировые задачи суперразрешения изображений (Real-World Image Super-Resolution, Real-ISR). Данная область широко применяется в графике, видеоредактировании и виртуальной реальности. Однако существуют следующие проблемы: 1. Ограниченная эффективность существующих методов при работе с низкокачественными (LQ) изображениями. 2. Ограниченная точность восстановления деталей в результирующих изображениях. 3. Необходимость решения проблемы синхронизации между низкокачественным и высококачественным изображениями для эффективного использования генеративных моделей. Мотивация заключается в создании универсального фреймворка, который бы устранил ограничения декодирования и обеспечил более точное восстановление деталей. ## Метод Предлагается One Mid-timestep Guidance Real-ISR (OMGSR) — универсальная модель, основанная на Denoising Diffusion Probabilistic Models (DDPM) и Flow Matching (FM). OMGSR инъектирует LQ image latent distribution в оптимальной точке (mid-timestep), решая проблему гапа между распределениями LQ и шумных нормальных распределений. Для повышения точности решения используется Latent Distribution Refinement loss. Для устранения чекерборд-артефактов при генерации используется Overlap-Chunked LPIPS/GAN loss. Фреймворк включает две вариации: OMGSR-S и OMGSR-F. Модель тренируется и эксперименты проводятся на задаче 512-резолюции, а также на 1k-резолюции с использованием Tiled VAE & Diffusion. ## Результаты Проведены эксперименты с популярными датасетовыми задачами (одномерные и бинарные). Модель OMGSR-S показывает балансированное качество в 512-резолюции, в то время как OMGSR-F демонстрирует оптимальное качество. На 1k-резолюции OMGSR-F обеспечивает выдающиеся результаты, особенно в деталях изображений. Также удалось генерировать изображения 2k-резолюции с помощью двухэтапного Tiled VAE & Diffusion. Эти результаты подтверждают эффективность OMGSR в решении задачи Real-ISR. ## Значимость OMGSR может применяться в решении следующих задач: 1. Реальномировых задачах суперразрешения изображений в видеоредактировании и графике. 2. Эффективной работе с низкокачественными данными и их преобразовании в высококачественные. 3. Улучшении деталей в изображениях без потери точности. Особенности: - Универсальность и эффективность в работе с различными методами DDPM и FM. - Устранение проблемы синхронизации распределений. - Улучшение деталей изображений с низкого качества. Потенциальное влияние: OMGSR может стать ключевым инструментом для развития технологий в области графики, видеоредактирования и виртуальной реальности. ## Выводы OMGS

Annotation:

Denoising Diffusion Probabilistic Models (DDPM) and Flow Matching (FM) generative models show promising potential for one-step Real-World Image Super-Resolution (Real-ISR). Recent one-step Real-ISR models typically inject a Low-Quality (LQ) image latent distribution at the initial timestep. However, a fundamental gap exists between the LQ image latent distribution and the Gaussian noisy latent distribution, limiting the effective utilization of generative priors. We observe that the noisy latent...

ID: 2508.08227v1 cs.CV, cs.AI

arXiv PDF

1
2
215
216
217
218
219
227
228

Показано 2161 - 2170 из 2274 записей