📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Towards Globally Predictable k-Space Interpolation: A White-box Transformer Approach

2025-08-09

Авторы:

Chen Luo, Qiyu Jin, Taofeng Xie, Xuemei Wang, Huayu Wang, Congcong Liu, Liming Tang, Guoqing Chen, Zhuo-Xu Cui, Dong Liang

Задача интерполяции отсутствующих данных в k-space является ключевой для ускорения медицинской импедансной сканирования. Несмотря на то, что существующие процедуры, основанные на convolutional neural networks (CNN), эффективно используют локальные зависимости, они недостаточно прислушиваются к глобальным зависимостям в k-space. Недавние прогрессы в области transformers, вызванные их успехом в обработке естественного языка и глубокого анализе изображений, показали, что они могут способствовать лучшему использованию глобальных структур в k-space. Однако их критическая проблема заключается в непонятности решений. Мы предлагаем GPI-WT, новый white-box Transformer в рамках Global Predictable Interpolation (GPI), который формализуется в качестве аннигиляционной модели low-rank для k-space. Мы рассматриваем мировые фильтры аннигиляции как обучаемые параметры и индуцируемый subgradient-оптимизационный процесс специальную attention-механику. Наши эксперименты показали, что GPI-WT превосходит состояние технологий в точности интерполяции в k-space и обеспечивает высокую интерпретируемость результатов.

Annotation:

Interpolating missing data in k-space is essential for accelerating imaging. However, existing methods, including convolutional neural network-based deep learning, primarily exploit local predictability while overlooking the inherent global dependencies in k-space. Recently, Transformers have demonstrated remarkable success in natural language processing and image analysis due to their ability to capture long-range dependencies. This inspires the use of Transformers for k-space interpolation to ...

ID: 2508.04051v1 cs.CV, math.OC

arXiv PDF

📄 Uni-DocDiff: A Unified Document Restoration Model Based on Diffusion

2025-08-09

Авторы:

Fangmin Zhao, Weichao Zeng, Zhenhang Li, Dongbao Yang, Binbin Li, Xiaojun Bi, Yu Zhou

Документ деградации является важной проблемой в области цифрового распознавания и обработки документов, поскольку нарушает их читаемость и способность к анализу. Ранее, для решения этой проблемы, разрабатывались отдельные модели для каждой категории деградаций, что приводило к сложности и неэффективности систем. В статье предлагается Uni-DocDiff — модель, основанная на методе диффузии, которая удачно объединяет несколько задач восстановления документов в единую архитектуру. Для улучшения многозадачности и уменьшения возможных затруднений с интерференцией задач предложена механика Prior Pool и Prior Fusion Module. Эти решения позволяют Uni-DocDiff адаптироваться к различным задачам, включая неизвестные, а также показывают высокую эффективность, которая сопоставима или даже превосходит задаче-специалисты. Таким образом, Uni-DocDiff предлагает эффективное, гибкое и синергетичное решение для сложных задач восстановления документов.

Annotation:

Removing various degradations from damaged documents greatly benefits digitization, downstream document analysis, and readability. Previous methods often treat each restoration task independently with dedicated models, leading to a cumbersome and highly complex document processing system. Although recent studies attempt to unify multiple tasks, they often suffer from limited scalability due to handcrafted prompts and heavy preprocessing, and fail to fully exploit inter-task synergy within a shar...

ID: 2508.04055v1 cs.CV

arXiv PDF

📄 TCSAFormer: Efficient Vision Transformer with Token Compression and Sparse Attention for Medical Image Segmentation

2025-08-09

Авторы:

Zunhui Xia, Hongxing Li, Libin Lan

Медицинская изображечная сегментация широко применяется в различных областях, но существует две основные проблемы: высокая вычислительная сложность, особенно для больших последовательностей входных данных, и недостаточная точность в понимании локальных контекстов и многомерных фичей. Чтобы решить эти проблемы, мы предлагаем TCSAFormer — эффективную сеть на основе трансформеров. Основные идеи TCSAFormer заключаются в использовании Compressed Attention (CA) модуля, который объединяет токен-компрессию и пиксельный спарси аттенцион, чтобы фокусироваться на самых важных парах ключ-значение, а также в Dual-Branch Feed-Forward Network (DBFFN), который укрепляет возможности модели в захвате многомерных фичей. Мы проверили TCSAFormer на трех публичных медицинских датасетах, и результаты показали, что сеть превосходит существующие методы по точности, при этом сохраняя меньший вычислительный overhead.

Annotation:

In recent years, transformer-based methods have achieved remarkable progress in medical image segmentation due to their superior ability to capture long-range dependencies. However, these methods typically suffer from two major limitations. First, their computational complexity scales quadratically with the input sequences. Second, the feed-forward network (FFN) modules in vanilla Transformers typically rely on fully connected layers, which limits models' ability to capture local contextual info...

ID: 2508.04058v1 cs.CV

arXiv PDF

📄 Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models

2025-08-09

Авторы:

Zhaochen Liu, Kaiwen Gao, Shuyi Liang, Bin Xiao, Limeng Qiao, Lin Ma, Tingting Jiang

**Резюме** В данной работе представлена первая в своем роде проверка оккультного восприятия с помощью оккультно-визуальных задач для многоmodalных больших языковых моделей (МЛЛМ). Несмотря на то, что МЛЛМы продемонстрировали выдающиеся результаты во многих областях, их возможности по оккультному восприятию остаются недостаточно изученными. Для решения этой проблемы авторы предложили O-Bench — новую визуальную тестовую среду, построенную на базе SA-1B и охватывающую 1,365 синтетических изображений с оккультными ситуациями. На основе этой среды были созданы 4,588 вопросов-ответов, разделенных на 5 задач. Авторы проанализировали результаты 22 МЛЛМ, включая самые современные модели. Оказалось, что МЛЛМы превосходством в оккультном восприятии не сводятся к простому увеличению размера модели или улучшению процесса мышления, а сами по себе имеют серьезные ограничения. Авторы также выделили три типичных недостатка моделей: предвзятость к осторожности, чувствительность к некоторым локальным факторам, а также сложность с расчетными задачами. Таким образом, O-Bench может стать важной инструментой для развития МЛЛМ и их использования в области зрительных технологий.

Annotation:

Occlusion perception, a critical foundation for human-level spatial understanding, embodies the challenge of integrating visual recognition and reasoning. Though multimodal large language models (MLLMs) have demonstrated remarkable capabilities, their performance on occlusion perception remains under-explored. To address this gap, we introduce O-Bench, the first visual question answering (VQA) benchmark specifically designed for occlusion perception. Based on SA-1B, we construct 1,365 images fea...

ID: 2508.04059v1 cs.CV

arXiv PDF

📄 TNet: Terrace Convolutional Decoder Network for Remote Sensing Image Semantic Segmentation

2025-08-09

Авторы:

Chengqian Dai, Yonghong Guo, Hongzhao Xiang, Yigui Luo

Для улучшения семантической сегментации изображений спутниковых снимков часто используются модели, основанные на архитектуре UNet, дополненных модулями для усиления взаимодействий между локальными и глобальными признаками. Однако эти модели недостаточно эффективно интегрируют глобальные контекстные зависимости на разных уровнях разрешения. Мы предлагаем TNet (Terrace Convolutional Decoder Network) — простой, но эффективный подход, основанный на классических операциях свертки и сложения. Он позволяет прогрессивно объединять признаки разных разрешений в процессе декодирования, обеспечивая специальные слои, которые естественным образом адаптируются к контексту. Мы экспериментально проверили TNet на данных ISPRS Vaihingen, ISPRS Potsdam и LoveDA, достигши средний mIoU 85.35%, 87.05% и 52.19%, сохранив высокую эффективность вычислений. Наше решение доступно в открытом доступе.

Annotation:

In remote sensing, most segmentation networks adopt the UNet architecture, often incorporating modules such as Transformers or Mamba to enhance global-local feature interactions within decoder stages. However, these enhancements typically focus on intra-scale relationships and neglect the global contextual dependencies across multiple resolutions. To address this limitation, we introduce the Terrace Convolutional Decoder Network (TNet), a simple yet effective architecture that leverages only con...

ID: 2508.04061v1 cs.CV

arXiv PDF

📄 PET2Rep: Towards Vision-Language Model-Drived Automated Radiology Report Generation for Positron Emission Tomography

2025-08-09

Авторы:

Yichi Zhang, Wenbo Zhang, Zehui Ling, Gang Feng, Sisi Peng, Deshu Chen, Yuchen Liu, Hongwei Zhang, Shuqi Wang, Lanlan Li, Limei Han, Yuan Cheng, Zixin Hu, Yuan Qi, Le Xue

**Резюме** Positron emission tomography (PET) является важной методикой в онкологии и неврологии, позволяющей изучать метаболические процессы. Однако создание медицинских отчетов для PET-исследований вручную требует много времени и труда. В этой работе предлагается PET2Rep — первый бенчмарк, специально разработанный для оценки мощности визуально-языковых моделей (VLMs) в автоматизации генерации отчетов для PET-исследований. Он включает в себя сотни тысяч whole-body image-report pairs, охватывающих многие органы и чрезвычайно важные метаболические свойства. Мы сравнили 30 моделей, обнаружив, что даже лучшие VLMs сегодняшнего дня добиваются низкого качества в результатах, не соответствующем практическим потребностям. Основными проблемами, выявленными в исследовании, являются недостаточное понимание метаболического контента и ограниченность обучения моделей на реальных клинических данных. Наш эксперимент направлен на подчеркнуть необходимость развития специализированных моделей и дальнейшего исследования в этой области.

Annotation:

Positron emission tomography (PET) is a cornerstone of modern oncologic and neurologic imaging, distinguished by its unique ability to illuminate dynamic metabolic processes that transcend the anatomical focus of traditional imaging technologies. Radiology reports are essential for clinical decision making, yet their manual creation is labor-intensive and time-consuming. Recent advancements of vision-language models (VLMs) have shown strong potential in medical applications, presenting a promisi...

ID: 2508.04062v1 eess.IV, cs.CV

arXiv PDF

📄 RLGS: Reinforcement Learning-Based Adaptive Hyperparameter Tuning for Gaussian Splatting

2025-08-09

Авторы:

Zhan Li, Huangying Zhan, Changyang Li, Qingan Yan, Yi Xu

3D Gaussian Splatting (3DGS) — метод рендеринга 3D-сцен, требующий тонкого адаптивного гиперпараметрического регулирования для получения качественных результатов. Однако этот процесс требует значительных усилий и опыта специалиста. Мы предлагаем RLGS — модель, основанную на развитии стратегий при помощи реINFOrмационного обучения, для адаптивного гиперпараметрического оптимизационного процесса в 3DGS. Решение включает в себя лёгкие политические модели, которые динамически корректируют ключевые параметры, такие как скорость обучения и пороги денсификации. RLGS является моделью, независимой от конкретной архитектуры 3DGS, и может быть легко интегрирована в существующие 3DGS-процессы. Мы проверили её эффективность на нескольких современных 3DGS-моделях, включая Taming-3DGS и 3DGS-MCMC, и показали, что она последовательно повышает качество рендеринга — например, улучшила PSNR Taming-3DGS на 0.7 dB на TNT датасете. Наши результаты указывают на то, что RLGS представляет собой эффективное и универсальное решение для автоматизации гиперпараметрического оптимизационного процесса в 3DGS.

Annotation:

Hyperparameter tuning in 3D Gaussian Splatting (3DGS) is a labor-intensive and expert-driven process, often resulting in inconsistent reconstructions and suboptimal results. We propose RLGS, a plug-and-play reinforcement learning framework for adaptive hyperparameter tuning in 3DGS through lightweight policy modules, dynamically adjusting critical hyperparameters such as learning rates and densification thresholds. The framework is model-agnostic and seamlessly integrates into existing 3DGS pipe...

ID: 2508.04078v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 Bridging Diffusion Models and 3D Representations: A 3D Consistent Super-Resolution Framework

2025-08-09

Авторы:

Yi-Ting Chen, Ting-Hsuan Liao, Pengsheng Guo, Alexander Schwing, Jia-Bin Huang

**Резюме** В статье представлено новое решение для суперразрешения 3D-сцен — 3D Super Resolution (3DSR). Этот подход основывается на 3D-представлении сцены с использованием Gaussian-splatting и использует нейронные сети типа diffusion model для улучшения суперразрешения в двухмерных изображениях. Основная идея заключается в том, чтобы обеспечить консистентность 3D-представления при повышении разрешения, что отличает данный подход от предыдущих методов, которые либо не учитывали консистентности 3D-сцены, либо пытались её внедрить интуитивно. Результаты экспериментов показали, что 3DSR выдает высококачественные, визуально привлекательные результаты с хорошей структурной консистентностью в 3D-сценах, при этом не требуя дополнительного оптимизационного тренирования. Это демонстрирует эффективность нового подхода в решении проблемы 3D-суперразрешения, обеспечивая качественный результат с простым и универсальным подходом.

Annotation:

We propose 3D Super Resolution (3DSR), a novel 3D Gaussian-splatting-based super-resolution framework that leverages off-the-shelf diffusion-based 2D super-resolution models. 3DSR encourages 3D consistency across views via the use of an explicit 3D Gaussian-splatting-based scene representation. This makes the proposed 3DSR different from prior work, such as image upsampling or the use of video super-resolution, which either don't consider 3D consistency or aim to incorporate 3D consistency impli...

ID: 2508.04090v1 cs.CV

arXiv PDF

📄 NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding

2025-08-09

Авторы:

Zelin Peng, Yichen Zhao, Yu Huang, Piao Yang, Feilong Tang, Zhengqin Xu, Xiaokang Yang, Wei Shen

**Резюме** Ограниченные медицинские данные с аннотациями становятся ограничением для развития моделей, ориентированных на клиническое применение. Затруднения возникают из-за большого разрыва домена, который существует между общими vision-language models (VLMs) и задачами медицинского визуального понимания. Несмотря на то, что существующие методы, такие как prompt learning и one-way interaction, пытаются решить эту проблему, они часто приводят к недостаточной интеграции модолей и недостаточной эффективности. В этой работе предлагается NEARL-CLIP — новый подход, основанный на cross-modality interaction, который включает два новых компонента. Вначале Unified Synergy Embedding Transformer (USEformer) динамически генерирует cross-modality queries для более глубокого взаимодействия между модальностями, что обеспечивает усиление медицинского знания. Затем, Orthogonal Cross-Attention Adapter (OCA) разделяет новый кластер знаний на два независимых компонента: новую информацию и дополнительные изменения. Это позволяет OCA более эффективно приобретать наборы знаний. В результате, NEARL-CLIP получает мощные результаты с только 1.46M learnable параметрами, демонстрируя сильный потенциал для решения проблемы domain gap в медицинской области.

Annotation:

Computer-aided medical image analysis is crucial for disease diagnosis and treatment planning, yet limited annotated datasets restrict medical-specific model development. While vision-language models (VLMs) like CLIP offer strong generalization capabilities, their direct application to medical imaging analysis is impeded by a significant domain gap. Existing approaches to bridge this gap, including prompt learning and one-way modality interaction techniques, typically focus on introducing domain...

ID: 2508.04101v1 cs.CV

arXiv PDF

📄 AR as an Evaluation Playground: Bridging Metrics and Visual Perception of Computer Vision Models

2025-08-09

Авторы:

Ashkan Ganj, Yiqin Zhao, Tian Guo

Хотя людское восприятие является полезным инструментом для оценки качества компьютерного зрения (CV), проведение таких исследований часто затруднено сложными и непортируемыми системами. В статье предлагается новая платформа ARCADE, основанная на использовании технологий дополненной реальности (AR), что позволяет легко организовывать и проводить исследования восприятия. ARCADE обеспечивает удобную настройку экспериментов, поддержку разных моделей и интерактивных AR-задач, что делает процесс оценки более эффективным и доступным. Исследования показали, что AR может эффективно использоваться для получения человеческих оценок качества моделей, таких как оценка глубины и освещения. Кроме того, были проверены системные возможности ARCADE в различных условиях развертывания и использования, подтвердив её гибкость и эффективность для новых подходов в людско-центрической оценке CV-моделей.

Annotation:

Human perception studies can provide complementary insights to qualitative evaluation for understanding computer vision (CV) model performance. However, conducting human perception studies remains a non-trivial task, it often requires complex, end-to-end system setups that are time-consuming and difficult to scale. In this paper, we explore the unique opportunity presented by augmented reality (AR) for helping CV researchers to conduct perceptual studies. We design ARCADE, an evaluation platform...

ID: 2508.04102v1 cs.CV

arXiv PDF

1
2
1132
1133
1134
1135
1136
1161
1162

Показано 11331 - 11340 из 11614 записей