📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Efficient Chambolle-Pock based algorithms for Convoltional sparse representation

2025-08-09

Авторы:

Yi Liu, Junjing Li, Yang Chen, Haowei Tang, Pengcheng Zhang, Tianling Lyu, Zhiguo Gui

Научная статья посвящена совершенствованию алгоритмов для решения задач связанных с конволюционной сжатой репрезентацией (CSR), важной для обработки изображений. Авторы отмечают, что широко используемый метод через метод последовательных переносов (ADMM) требует тщательного выбора гиперпараметров, что может привести к проблемам субъективности или неэффективности. В качестве альтернативы предложен алгоритм, основанный на рамфаксе Chambolle-Pock (CP), который устраняет необходимость вручную выбирать параметры и демонстрирует быстрейшую скорость сходимости. Также предложена новая модификация сжатого представления с применением анизотропного ТВ-штрафа для коэффициентных карт. Эксперименты показывают, что предложенный метод выдает результаты, сравнимые с лучшими ADMM-подобными подходами при обработке шумовой свободной изображения, но превосходит их в удалении шума. Это делает CP-фреймворк привлекательным для решения задач CSR в сложных условиях.

Annotation:

Recently convolutional sparse representation (CSR), as a sparse representation technique, has attracted increasing attention in the field of image processing, due to its good characteristic of translate-invariance. The content of CSR usually consists of convolutional sparse coding (CSC) and convolutional dictionary learning (CDL), and many studies focus on how to solve the corresponding optimization problems. At present, the most efficient optimization scheme for CSC is based on the alternating ...

ID: 2508.02152v1 cs.CV, eess.IV

arXiv PDF

📄 QuaDreamer: Controllable Panoramic Video Generation for Quadruped Robots

2025-08-09

Авторы:

Sheng Wu, Fei Teng, Hao Shi, Qi Jiang, Kai Luo, Kaiwei Wang, Kailun Yang

Многие перспективные применения роботов-купальщиков в сложных пространственных средах зависят от качественных панорамных видео, необходимых для обучения моделей визуального понимания. Однако данные для подобных задач сложно получить из-за ограничений кинематики робота и сложностей калибровки датчиков. Мы предлагаем QuaDreamer — первую систему, специально разработанную для генерации панорамных видеороликов, контролируемых в зависимости от движения робота-купальщика. Решение основывается на инновационной Vertical Jitter Encoding (VJE), фильтрующей контролируемые вертикальные колебания в ходе движения, и Scene-Object Controller (SOC), управляющем объектными движениями и контролем шума в фоновой части. Для улучшения качества полученных панорамных видео мы ввели Panoramic Enhancer (PE), который решает проблему дисторсий в широком поле зрения и обеспечивает глобальную геометрическую консистентность. Таким образом, QuaDreamer создает высококачественные панорамные видео, которые могут использоваться для обучения моделей визуального понимания, в частности для повышения эффективности трекинга объектов в 360-градусовой среде.

Annotation:

Panoramic cameras, capturing comprehensive 360-degree environmental data, are suitable for quadruped robots in surrounding perception and interaction with complex environments. However, the scarcity of high-quality panoramic training data-caused by inherent kinematic constraints and complex sensor calibration challenges-fundamentally limits the development of robust perception systems tailored to these embodied platforms. To address this issue, we propose QuaDreamer-the first panoramic data gene...

ID: 2508.02512v1 cs.RO, cs.CV, eess.IV

arXiv PDF

📄 Explainable AI Methods for Neuroimaging: Systematic Failures of Common Tools, the Need for Domain-Specific Validation, and a Proposal for Safe Application

2025-08-09

Авторы:

Nys Tjade Siegel, James H. Cole, Mohamad Habes, Stefan Haufe, Kerstin Ritter, Marc-André Schulz

Надежная интерпретация нейроимаджинга с помощью депейпд-леарнинга требует достоверных методов объяснения (XAI). Однако существующие XAI-методы часто не проходят строгий валидации, что подрывает надежность их выводов. В первый раз был проведен крупномасштабный систематический анализ этих методов на ~45,000 структурных MRI, используя новую фреймворк для валидации XAI. Этот фреймворк создавал признаки с ясно определенным сигналом — от локализованных анатомических особенностей до клинических лезионов — без изменения входных изображений. Анализ показал, что два из наиболее популярных методов, GradCAM и LRP, систематически не отвечали на ожидания, а SmoothGrad, проще в принципе, показался более надежным. Эти находки указывают на необходимость доработки XAI-методов для нейроимаджинга, подтверждают необходимость переоценки предыдущих исследований и дают рекомендации для безопасного применения XAI в этой области.

Annotation:

Trustworthy interpretation of deep learning models is critical for neuroimaging applications, yet commonly used Explainable AI (XAI) methods lack rigorous validation, risking misinterpretation. We performed the first large-scale, systematic comparison of XAI methods on ~45,000 structural brain MRIs using a novel XAI validation framework. This framework establishes verifiable ground truth by constructing prediction tasks with known signal sources - from localized anatomical features to subject-sp...

ID: 2508.02560v1 cs.LG, cs.CV, eess.IV, q-bio.NC, stat.ML

arXiv PDF

📄 RDDPM: Robust Denoising Diffusion Probabilistic Model for Unsupervised Anomaly Segmentation

2025-08-09

Авторы:

Mehrdad Moradi, Kamran Paynabar

Данная работа уделяет внимание проблеме непродолженного обнаружения аномалий в ситуациях, когда доступно только помеченное контролируемой нормальной и аномальной смеси данных. Авторы предлагают новую модель Robust Denoising Diffusion Probabilistic Model (RDDPM), призванную улучшить надежность диффузионных моделей в таких условиях. Она использует подход метода наименьших квадратов для реинтерпретации диффузионных моделей через регрессию. Результат — модель, устойчивая к выбросам и подходящая для контролируемой необученной аномалий сегментации. Эксперименты показали, что RDDPM превосходит современные диффузионные модели на датасете MVTec, достигая повышения метрик AUROC и AUPRC на 8,08% и 10,37% соответственно. Это демонстрирует мощь RDDPM в обнаружении аномалий при ограниченных ресурсах обучения.

Annotation:

Recent advancements in diffusion models have demonstrated significant success in unsupervised anomaly segmentation. For anomaly segmentation, these models are first trained on normal data; then, an anomalous image is noised to an intermediate step, and the normal image is reconstructed through backward diffusion. Unlike traditional statistical methods, diffusion models do not rely on specific assumptions about the data or target anomalies, making them versatile for use across different domains. ...

ID: 2508.02903v1 cs.CV, eess.IV, stat.ML, 68T07, I.4.9; I.2.10

arXiv PDF

📄 UniFucGrasp: Human-Hand-Inspired Unified Functional Grasp Annotation Strategy and Dataset for Diverse Dexterous Hands

2025-08-09

Авторы:

Haoran Lin, Wenrui Chen, Xianchi Chen, Fan Yang, Qiang Diao, Wenxin Xie, Sijie Wu, Kailun Yang, Maojun Li, Yaonan Wang

Данные по декстерой граспировки являются ключевыми для развития интеллектуальных систем, однако подавляющее большинство таких датасетов фокусируются на стабильности граспировки, пренебрегая функциональными граспами, необходимыми для выполнения конкретных задач, например, открытия бутылочных крышек или держания ручек чашки. Большинство таких датасетов также ограничены в использовании дорогостоящих и сложно управляемых ручных систем с большим числом степеней свободы. Работающий на основе биомиметизма, UniFucGrasp предлагает новую стратегию аннотации функциональных граспировок, которая позволяет адаптировать движения человеческой руки к различным типам робототехнических рук. Используя метод геометрического клапанового замыкания, данная модель обеспечивает функциональную и устойчивую граспировку, аналогичную человеческим движениям. Также был создан первый многоручный датасет функциональных граспировок. Эксперименты показали, что UniFucGrasp улучшает точность манипуляций, увеличивает устойчивость граспировок и обеспечивает эффективное общеупотребительность на различных робототехнических руках, решая проблемы стоимости аннотации и проблему общеупотребительности в декстерой граспировке.

Annotation:

Dexterous grasp datasets are vital for embodied intelligence, but mostly emphasize grasp stability, ignoring functional grasps needed for tasks like opening bottle caps or holding cup handles. Most rely on bulky, costly, and hard-to-control high-DOF Shadow Hands. Inspired by the human hand's underactuated mechanism, we establish UniFucGrasp, a universal functional grasp annotation strategy and dataset for multiple dexterous hand types. Based on biomimicry, it maps natural human motions to divers...

ID: 2508.03339v1 cs.RO, cs.CV, eess.IV

arXiv PDF

📄 CloudBreaker: Breaking the Cloud Covers of Sentinel-2 Images using Multi-Stage Trained Conditional Flow Matching on Sentinel-1

2025-08-09

Авторы:

Saleh Sakib Ahmed, Sara Nowreen, M. Sohel Rahman

**Резюме** Ограничения в спутниковом сегменте дистанционного зондирования, включая поглощение облачными покровами и ограничения во время ночи, существенно снижают доступность и качество спутниковых данных. Радостной новостью для широкого круга пользователей данных стало предложение использовать данные радиолокационного аппарата Sentinel-1 для восстановления сложных мультиспектральных сигналов, включая RGB-изображения, NDVI и NDWI. Авторы предлагают CloudBreaker — модель, основанную на оригинальном подходе для обучения с помощью специальных технологий латентных потоков. На практике CloudBreaker демонстрирует высокую реалистичность и точность восстановления данных, впервые интегрируя косинусную дифференцированную схему подбора скорости обучения. Наиболее значимым является не только реальность восстановленных RGB-изображений, но и высокие показатели SSIM для NDWI и NDVI. Эта модель открывает новые возможности для решения проблем с отсутствием данных во время ночи или при облачном покрове, будучи подтвержденной высокими показателями качества FID и SSIM.

Annotation:

Cloud cover and nighttime conditions remain significant limitations in satellite-based remote sensing, often restricting the availability and usability of multi-spectral imagery. In contrast, Sentinel-1 radar images are unaffected by cloud cover and can provide consistent data regardless of weather or lighting conditions. To address the challenges of limited satellite imagery, we propose CloudBreaker, a novel framework that generates high-quality multi-spectral Sentinel-2 signals from Sentinel-1...

ID: 2508.03608v1 cs.CV, eess.IV

arXiv PDF

📄 Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

2025-08-09

Авторы:

Hidenori Takeshima

Исследование предлагает новый подход к симуляции магнитной резонансной спектроскопии (МРС), который ускоряет вычисления, основываясь на групповой обработке isochromats. Традиционные методы симуляции считают, что каждый isochromat должен быть обработан независимо, что приводит к высоким вычислительным затратам. Предложенный подход группирует isochromats с одинаковыми характеристиками (например, значениями T1, T2, положения на осях и полярностью магнитного поля), что позволяет использовать общие части расчетов. Это ускоряет симуляцию в 3–72 раз по сравнению с традиционными методами. На примере FAST SPIN ECHO (FSE) и ECHO-PLANAR IMAGING (EPI) показано, что в случае 27,5 миллионов isochromats вычислительное время сокращается с 208,4 до 38,1 секунд для FSE и с 66,4 до 7,1 секунд для EPI при использовании SIMD и многопоточности. Результаты демонстрируют эффективность нового подхода в решении высокозначимостных задач в области МРС.

Annotation:

This work aims to overcome an assumption of conventional MR simulators: Individual isochromats should be simulated individually. To reduce the computational times of MR simulation, a new simulation method using grouped isochromats is proposed. When multiple isochromats are grouped before simulations, some parts of the simulation can be shared in each group. For a certain gradient type, the isochromats in the group can be easily chosen for ensuring that they behave the same. For example, the grou...

ID: 2508.03960v1 physics.med-ph, cs.CV, eess.IV

arXiv PDF

📄 Excavate the potential of Single-Scale Features: A Decomposition Network for Water-Related Optical Image Enhancement

2025-08-09

Авторы:

Zheng Cheng, Wenri Wang, Guangyong Chen, Yakun Ju, Yihua Cheng, Zhisong Liu, Yanda Meng, Jintao Song

Задача улучшения качества увяданий изображений, сделанных под водой (UIE), стоит в устранении деградаций, вызванных пропусканием и рассеянием света. Основным подходом является использование механизмов многомерного извлечения признаков (MSFE), которые целью имеют улучшение реконструкции изображений с помощью слияния признаков разного разрешения. Тем не менее, наши исследования показывают, что высокое качество реконструкции изображений может быть достигнуто и с помощью одномерного извлечения признаков, что значительно уменьшает сложность. Для полного изучения потенциала одномерных признаков в задаче улучшения увяданий изображений, мы предлагаем новую архитектуру Single-Scale Decomposition Network (SSD-Net). Она вводит асимметричный механизм декомпозиции, разделяющий входное изображение на слой чистого сценарного сигнала и слой вмешательства среды. Архитектура SSD-Net объединяет локальные возможности извлечения признаков CNN с глобальным моделированием Transformer, используя два ключевых модуля: Parallel Feature Decomposition Block (PFDB) для декомпозиции признаков с использованием эффективной аттенции и адаптивного трансфортера, и Bidirectional Feature Communication Block (BFCB) для динамического взаимодействия между слоями и слияния признаков. Этот инновационный подход позволяет эффективно декомпозировать признаки, улучшая их декодерские возможности.

Annotation:

Underwater image enhancement (UIE) techniques aim to improve visual quality of images captured in aquatic environments by addressing degradation issues caused by light absorption and scattering effects, including color distortion, blurring, and low contrast. Current mainstream solutions predominantly employ multi-scale feature extraction (MSFE) mechanisms to enhance reconstruction quality through multi-resolution feature fusion. However, our extensive experiments demonstrate that high-quality im...

ID: 2508.04123v1 cs.CV, eess.IV

arXiv PDF

📄 Continual Multiple Instance Learning for Hematologic Disease Diagnosis

2025-08-09

Авторы:

Zahra Ebrahimi, Raheleh Salehi, Nassir Navab, Carsten Marr, Ario Sadafi

Целевая проблема заключается в неэффективности существующих методов непрерывного обучения (continual learning) при применении к задачам несупервизированного многоинстанционного обучения (multiple instance learning, MIL), которое широко используется в диагностике болезней крови, например, в определении лейкозей. Наша работа предлагает первый метод непрерывного обучения, оптимизированный специфически для MIL. Метод основывается на репетиции выборок (rehearsal), при которой выбираются отдельные инстанции из различных «мешков» (bags) на основе инстанций-аутентификаторов (instance attention scores) и их расстояний от среднего вектора класса и «мешка». Это позволяет эффективно сохранить разнообразие данных в памяти. Мы проверили эффективность на реальных данных лейкомии за один месяц, сравнив с трех известных методами непрерывного обучения. Наши результаты показали, что предложенный подход значительно превосходит их в производительности, устанавливая новую стандартную практику для непрерывного обучения в MIL.

Annotation:

The dynamic environment of laboratories and clinics, with streams of data arriving on a daily basis, requires regular updates of trained machine learning models for consistent performance. Continual learning is supposed to help train models without catastrophic forgetting. However, state-of-the-art methods are ineffective for multiple instance learning (MIL), which is often used in single-cell-based hematologic disease diagnosis (e.g., leukemia detection). Here, we propose the first continual le...

ID: 2508.04368v1 cs.LG, cs.CV, eess.IV, q-bio.QM

arXiv PDF

📄 Single-Step Reconstruction-Free Anomaly Detection and Segmentation via Diffusion Models

2025-08-09

Авторы:

Mehrdad Moradi, Marco Grasso, Bianca Maria Colosimo, Kamran Paynabar

Аномалийдиктовка и сегментация — важные задачи в области анализа изображений, требующие высокой точности и быстроты. Несмотря на успех генеративных моделей, в том числе diffusion models, традиционные подходы, основанные на восстановлении изображений, сталкиваются с тремя основными проблемами: высокой вычислительной сложностью, возможностью ошибочной интерпретации нормальных шаблонов и необходимостью дополнительной информации о нарушениях. Мы предлагаем Reconstruction-Free Anomaly Detection with Attention-Based Diffusion Models in Real-Time (RADAR) — метод, который устраняет эти ограничения. RADAR не восстанавливает изображение, а напрямую производит anomaly maps, повышая тем самым точность и эффективность. Мы проверили RADAR на двух реальных датасетах — MVTec-AD и 3D-printed material. Наш подход показал лучшие результаты по всем ключевым метрикам в сравнении с современными diffusion-based и статистическими моделями. Этот результат подтверждает высокую эффективность RADAR в реальном времени.

Annotation:

Generative models have demonstrated significant success in anomaly detection and segmentation over the past decade. Recently, diffusion models have emerged as a powerful alternative, outperforming previous approaches such as GANs and VAEs. In typical diffusion-based anomaly detection, a model is trained on normal data, and during inference, anomalous images are perturbed to a predefined intermediate step in the forward diffusion process. The corresponding normal image is then reconstructed throu...

ID: 2508.04818v1 cs.CV, eess.IV, stat.ML, 62H35, 68T07, 62M40, 68T45, I.2.6; I.2.10; I.4.6; I.4.8; I.5.1; I.5.4

arXiv PDF

Показано 91 - 100 из 101 записей