📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Junlong Ren, Gangjian Zhang, Honghao Fu, Pengcheng Wu, Hao Wang

**Резюме** Текстово-моторная восприятия (Text-Motion Retrieval, TMR) — задача восстановления 3D моторных последовательностей, семантически связанных с текстовыми описаниями. Однако этот вид задач представляет серьезные трудности из-за сложной структуры человеческого тела и временно-пространственных динамических характеристик его движений. Традиционные подходы часто игнорируют эти характеристики, используя универсальные методы, недостаточно точные для тонкой семантической алгнировки. В статье предлагается WaMo — новая волновой фреймворк для многочастотного анализа движений. Он эффективно извлекает частные и временно-изменяющиеся детали мотива с помощью декомпозиции на несколько разрешений. Это достигается за счет трех основных компонент: декомпозиции сигналов мотива в частотные компоненты, восстановления исходных траекторий с помощью обучаемых преобразований и предсказания отсортированных последовательностей движений. Проведенные эксперименты показали, что WaMo превосходит существующие методы, повысив $Rsum$ на 17.0% и 18.2% на HumanML3D и KIT-ML, соответственно. Это значительно улучшает точность восприятия текстово-моторных задач.
Annotation:
Text-Motion Retrieval (TMR) aims to retrieve 3D motion sequences semantically relevant to text descriptions. However, matching 3D motions with text remains highly challenging, primarily due to the intricate structure of human body and its spatial-temporal dynamics. Existing approaches often overlook these complexities, relying on general encoding methods that fail to distinguish different body parts and their dynamics, limiting precise semantic alignment. To address this, we propose WaMo, a nove...
ID: 2508.03343v1 cs.CV
Авторы:

Matteo Caligiuri, Francesco Barbato, Donald Shenaj, Umberto Michieli, Pietro Zanuttigh

**Резюме** Существующие методы федеративного обучения (FL) часто сталкиваются с проблемой ресурсоемкости при обучении больших моделей на клиентских устройствах. Мы предлагаем FedPromo — фреймворк, решающий эту проблему за счет использования легковесных прокси-моделей. Решение работает в двух этапах: сначала выравнивается представление большой фундаментальной модели (например, трансформера) с компактной моделью (например, CNN) на сервере с помощью классического knowledge distillation. Затем клиентские устройства принимают прокси-модель и обучают на ней локальные классификаторы. Эти классификаторы мерджутся на сервере, обновляя базовую модель, но без непосредственного доступа к данным клиентов. Наш подход включает оригинальные регуляризационные стратегии, обеспечивая эффективное децентрализованное многодоменное обучение. На экспериментах с five-shot image classification FedPromo показал значительные выигрыши по результатам и ресурсоемкости по сравнению с современными методами, даже при ограниченных ресурсах клиентских устройств.
Annotation:
Federated Learning (FL) is an established paradigm for training deep learning models on decentralized data. However, as the size of the models grows, conventional FL approaches often require significant computational resources on client devices, which may not be feasible. We introduce FedPromo, a novel framework that enables efficient adaptation of large-scale foundation models stored on a central server to new domains encountered only by remote clients. Instead of directly training the large mo...
ID: 2508.03356v1 cs.CV, cs.LG
Авторы:

Yifei Sun, Zhanghao Chen, Hao Zheng, Yuqing Lu, Lixin Duan, Fenglei Fan, Ahmed Elazab, Xiang Wan, Changmiao Wang, Ruiquan Ge

Задача бонсупрессии в CXR изображениях является важной для повышения точности диагностики, однако существующие методы сталкиваются с проблемами балансировки удаления кисти и сохранения локальных деталей. Мы предлагаем Global-Local Latent Consistency Model (GL-LCM), архитектуру, которая объединяет сегментацию лёгких, двухпутное отсканирование и глобально-локальную консолидацию. GL-LCM эффективно уменьшает видимость кисти, сохраняет локальные детали и обеспечивает высокую скорость обработки. Для устранения проблемы размытия и артефактов на границах мы предлагаем Local-Enhanced Guidance, который не требует дополнительной тренировки. Эксперименты на SZCH-X-Rays и JSRT показали, что GL-LCM превосходит конкуренты по качеству и производительности, делая его применимым в клинических условиях.
Annotation:
Chest X-Ray (CXR) imaging for pulmonary diagnosis raises significant challenges, primarily because bone structures can obscure critical details necessary for accurate diagnosis. Recent advances in deep learning, particularly with diffusion models, offer significant promise for effectively minimizing the visibility of bone structures in CXR images, thereby improving clarity and diagnostic accuracy. Nevertheless, existing diffusion-based methods for bone suppression in CXR imaging struggle to bala...
ID: 2508.03357v1 eess.IV, cs.CV
Авторы:

Ni Tang, Xiaotong Luo, Zihan Cheng, Liangtai Zhou, Dongxiao Zhang, Yanyun Qu

Авторы предлагают метод Diffusion Once and Done (DOD) для эффективной всеобъемлемой восстановления изображений (AiOIR), основанного на моделях распространения (diffusion models). Несмотря на высокую мощность diffusion models в AiOIR, существующие подходы либо требуют дорогостоящей реадаптации модели, либо ограничены в способности адаптироваться к различным типам повреждений изображений. DOD решает эти проблемы за счет ввода многофункциональной модификации деградаций и параметр-эффективного уточнения модели низкоранговой кондиционированной адаптации (LoRA). Это позволяет эффективно адаптировать модель Stable Diffusion к различным типам повреждений с помощью одного шага семплирования. Кроме того, внедрен модуль повышения качества деталей, что улучшает структурные и текстурные характеристики восстановленных изображений. Тесты показали, что DOD превосходит соревновательные подходы как в качестве восстановления, так и в эффективности вычислений.
Annotation:
Diffusion models have revealed powerful potential in all-in-one image restoration (AiOIR), which is talented in generating abundant texture details. The existing AiOIR methods either retrain a diffusion model or fine-tune the pretrained diffusion model with extra conditional guidance. However, they often suffer from high inference costs and limited adaptability to diverse degradation types. In this paper, we propose an efficient AiOIR method, Diffusion Once and Done (DOD), which aims to achieve ...
ID: 2508.03373v1 cs.CV
Авторы:

Keyi Li, Alexander Jaus, Jens Kleesiek, Rainer Stiefelhagen

Текущие методы глубокого обучения для сегментации заболеваний часто ориентируются только на паттерны, игнорируя анатомический контекст, который критичен для точного определения патологий. Для решения этой проблемы предложена модель GRASP (Guided Representation Alignment for the Segmentation of Pathologies), гибкий модульный подход, который улучшает модели сегментации заболеваний, используя существующие модели сегментации анатомии. Методом GRASP включается интеграция псевдометок анатомии и алгоритмов переноса признаков, что позволяет модели без дополнительного тренирования анатомических моделей получать знания об анатомии. Это улучшает точность сегментации. Результаты исследований показывают, что GRASP показывает высокую эффективность на нескольких датасетах, а его двухуровневая стратегия внедрения анатомического контекста с помощью псевдометок и трансформеров демонстрирует эффективность в интеграции анатомического контекста в модели.
Annotation:
Radiologists rely on anatomical understanding to accurately delineate pathologies, yet most current deep learning approaches use pure pattern recognition and ignore the anatomical context in which pathologies develop. To narrow this gap, we introduce GRASP (Guided Representation Alignment for the Segmentation of Pathologies), a modular plug-and-play framework that enhances pathology segmentation models by leveraging existing anatomy segmentation models through pseudolabel integration and feature...
ID: 2508.03374v1 cs.CV
Авторы:

Jingjie Wang, Shunli Zhang, Xiang Wei, Senmao Tian

**Резюме** Проблема: Текущие методы распознавания гаита часто требуют переучивания при добавлении новых данных, что приводит к ухудшению их восприятия исходных данных. Решение: Мы предлагаем непрерывное обучение для распознавания гаита, названное GaitAdapt. Оно позволяет модели постоянно улучшаться, сохраняя узнаваемость предыдущих данных. Основная идея заключается в GPAK-модуле, основанном на графах, который агрегирует общие шаблоны гаита из новых данных, и в EDSN-методе, обеспечивающем сохранение относительного расположения классов. Основные выводы: Исследования показали, что GaitAdapter эффективно сохраняет знания из предыдущих задач и превосходит альтернативные подходы в условиях непрерывного обучения.
Annotation:
Current gait recognition methodologies generally necessitate retraining when encountering new datasets. Nevertheless, retrained models frequently encounter difficulties in preserving knowledge from previous datasets, leading to a significant decline in performance on earlier test sets. To tackle these challenges, we present a continual gait recognition task, termed GaitAdapt, which supports the progressive enhancement of gait recognition capabilities over time and is systematically categorized a...
ID: 2508.03375v1 cs.CV
Авторы:

Yizhe Xiong, Zihan Zhou, Yiwen Liang, Hui Chen, Zijia Lin, Tianxiang Hao, Fan Zhang, Jungong Han, Guiguang Ding

**Резюме** В тест-тайм адаптации (TTA) для Vision Transformers (ViT) становится ключевым решать проблему высокого вычислительного объема, что ограничивает применение TTA в реальном времени. Наиболее эффективными показались методы агрегирования токенов, но они приводят к потере информации и снижению качества. В статье предложен новый подход **NAVIA** (Neutralizing Token Aggregation via Information Augmentation), который стремится оптимизировать агрегирование токенов, сохранив высокую точность. Используя теоретический анализ на основе мультипликативного информационного подхода, авторы показали, что информационная потеря может быть восстановлена с помощью добавления информативных смещений в [CLS]-токены на ранних слоях ViT. Это решение демонстрирует выигрыш в точности над текущими методами на различных бенчмарках, при этом сокращая затраты вычислительных ресурсов на 20%. Таким образом, NAVIA является эффективным и практичным способом решения проблемы эффективной TTA.
Annotation:
Test-Time Adaptation (TTA) has emerged as an effective solution for adapting Vision Transformers (ViT) to distribution shifts without additional training data. However, existing TTA methods often incur substantial computational overhead, limiting their applicability in resource-constrained real-world scenarios. To reduce inference cost, plug-and-play token aggregation methods merge redundant tokens in ViTs to reduce total processed tokens. Albeit efficient, it suffers from significant performanc...
ID: 2508.03388v2 cs.CV
Авторы:

Xinzhu Li, Juepeng Zheng, Yikun Chen, Xudong Mao, Guanghui Yue, Wei Zhou, Chenlei Lv, Ruomei Wang, Fan Zhou, Baoquan Zhao

**Резюме** Распознавание гештальта человека (gait recognition) является важной задачей в области зрительного распознавания, особенно для приложений в безопасности и экспертизе. Однако существующие подходы, основанные на 2D-представлениях, таких как силуэты и скелеты, часто недостаточно точны при различных углах обзора или сложных условиях съемки. В статье предлагается новый подход, DepthGait, который использует RGB-полученные глубинные карты вместе с силуэтами для улучшения точности распознавания гештальта. Глубинные карты добавляют важные трёхмерные признаки, позволяют лучше учесть различия в ширине и высоте тела в разных точках прохода. Для эффективного объединения этих двух типов данных, разработана схема многомерного и кросс-уровневого слияния. Эксперименты показали, что DepthGait достигает лидирующих результатов на известных бенчмарках, с высокой точностью распознавания, даже при низкокачественных входных данных. Это работа открывает путь к более точному и устойчивому распознаванию гештальта.
Annotation:
Robust gait recognition requires highly discriminative representations, which are closely tied to input modalities. While binary silhouettes and skeletons have dominated recent literature, these 2D representations fall short of capturing sufficient cues that can be exploited to handle viewpoint variations, and capture finer and meaningful details of gait. In this paper, we introduce a novel framework, termed DepthGait, that incorporates RGB-derived depth maps and silhouettes for enhanced gait re...
ID: 2508.03397v1 cs.CV, cs.MM
Авторы:

Gang Yang

**Резюме** В статье предлагается новая методика для многоуровневого линейного размешивания в hyperspectral imagery, которая основывается на многоуровневой модели факторизации матриц. Метод, названный Sparsity and Total Variation Constrained Multilayer Linear Unmixing (STVMLU), расширяет стандартные подходы к размешиванию, внедряя два ключевых ограничения. Первое — спарсинговое ограничение (L1/2-норма), нацеленное на эффективное характеризуя спарсность матрицы абундансов. Второе — ограничение на полноту (TV), которое учитывает соседственные пространственные схожести в изображении. Эти ограничения позволяют улучшить точность распределения абундансов и структуры материалов в изображении. Решение основывается на методе ADMM (Alternating Direction Method of Multipliers), который обеспечивает эффективную оптимизацию. Эксперименты показали, что предложенный подход превосходит другие алгоритмы, демонстрируя лучшую точность и стабильность в размешивании.
Annotation:
Hyperspectral unmixing aims at estimating material signatures (known as endmembers) and the corresponding proportions (referred to abundances), which is a critical preprocessing step in various hyperspectral imagery applications. This study develops a novel approach called sparsity and total variation (TV) constrained multilayer linear unmixing (STVMLU) for hyperspectral imagery. Specifically, based on a multilayer matrix factorization model, to improve the accuracy of unmixing, a TV constraint ...
ID: 2508.03403v1 cs.CV, cs.LG, eess.IV
Авторы:

Ning Zhu, Xiaochuan Ma, Shaoting Zhang, Guotai Wang

Задача Cold-Start Active Learning (CSAL) стремится выбирать информативные примеры для аннотации без предварительного знания, чтобы оптимизировать эффективность аннотации и повысить моделирование в условиях ограниченного бюджета аннотаций в области медицинского анализа изображений. Основная проблема заключается в неэффективности существующих CSAL-методов, которые опираются на Self-Supervised Learning (SSL) на целевой выборке, ограничиваясь недостаточно выработанными функциями выделения признаков. Нашим решением является MedCAL-Bench — первая систематическая система оценки на основе Foundation Models (FMs) для CSAL в медицинской области. Мы оценили 14 FMs и 7 CSAL-стратегий на 7 медицинских данных, затрагивающих классификацию и сегментацию различных модальностей. Мы показали, что большинство FMs эффективны в качестве функций выделения признаков, в том числе DINO-семья для сегментации. Также мы выявили, что различия в производительности FMs варьируются в зависимости от типа задачи, а также что разные стратегии выбора примеров подходят для различных данных. Основным выводом является, что MedCAL-Bench стал первым CSAL-бенчмарком, оценивающим как этапы выделения признаков, так и выбора примеров.
Annotation:
Cold-Start Active Learning (CSAL) aims to select informative samples for annotation without prior knowledge, which is important for improving annotation efficiency and model performance under a limited annotation budget in medical image analysis. Most existing CSAL methods rely on Self-Supervised Learning (SSL) on the target dataset for feature extraction, which is inefficient and limited by insufficient feature representation. Recently, pre-trained Foundation Models (FMs) have shown powerful fe...
ID: 2508.03441v1 cs.CV
Показано 11281 - 11290 из 11631 записей