📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 DualMat: PBR Material Estimation via Coherent Dual-Path Diffusion

2025-08-09

Авторы:

Yifeng Huang, Zhang Chen, Yi Xu, Minh Hoai, Zhong Li

В статье предлагается DualMat — метод для оценки тщательных экструдированных материалов (PBR) из одного изображения при сложных условиях освещения. Он решает проблему точной оценки материальных свойств, таких как альбедо, металличность и зернистость, которые обычно трудно определить из одного изображения. DualMat работает с двумя латентными пространствами: одно для улучшения оценки альбедо с помощью предобученных визуальных моделей, другое — для точной оценки металличности и зернистости. Для обеспечения согласованности предсказаний между этими пространствами введена техника функционального дистилляции. Метод эффективен благодаря регулированию потока и использованию кросс-видового внимания, что позволяет работать с высокорезольнными исходными данными. DualMat демонстрирует свое превосходство на двух больших наборах данных, Обжаверсе и реальных изображениях, улучшая оценки альбедо на 28% и сокращая ошибки в оценке металличности и зернистости на 39%. Это значительно повышает качество работы в области имитации физически приборных материалов в имитации трехмерного вида.

Annotation:

We present DualMat, a novel dual-path diffusion framework for estimating Physically Based Rendering (PBR) materials from single images under complex lighting conditions. Our approach operates in two distinct latent spaces: an albedo-optimized path leveraging pretrained visual knowledge through RGB latent space, and a material-specialized path operating in a compact latent space designed for precise metallic and roughness estimation. To ensure coherent predictions between the albedo-optimized and...

ID: 2508.05060v1 cs.CV

arXiv PDF

📄 A Study of the Framework and Real-World Applications of Language Embedding for 3D Scene Understanding

2025-08-09

Авторы:

Mahmoud Chick Zaouali, Todd Charter, Yehor Karpichev, Brandon Haworth, Homayoun Najjjaran

**Резюме** Последние годы технологии 3D-сценобразования, такие как Neural Radiance Fields (NeRF) и Gaussian Splatting, получили большое распространение в области реального времени в сферах визуализации, разработки роботов и создания интерактивных контента. Однако их интеграция с бо LLM и языковыми эмбеддингами открыла новые возможности в области текстовоориентированной генерации, редактирования и семантического понимания сцен. Данная статья предлагает структурированный обзор нынешних исследований, сочетающих языковые модели с 3D-гауссовым разбросом, охватывая теоретические основы, методы интеграции и реальности применений. Основные недостатки, такие как вычислительные блоки, проблемы генерализируемости и отсутствие семантически аннотированных 3D-данных на языке, также выделены. В заключении авторы выделяют перспективы исследований в области языковоориентированного понимания 3D-сцен, используя Gaussian Splatting.

Annotation:

Gaussian Splatting has rapidly emerged as a transformative technique for real-time 3D scene representation, offering a highly efficient and expressive alternative to Neural Radiance Fields (NeRF). Its ability to render complex scenes with high fidelity has enabled progress across domains such as scene reconstruction, robotics, and interactive content creation. More recently, the integration of Large Language Models (LLMs) and language embeddings into Gaussian Splatting pipelines has opened new p...

ID: 2508.05064v1 cs.GR, cs.CL, cs.CV

arXiv PDF

📄 Decoupling Continual Semantic Segmentation

2025-08-09

Авторы:

Yifu Guo, Yuquan Lu, Wentao Zhang, Zishan Xu, Dexia Chen, Siyu Zhang, Yizhe Zhang, Ruixuan Wang

**Резюме** Качественное сохранение знаний о прошедших классах во время обучения новых классов в задачах непрерывной семантической сегментации (Continual Semantic Segmentation, CSS) остается сложной проблемой. Традиционные методы, основанные на единой архитектуре поддержки изображений, сталкиваются с проблемой катастрофического упущения (catastrophic forgetting), что приводит к неоднородности между узкой специализацией и гибкостью. В статье предлагается DecoupleCSS — двухступенчатая архитектура, разделяющая обучение классово-ориентированного детектирования и агностической сегментации. В первой стадии, используя предобученные модели на входных данных, сгенерируются классо-конкретные подсказки. Во второй стадии, модель SAM создает точные маски сегментации, обеспечивая совместимость процесса сегментации для обоих классов. Это решение улучшает баланс между сохранением знаний и обучением новых классов, показывая лучший результат в сравнении с предыдущими методами в CSS.

Annotation:

Continual Semantic Segmentation (CSS) requires learning new classes without forgetting previously acquired knowledge, addressing the fundamental challenge of catastrophic forgetting in dense prediction tasks. However, existing CSS methods typically employ single-stage encoder-decoder architectures where segmentation masks and class labels are tightly coupled, leading to interference between old and new class learning and suboptimal retention-plasticity balance. We introduce DecoupleCSS, a novel ...

ID: 2508.05065v1 cs.CV

arXiv PDF

📄 FLUX-Makeup: High-Fidelity, Identity-Consistent, and Robust Makeup Transfer via Diffusion Transformer

2025-08-09

Авторы:

Jian Zhu, Shanyuan Liu, Liuzhuozheng Li, Yue Gong, He Wang, Bo Cheng, Yuhang Ma, Liebucha Wu, Xiaoyu Wu, Dawei Leng, Yuhui Yin, Yang Xu

Многие существующие GAN-ориентированные и диффузион-ориентированные подходы к макияжу transfera сталкиваются с проблемой достижения высокого качества и сохранения точности лицевой идентичности. Эти подходы часто вводят дополнительные модули управления лицом или дополнительные потери, что приводит к ошибкам и неудовлетворительным результатам. В нашей работе мы предлагаем FLUX-Makeup, новую, готовую к применению в реальной среде, архитектуру для макияжа transfera, которая не требует дополнительных модулей управления лицом. Мы используем FLUX-Kontext как основную структуру, но добавляем RefLoRAInjector — легковесный модуль для инъекции makeup-особенностей, что позволяет эффективно извлекать и обрабатывать информацию о макияже. Кроме того, мы развиваем новую, более точную и масштабируемую тренировочную трубу данных. Наши эксперименты показали, что FLUX-Makeup превосходит текущие подходы в макияже transfera, обеспечивая высокую точность и устойчивость в различных условиях.

Annotation:

Makeup transfer aims to apply the makeup style from a reference face to a target face and has been increasingly adopted in practical applications. Existing GAN-based approaches typically rely on carefully designed loss functions to balance transfer quality and facial identity consistency, while diffusion-based methods often depend on additional face-control modules or algorithms to preserve identity. However, these auxiliary components tend to introduce extra errors, leading to suboptimal transf...

ID: 2508.05069v1 cs.CV

arXiv PDF

📄 AdaFusion: Prompt-Guided Inference with Adaptive Fusion of Pathology Foundation Models

2025-08-09

Авторы:

Yuxiang Xiao, Yang Hu, Bin Li, Tianyang Zhang, Zexi Li, Huazhu Fu, Jens Rittscher, Kaixiang Yang

**Резюме** В современной патологии становится все более востребовано использование foundation models (PFMs) для анализа госпитализированных пациентов, но эти модели часто страдают от проблем с генерализируемостью и транспарентностью, вызванными биасами в предобучении. Мы предлагаем AdaFusion — инновационный подход к инференсу, который динамически объединяет знания из нескольких PFMs. Наш метод сжимает и алгонизует модельные фичи, а при помощи легких механизмов внимательности адаптивно гибридизирует их в зависимости от контекста тканевого питания. Мы проверили AdaFusion на трех реальных датасетах, относящихся к прогнозу ответа на лечение, градации рака и инференсу генного выражения. Результаты демонстрируют, что наш подход превышает отдельные PFMs в категориях классификации и регрессии, при этом обеспечивая интерпретируемость индивидуальных особенностей каждой модели. Это подтверждает мощность AdaFusion в разрешении проблем с генерализируемостью и повышении транспарентности PFMs.

Annotation:

Pathology foundation models (PFMs) have demonstrated strong representational capabilities through self-supervised pre-training on large-scale, unannotated histopathology image datasets. However, their diverse yet opaque pretraining contexts, shaped by both data-related and structural/training factors, introduce latent biases that hinder generalisability and transparency in downstream applications. In this paper, we propose AdaFusion, a novel prompt-guided inference framework that, to our knowled...

ID: 2508.05084v1 cs.CV

arXiv PDF

📄 PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation

2025-08-09

Авторы:

Jingxuan He, Busheng Su, Finn Wong

**Резюме** Генерация длинных, когерентных видео с точным управлением движением и идентификацией лица представляет собой сложное задание для существующих моделей размышления. Эти модели часто страдают от вытеснения идентичности и ограничены короткими видео. Мы предлагаем PoseGen — новую систему для построения любой длины видео с помощью одного снимка и заданной последовательности положений. Основной инновацией PoseGen является стратегия LoRA-finetuning, которая реализует управление идентификацией при помощи внедрения токенов в текстурный пространстве и управления положением с помощью канальных значений. Для гарантии бесконечного времени сегментов видео PoseGen ввела метод интерлеaved segment generation, объединяющий видео-сегменты, чтобы убедиться в консистентности фона и гладкости. Модель была обучена на маленьком датасете (33 часа) и показала существенное превосходство в удержании идентификации, точности положений и выполнении длинных видео без артефактов.

Annotation:

Generating long, temporally coherent videos with precise control over subject identity and motion is a formidable challenge for current diffusion models, which often suffer from identity drift and are limited to short clips. We introduce PoseGen, a novel framework that generates arbitrarily long videos of a specific subject from a single reference image and a driving pose sequence. Our core innovation is an in-context LoRA finetuning strategy that injects subject appearance at the token level fo...

ID: 2508.05091v1 cs.CV

arXiv PDF

📄 Sculpting Margin Penalty: Intra-Task Adapter Merging and Classifier Calibration for Few-Shot Class-Incremental Learning

2025-08-09

Авторы:

Liang Bai, Hong Song, Jinfu Li, Yucong Lin, Jingfan Fan, Tianyu Fu, Danni Ai, Deqiang Xiao, Jian Yang

Нехватка данных для обучения в реальных приложениях часто приводит к значительному снижению качества методов классификации в задачах классового инкрементального обучения. Это особенно актуально для Few-Shot Class-Incremental Learning (FSCIL), где необходимо совмещать дискриминативность базовых классов и универсальность классификатора для новых классов. Большинство существующих подходов сталкиваются с проблемами в достижении этой балансировки. Мы предлагаем SMP (Sculpting Margin Penalty), новую методику FSCIL, которая использует параметрическую оптимизацию с механизмом Margin-aware Intra-task Adapter Merging (MIAM) для улучшения дискриминативности базовых классов и MPCC для калибровки классификатора на все видимые классы. Эксперименты на CIFAR-100, ImageNet-R и CUB-200 показали, что SMP достигает лидирующих результатов в FSCIL, сохраняя баланс между классами.

Annotation:

Real-world applications often face data privacy constraints and high acquisition costs, making the assumption of sufficient training data in incremental tasks unrealistic and leading to significant performance degradation in class-incremental learning. Forward-compatible learning, which prospectively prepares for future tasks during base task training, has emerged as a promising solution for Few-Shot Class-Incremental Learning (FSCIL). However, existing methods still struggle to balance base-cla...

ID: 2508.05094v1 cs.CV

arXiv PDF

📄 RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

2025-08-09

Авторы:

Fangyu Du, Taiqing Li, Ziwei Zhang, Qian Qiao, Tan Yu, Dingcheng Zhen, Xu Jia, Yang Yang, Shunshun Yin, Siyuan Liu

Аудио-синхронизированная портретная анимация является важной задачей, связанной с генерацией реалистичных и синхронных видеопортретов, активируемых аудиосигналом. Однако существующие решения сталкиваются с трудностями в реализации действительно реального времени (real-time), возникающими из-за высокой сложности вычислений и недостаточной точности методов моделирования. В статье предлагается RAP (Real-time Audio-driven Portrait animation) — новый подход, который объединяет высокую точность в контроле аудиосигнала и эффективность вычислений. Основные инновации RAP заключаются в использовании гибридной автопереносной механизма для тонкого аудио-управления и в статик-динамической модели, которая устраняет необходимость в прямом моделировании движения, а также позволяет избежать терминального временного расхождения. Результаты экспериментов показали, что RAP достигает нового состояния искусства в реальном времени, сохраняя высокую визуальную фидлитей и синхронность аудио-визуального сигнала. Это делает RAP применимым для реального времени, что открывает новые возможности для приложений, таких как видеоконференц-связь и виртуальная реальность.

Annotation:

Audio-driven portrait animation aims to synthesize realistic and natural talking head videos from an input audio signal and a single reference image. While existing methods achieve high-quality results by leveraging high-dimensional intermediate representations and explicitly modeling motion dynamics, their computational complexity renders them unsuitable for real-time deployment. Real-time inference imposes stringent latency and memory constraints, often necessitating the use of highly compress...

ID: 2508.05115v1 cs.GR, cs.CV, cs.SD, eess.AS

arXiv PDF

📄 AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification

2025-08-09

Авторы:

Jiuyang Dong, Jiahan Li, Junjun Jiang, Kui Jiang, Yongbing Zhang

В статье предлагается AHDMIL, новая асимметричная архитектура для классификации целостных слайдов (WSI), основанная на многоинстансном обучении (MIL). Основная проблема заключается в высоких затратах на вывод при использовании стандартных схем MIL, которые требуют обработки тысяч патчей из гигапиксельных WSI. AHDMIL уменьшает эти затраты, используя два этапа обучения: самостоятельную дистилляцию (SD) для верхнего уровня и асимметричную дистилляцию (AD) для нижнего. Динамическая сеть для многоинстансной обработки (DMIN) обрабатывает высокорезольвентные слайды, в том числе с помощью модели Chebyshev-полином-based Kolmogorov-Arnold (CKA), обеспечивающей лучшую классификационную точность. Лёгкая сеть для предварительного отбора инстансов (DB-LIPN) отсеивает нерелевантные патчи на низкой резольвенции. Эксперименты на четырёх датасетах показали, что AHDMIL обеспечивает повышение точности (до 5.3%) и ускорение вывода (1.2–2.1 раза) по сравнению с современными методами. Реализация доступна для исследований.

Annotation:

Although multi-instance learning (MIL) has succeeded in pathological image classification, it faces the challenge of high inference costs due to the need to process thousands of patches from each gigapixel whole slide image (WSI). To address this, we propose AHDMIL, an Asymmetric Hierarchical Distillation Multi-Instance Learning framework that enables fast and accurate classification by eliminating irrelevant patches through a two-step training process. AHDMIL comprises two key components: the D...

ID: 2508.05114v1 cs.CV

arXiv PDF

📄 Deep Learning-based Animal Behavior Analysis: Insights from Mouse Chronic Pain Models

2025-08-09

Авторы:

Yu-Hsi Chen, Wei-Hsin Chen, Chien-Yao Wang, Hong-Yuan Mark Liao, James C. Liao, Chien-Chang Chen

**Резюме** Анализ поведения мышей в условиях хронической боли является ключевым элементом преclinicalных исследований, но существующие методы часто ограничены ручными меткиваниями поведения. Это приводит к затруднениям в подробном охвате нежелательных и непрерывных изменений поведения, связанных с болью. Данная работа предлагает фреймворк, основанный на deep learning, для автоматического извлечения фич поведения, связанных с хронической болью, без использования ручных меток. Метод использует universal action space projector для эффективного извлечения детальных движух мышей и сохранения богатых данных из оригинальных видео. Разработанная модель продемонстрировала высокую точность в классификации поведения мышей, превосходя общий вид (48.41% vs. 21.33%) и лучший метод B-SOiD (48.41% vs. 30.52%) при оценке 15-классового классификатора. Особенно высокая точность (73.1%) была достигнута при классификации поведения на три класса: хроническая боль нервного характера, инфильтраторная боль и отсутствие боли. Более того, модель определила различия в эффективности лекарственных препаратов в нулевом тестировании на Gabapentin, с высокой точностью и согласием с предыдущими исследованиями. Этот подход может стать значительным шагом в науке о боли и развитии новых лекарственных средств.

Annotation:

Assessing chronic pain behavior in mice is critical for preclinical studies. However, existing methods mostly rely on manual labeling of behavioral features, and humans lack a clear understanding of which behaviors best represent chronic pain. For this reason, existing methods struggle to accurately capture the insidious and persistent behavioral changes in chronic pain. This study proposes a framework to automatically discover features related to chronic pain without relying on human-defined ac...

ID: 2508.05138v1 cs.CV

arXiv PDF

1
2
3353
3354
3355
3356
3357
3412
3413

Показано 33541 - 33550 из 34123 записей