📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Shangwen Zhu, Qianyu Peng, Yuting Hu, Zhantao Yang, Han Zhang, Zhao Pu, Ruili Feng, Fan Cheng

Резюме: На момент написания, flow-based generative модели достигли выдающихся результатов в области изображений и видеосинтеза, с использованием адаптивного гайдинга (англ. classifier-free guidance, CFG) в качестве основного инструмента. Однако, недостаточно изучена взаимосвязь гайдинга с разными этапами однородного процесса в оптимизированных для быстроты целях пайплайнах. Мы обнаружили основную проблему — сильная восприимчивость ранних шагов к гайдингу, из-за того, что в этом режиме выражается сильное неоднородное распределение приоритетов между условной и неусловной сигнатурой. Это приводит к сильной ошибке в ранних стадиях. Мы предлагаем Ratio Aware Adaptive Guidance (RAAG), который автоматически адаптирует гайдинг в зависимости от развития отношения приоритетов в ходе синтеза. Метод надежен, легкий в реализации и эффективен, не требуя дополнительных вычислений. Наши эксперименты показали, что новая стратегия дает ускорение до 3 раз при разных моделях и датасетах, при этом сохраняя или улучшая качество генерации, устойчивость и семантическую адекватность. Этот подход является ключевым для достижения быстроты и качества в flow-based generative моделях.
Annotation:
Flow-based generative models have recently achieved remarkable progress in image and video synthesis, with classifier-free guidance (CFG) becoming the standard tool for high-fidelity, controllable generation. However, despite their practical success, little is known about how guidance interacts with different stages of the sampling process-especially in the fast, low-step regimes typical of modern flow-based pipelines. In this work, we uncover and analyze a fundamental instability: the earliest ...
ID: 2508.03442v1 cs.CV
Авторы:

Qiyu Chen, Zhen Qu, Wei Luo, Haiming Yao, Yunkang Cao, Yuxin Jiang, Yinan Duan, Huiyuan Luo, Chengkan Lv, Zhengtao Zhang

В статье CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection рассматривается проблема zero-shot anomaly detection (ZSAD), где недостаточностью является способность статических токенов адаптироваться к разнообразным нормальным и аномальным состояниям. Для решения этой проблемы предлагается фреймворк Conditional Prompt Synthesis (CoPS), который синтезирует динамические токены на основе визуальных признаков. Эти токены включают прототипы нормальных и аномальных состояний, извлеченные из характеристик патчей. Также включена модель вариационной автоэнкодерной семантики для обработки разреженных меток классов. Интегрированная способность специального механизма специального взаимодействия с объектом демонстрирует выигрыш в 2.5% AUROC во всех тестовых наборах данных, отражая его универсальность в целях инженерных и медицинских приложений. Этот подход превзошел текущие методы и подкрепил теорию состояний высокопроизводительным инструментом для ZSAD.
Annotation:
Recently, large pre-trained vision-language models have shown remarkable performance in zero-shot anomaly detection (ZSAD). With fine-tuning on a single auxiliary dataset, the model enables cross-category anomaly detection on diverse datasets covering industrial defects and medical lesions. Compared to manually designed prompts, prompt learning eliminates the need for expert knowledge and trial-and-error. However, it still faces the following challenges: (i) static learnable tokens struggle to c...
ID: 2508.03447v1 cs.CV
Авторы:

Xuan Dong, Xiangyuan Sun, Xia Wang, Jian Song, Ya Li, Weixin Li

Моировые рисунки — ненарокомные цветовые артефакты, возникающие при взаимодействии высокочастотных компонент сцены с дискретным семплированием камеры. Текущие методы удаления моиров стремятся решать две ключевые проблемы: отличие моирных рисунков от реальных текстур и сохранение цветовой и хронологической консистенции при удалении моиров. Мы предлагаем новую двухкамерную систему, которая синхронно захватывает видео одной и той же сцены: одно в фокусе (сохраняющее высококачественные текстуры, но подверженное моировочным рисункам) и одно с размытием (с минимальными моировыми рисунками, но с размытыми текстурами). Мы используем размытое видео для различения моиров от реальных текстур, чтобы направлять процесс удаления моиров в фокусе. Наша рамочная модель включает углубленное распознавание текстур, кросс-скалярное обучение и бинарное биективное фильтрование для сохранения тональной и хронологической консистенции. Эксперименты показали, что наш метод значительно превосходит современные методы в области удаления моиров как для изображений, так и для видео.
Annotation:
Moire patterns, unwanted color artifacts in images and videos, arise from the interference between spatially high-frequency scene contents and the spatial discrete sampling of digital cameras. Existing demoireing methods primarily rely on single-camera image/video processing, which faces two critical challenges: 1) distinguishing moire patterns from visually similar real textures, and 2) preserving tonal consistency and temporal coherence while removing moire artifacts. To address these issues, ...
ID: 2508.03449v1 cs.CV
Авторы:

Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu

Реализация моделей, основанных на распространенных методах генерирования речи и говорящих голов, возникает проблема с длительным временем вывода, что ограничивает их практическое применение. Мы предлагаем READ (Real-time and Efficient Asynchronous Diffusion) — первый рамфрейм для генерации говорящих голов, основанный на модели распределения, который достигает реального времени. Основная идея заключается в том, чтобы уменьшить количество токенов с помощью временной VAO, а затем использовать предварительно обученный Speech Autoencoder (SpeechAE) для создания кодов видео-информации, соответствующих видео-локальным кодам. Эти коды моделируются с помощью новой сети Audio-to-Video Diffusion Transformer (A2V-DiT) для эффективной генерации. Чтобы обеспечить консистентность и ускорить вывод в расширенной постановке, мы предлагаем асинхронный шейпер шума (ANS). Наши эксперименты показывают, что READ многократно превосходит состояние технологий, обеспечивая высокую скорость, не отказываясь от качества и метрической стабильности на протяжении долгого времени.
Annotation:
The introduction of diffusion models has brought significant advances to the field of audio-driven talking head generation. However, the extremely slow inference speed severely limits the practical implementation of diffusion-based talking head generation models. In this study, we propose READ, the first real-time diffusion-transformer-based talking head generation framework. Our approach first learns a spatiotemporal highly compressed video latent space via a temporal VAE, significantly reducin...
ID: 2508.03457v2 cs.GR, cs.CV, cs.SD, eess.AS
Авторы:

Zilin Chen, Shengnan Lu

В статье предлагается метод **AVPDN** (Adaptive Video Polyp Detection Network) для точного обнаружения полипов в киноколоноскопических видео, что является ключевым этапом диагностики рака кишечника. Основная проблема заключается в том, что колоноскопические видео часто перемещаются быстро, что приводит к шуму, разрушению структуры сцены и повышению риска ложноположительных результатов. Чтобы справиться с этими вызовами, **AVPDN** включает два основных модуля. Модуль **AFIA** (Adaptive Feature Interaction and Augmentation) улучшает особенности при помощи трех ветвей: глобального контекста, очищения шумовых особенностей и обмена информацией между ветвями. Модуль **SACI** (Scale-Aware Context Integration) улучшает интеграцию многомерных признаков с помощью дилатационных сверток с различными радиусами информации. Испытания на различных публичных базах данных показали, что **AVPDN** эффективен в обнаружении полипов и продемонстрировал высокую устойчивость к шуму и многомерности. Это делает его ключевым инструментом для повышения точности диагностики в колоноскопии.
Annotation:
Accurate detection of polyps is of critical importance for the early and intermediate stages of colorectal cancer diagnosis. Compared to static images, dynamic colonoscopy videos provide more comprehensive visual information, which can facilitate the development of effective treatment plans. However, unlike fixed-camera recordings, colonoscopy videos often exhibit rapid camera movement, introducing substantial background noise that disrupts the structural integrity of the scene and increases the...
ID: 2508.03458v1 cs.CV
Авторы:

Gideon N. L. Rouwendaal, Daniël Boeke, Inge L. Cox, Henk G. van der Poel, Margriet C. van Dijk-de Haan, Regina G. H. Beets-Tan, Thierry N. Boellaard, Wilson Silva

Оценка предварительной реферированной версии статьи: **Проблема:** Установлено, что клинические признаки являются наиболее важными для прогнозирования эректильной дисфункции (ED) после радикального простатэктомии. Однако неясно, добавляет ли предварительная магнитно-резонансная импеданометрия (MRI) дополнительный принципиальный принцип прогнозирования ED и может ли она использоваться вместе с клиническими данными в многомодальных моделях. **Решение:** Были проанализированы модели, основывающиеся на клинических данных, анатомических фичи, глубоких нейросетевых моделях, а также мультимодальные модели, которые объединяли клинические и изображения MRI. **Основные выводы:** Модели, основывающиеся только на клинических данных, показали наилучшую прогностическую силу (AUC 0.663). Нейронные сети, работающие напрямую с изображениями MRI, дали незначительное улучшение (AUC 0.569), но не превосходили клинических моделей. Мультимодальные подходы с минимальным приростем (AUC 0.586) также не превосходили клинический базовый вариант. Анализ SHAP подтвердил, что клинические признаки играют ключевую роль в прогнозировании ED. Несмотря на недостатки, изображения MRI подразумевают возможность в будущем включить анатомические фичи в комбинированные модели для более точного прогнозирования.
Annotation:
Accurate preoperative prediction of erectile dysfunction (ED) is important for counseling patients undergoing radical prostatectomy. While clinical features are established predictors, the added value of preoperative MRI remains underexplored. We investigate whether MRI provides additional predictive value for ED at 12 months post-surgery, evaluating four modeling strategies: (1) a clinical-only baseline, representing current state-of-the-art; (2) classical models using handcrafted anatomical fe...
ID: 2508.03461v1 eess.IV, cs.CV
Авторы:

Jiabing Yang, Chenhang Cui, Yiyang Zhou, Yixiang Chen, Peng Xia, Ying Wei, Tao Yu, Yan Huang, Liang Wang

Между современными Large Vision-Language Models (LVLMs) существует проблема высвобождения "валидных" результатов, которые не опираются на исходные изображения — так называемые "hallucinations". Это происходит из-за убывающего внимания к визуальной информации при увеличении последовательности входных данных. Мы идентифицировали, что этот явленьй лежит в основе повышения "hallucinations" и развития проблемы. Для решения этой проблемы предлагается IKOD (Image attention-guided Key-value merging cOllaborative Decoding) — непосредственное решение, основанное на комбинированной стратегии декодирования. Метод IKOD сводит внимание к визуальным данным за счет интеграции ключевых элементов из декодирования для коротких последовательностей с высоким вниманием к изображениям и старых последовательностей. В результате испытаний на различных бенчмарках, IKOD демонстрирует эффективность в уменьшении "hallucinations" и улучшении общих возможностей LVLMs без дополнительной тренировки машин.
Annotation:
Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated significant progress across multiple domains. However, these models still face the inherent challenge of integrating vision and language for collaborative inference, which often leads to "hallucinations", outputs that are not grounded in the corresponding images. Many efforts have been made to address these issues, but each comes with its own limitations, such as high computational cost or expensive dataset annotation....
ID: 2508.03469v1 cs.CV
Авторы:

Lianwei Yang, Haokun Lin, Tianchen Zhao, Yichen Wu, Hongyu Zhu, Ruiqi Xie, Zhenan Sun, Yu Wang, Qingyi Gu

Логические трансформаторы (DiT) показали себя как мощный инструмент для текстово-изобразительных задач, но их высокая стоимость вычислений и большой размер моделей ограничивают их применение в ресурсоразрушительных ситуациях. Для уменьшения памяти и ускорения инференса применяется пост-тренировочная квантования (PTQ), однако существующие методы либо сильно ухудшают качество после квантования, особенно при низких бит-ширинах. Основные проблемы: (1) тяжеловесное распределение весов DiT, которое не учитывают существующие методы; (2) выходные данные сети, разбитые на два типа выбросов, разрушают корректность квантования. Мы предлагаем LRQ-DiT — эффективный PTQ-фреймворк, который решает эти проблемы. Мы предлагаем Twin-Log Quantization (TLQ), которая хорошо подстраивается под распределение весов, и Adaptive Rotation Scheme (ARS), которая адаптивно компенсирует выбросы в активациях. Мы проверили LRQ-DiT на PixArt и FLUX, а также COCO, MJHQ и sDCI на разных бит-ширинах. LRQ-DiT позволяет достичь высокого качества генерации изображений при эффективном квантовании.
Annotation:
Diffusion Transformers (DiTs) have achieved impressive performance in text-to-image generation. However, their high computational cost and large parameter sizes pose significant challenges for usage in resource-constrained scenarios. Post-training quantization (PTQ) is a promising solution to reduce memory usage and accelerate inference, but existing PTQ methods suffer from severe performance degradation under extreme low-bit settings. We identify two key obstacles to low-bit post-training quant...
ID: 2508.03485v1 cs.CV
Авторы:

Yu Zhou, Pelle Thielmann, Ayush Chamoli, Bruno Mirbach, Didier Stricker, Jason Rambach

Распространенной задачей в мониторинге качества материалов в процессе переработки является сегментация небольших частиц, которая в настоящее время выполняется руками, что требует много времени и ненадежно. В статье предлагается ParticleSAM — адаптация сегментационного фундаментального моделирования для обработки изображений с множеством небольших частиц, которые характерны для мониторинга материалов в переработке. Для этого разработана новая высококачественная датасета, созданная с помощью автоматического генерирования и автоматической разметки. Этот датасет становится бенчмарком для автоматизации контроля качества в отрасли. Исследования показали, что ParticleSAM превосходит оригинальный SAM-метод как в качестве сегментации, так и в вычислительной эффективности. Вывод: новый подход может стать значительным улучшением для автоматизации сегментации небольших частиц в различных отраслях, включая конструкционные материалы.
Annotation:
The construction industry represents a major sector in terms of resource consumption. Recycled construction material has high reuse potential, but quality monitoring of the aggregates is typically still performed with manual methods. Vision-based machine learning methods could offer a faster and more efficient solution to this problem, but existing segmentation methods are by design not directly applicable to images with hundreds of small particles. In this paper, we propose ParticleSAM, an adap...
ID: 2508.03490v1 cs.CV
Авторы:

Mohammadsadegh Khoshghiaferezaee, Moritz Krauth, Shima Shabani, Michael Breuß

**Резюме** Спарсинговые словарные методы (SDL) широко используются в обработке изображений, в том числе для реконструкции изображений с помощью итеративных методов уменьшения. Одной из основных задач SDL является обеспечение высокого качества восстановления изображений при минимальных требованиям к спарсингу. В данной работе анализируется влияние степени спарсинга на качество восстановления изображений при использовании различных методов оптимизации. Оказывается, что качество восстановления может оставаться высоким даже при высокой спарсинговой степени, когда изображение восстановленное с помощью SDL отличается существенно от элементов словаря. Этот результат показывает, что спарсинг не всегда должен быть сильно ограничен, чтобы обеспечить высокое качество восстановления. Этот открытий может быть полезен для дальнейшего совершенствования методов SDL в области обработки изображений.
Annotation:
Sparse dictionary learning (SDL) is a fundamental technique that is useful for many image processing tasks. As an example we consider here image recovery, where SDL can be cast as a nonsmooth optimization problem. For this kind of problems, iterative shrinkage methods represent a powerful class of algorithms that are subject of ongoing research. Sparsity is an important property of the learned solutions, as exactly the sparsity enables efficient further processing or storage. The sparsity implie...
ID: 2508.03492v1 cs.CV, 65K05, 68T30, I.4.5; I.2.6
Показано 11291 - 11300 из 11631 записей