📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jingyi Liao, Yongyi Su, Rong-Cheng Tu, Zhao Jin, Wenhao Sun, Yiting Li, Dacheng Tao, Xun Xu, Xulei Yang

Адаптация общевойзначимых мультимодальных ЛЛМ к специализированным задачам, таким как отклонение от нормы (Anomaly Detection, AD), сталкивается с проблемами при недостаточной адаптации к конкретным доменам. Это ограничивает их эффективность в выполнении задач, которые требуют тонкой визуальной дискриминации, например, в отраслях производства. Мы предлагаем AD-FM — рамформа, решающую эти проблемы. Она вводит мультистаднаий подход с делеберирующим разумованием, который пошагово направляет модель от общей области внимания к точеному анализу, улучшая генерацию ответов и обеспечивая структурированную навизакацию в процессе. Также мы разработали усовершенствованный механизм награждения, который превращает бинарные ответы модели в непрерывные сигналы, отражающие точность и уровень субъективности. Эксперименты на промышленных данных показали, что наш подход значительно повышает точность и эффективность адаптации генерально-целевых МЛЛМ к конкретным задачам AD. Таким образом, мы устанавливаем новый стандарт для применения МЛЛМ в технических задачах доробления.
Annotation:
While Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities across diverse domains, their application to specialized anomaly detection (AD) remains constrained by domain adaptation challenges. Existing Group Relative Policy Optimization (GRPO) based approaches suffer from two critical limitations: inadequate training data utilization when models produce uniform responses, and insufficient supervision over reasoning processes that encourage immediate binary decisions withou...
ID: 2508.04175v1 cs.CV
Авторы:

Jin Kuang, Dong Liu, Yukuang Zhang, Shengsheng Wang

Многие подходы к улучшению изображений в условиях низкого освещения фокусируются на развитии архитектуры, но часто игнорируют встроенную неопределенность в представлениях признаков, особенно при использовании экстремальных темных условий. Наличие шума и падения производных сильно снижает надежность модели и возможность выполнения логических выводов. Мы предлагаем U2CLLIE — новую модель, объединяющую нейросетевое улучшение изображений с моделированием пространственно-цветовых зависимостей на основе причинности. Модель включает два ключевых модуля: (1) нейросеть Uncertainty-Aware Dual-domain Denoise (UaD), которая устраняет шум в двух доменах (спектральном и частотном) и оптимизирует сигналы с применением G2AF-функции; (2) цепная система с причинным рассуждением, включающую LEN, NeCo и AsC, которые восстанавливают структуру и цветовую консистентность. Эксперименты показывают, что U2CLLIE превосходит современные подходы, показывая высокую точность и генерализуемость на нескольких датасетах.
Annotation:
Most existing low-light image enhancement approaches primarily focus on architectural innovations, while often overlooking the intrinsic uncertainty within feature representations particularly under extremely dark conditions where degraded gradient and noise dominance severely impair model reliability and causal reasoning. To address these issues, we propose U2CLLIE, a novel framework that integrates uncertainty-aware enhancement and spatial-color causal correlation modeling. From the perspectiv...
ID: 2508.04176v1 cs.CV
Авторы:

Sungrae Hong

В статье **"Deeper Inside Deep ViT"** рассматривается исследование больших виджет-моделей (ViT), таких как ViT-22B. Несмотря на обширные анализы и полученные с помощью таких моделей знания, их практическое применение остается неясным. Авторы исследуют поведение ViT-22B в локальной среде и выявляют проблему нестабильности тренировки. Для решения этой проблемы предлагаются модификации модели, которые повышают ее устойчивость. Также авторы рассматривают задачу изображения по генерации изображений, которая ранее не исследовалась в контексте ViT-22B. Они предлагают архитектуру для генерации изображений, основанную на ViT, и проводят сравнительный анализ того, какая модель — ViT или ViT-22B — подходит лучше для этой задачи. В результате ViT-22B показал более высокую эффективность по сравнению с оригинальным ViT в тестовых задачах, при условии одинакового количества параметров.
Annotation:
There have been attempts to create large-scale structures in vision models similar to LLM, such as ViT-22B. While this research has provided numerous analyses and insights, our understanding of its practical utility remains incomplete. Therefore, we examine how this model structure reacts and train in a local environment. We also highlight the instability in training and make some model modifications to stabilize it. The ViT-22B model, trained from scratch, overall outperformed ViT in terms of p...
ID: 2508.04181v1 cs.CV
Авторы:

Fengyi Wu, Yimian Dai, Tianfang Zhang, Yixuan Ding, Jian Yang, Ming-Ming Cheng, Zhenming Peng

Одной из ключевых задач в обработке изображений является сегментация спарских объектов. Традиционные методы, такие как Robust Principal Component Analysis (RPCA), сталкиваются с ограничениями в производительности и гибкости, включая высокую сложность вычислений, чувствительность к гиперпараметрам и недостаток адаптивности в динамичных условиях. Для решения этих проблем предложена RPCANet++, новая фреймворк для сегментации спарских объектов, который объединяет интерпретируемость RPCA с мощью глубоких нейронных сетей. Реализация RPCANet++ включает модули Background Approximation Module (BAM), Object Extraction Module (OEM) и Image Restoration Module (IRM), способствующими эффективной фильтрации фоновых компонент и выделению объектов. Дополнительно, введено Memory-Augmented Module (MAM) для сохранения объектных признаков и Deep Contrast Prior Module (DCPM) для ускорения выделения объектов. Эксперименты показали, что RPCANet++ превышает современные показатели в работе с различными датасетов. Этот подход также улучшает интерпретируемость результатов с помощью измерений низкоранговых и спарских признаков.
Annotation:
Robust principal component analysis (RPCA) decomposes an observation matrix into low-rank background and sparse object components. This capability has enabled its application in tasks ranging from image restoration to segmentation. However, traditional RPCA models suffer from computational burdens caused by matrix operations, reliance on finely tuned hyperparameters, and rigid priors that limit adaptability in dynamic scenarios. To solve these limitations, we propose RPCANet++, a sparse object s...
ID: 2508.04190v1 cs.CV
Авторы:

Dunyuan Xu, Xikai Yang, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng

**Резюме** Безопасность многомодальных биомедицинских генерирующих моделей (MLLMs) становится все важнее, так как их обучающие данные часто включают защищенную информацию и неверные знания. Эти проблемы могут привести к утечке персональных данных и неточным ответам модели в реальном применении. Одним из возможных решений является машинное "неучение" (machine unlearning), которое позволяет удалять ненужные знания без полной переобучения модели. Однако существуют недостатки в системах оценки эффективности методов неучения, особенно в контексте биомедицинских MLLMs. Чтобы заполнить эту лакуну, авторы предлагают первую бенчмарк-среду Multimodal Large Language Model Unlearning for BioMedicine (MLLMU-Med). Она основывается на новой методологии генерации данных, которая внедряет защищенные данные и неверные знания в обучающий набор. Метрика Unlearning Efficiency Score определяет эффективность методов неучения по отдельным сценариям — защите частной информации и удалении неверных знаний. Авторы показали, что существующие методы неучения имеют ограниченную эффективность в MLLMU-Med, требуясь дополнительных исследований в данной области.
Annotation:
The security of biomedical Multimodal Large Language Models (MLLMs) has attracted increasing attention. However, training samples easily contain private information and incorrect knowledge that are difficult to detect, potentially leading to privacy leakage or erroneous outputs after deployment. An intuitive idea is to reprocess the training set to remove unwanted content and retrain the model from scratch. Yet, this is impractical due to significant computational costs, especially for large lan...
ID: 2508.04192v1 cs.CV
Авторы:

Wengang Guo, Wei Ye, Chunchun Chen, Xin Sun, Christian Böhm, Claudia Plant, Susanto Rahardja

**Резюме** Спектральное кластеризационное моделирование широко применяется в различных задачах, но страдает от двух ключевых недостатков: разделение процессов оптимизации и ограниченная мощность представления. В данной работе предлагается модель Deep Spectral Clustering (BootSC), которая объединяет все этапы спектрального кластеризационного процесса — построение аффинтивной матрицы, спектральное отображение и $k$-means кластеризацию — в едином нейронной сети с полностью энд-то-энд оптимизацией. Метод BootSC использует оптимальное транспортное приближение для создания подтолжки в процессе аппроксимации матрицы аффинтивности и классовой матрицы кластеров, улучшая точность кластеризации. Дополнительно, введена техника семантически согласованной ортогональной репараметризации, которая улучшает дискриминационную способность спектральных признаков. Экспериментальные результаты показали, что BootSC демонстрирует состояние технологии в кластеризации, например, улучшив NMI на 16% по сравнению с конкурирующим методом на сложной датасете ImageNet-Dogs. Наш код доступен по ссылке: https://github.com/spdj2271/BootSC.
Annotation:
Spectral clustering is a leading clustering method. Two of its major shortcomings are the disjoint optimization process and the limited representation capacity. To address these issues, we propose a deep spectral clustering model (named BootSC), which jointly learns all stages of spectral clustering -- affinity matrix construction, spectral embedding, and $k$-means clustering -- using a single network in an end-to-end manner. BootSC leverages effective and efficient optimal-transport-derived sup...
ID: 2508.04200v1 cs.CV, cs.LG
Авторы:

Jianxun Yu, Ruiquan Ge, Zhipeng Wang, Cheng Yang, Chenyu Lin, Xianjun Fu, Jikui Liu, Ahmed Elazab, Changmiao Wang

**Резюме** Диагностика медицинских заболеваний часто сталкивается с проблемой недостаточной точности в определении небольших легковычлистных образов, что приводит к ошибкам в диагностике. Данная работа предлагает Multimodal Multiscale Cross-Attention Fusion Network (MMCAF-Net) — сеть, основанную на мультимодальном подходе и мультимасштабной функции кросс-аттенции, для улучшения диагностической точности. Модель использует многослойную структуру признаков и 3D мультимасштабный аттенционный модуль для эффективного извлечения легковычлистных признаков из медицинских изображений. Для решения проблемы межмодального выравнивания, MMCAF-Net включает в себя кросс-аттенционный модуль, решающий проблему неоднородности данных и обеспечивающий более эффективное объединение мультимодальных признаков. Модель была проверена на Lung-PET-CT-Dx датасете, показав значительное улучшение производительности по сравнению с текущими методами. Этот подход может стать важной добавкой к арсеналу инструментов для улучшения диагностической точности в медицинской практике.
Annotation:
The diagnosis of medical diseases faces challenges such as the misdiagnosis of small lesions. Deep learning, particularly multimodal approaches, has shown great potential in the field of medical disease diagnosis. However, the differences in dimensionality between medical imaging and electronic health record data present challenges for effective alignment and fusion. To address these issues, we propose the Multimodal Multiscale Cross-Attention Fusion Network (MMCAF-Net). This model employs a fea...
ID: 2508.04205v1 cs.CV
Авторы:

Josip Šarić, Ivan Martinović, Matej Kristan, Siniša Šegvić

Научная статья What Holds Back Open-Vocabulary Segmentation? раскрывает проблему того, что нынешние системы разделения областей не умеют распознавать объекты, не описанные в их обучающем наборе. Общая идея открытого лексикона заключается в том, чтобы использовать предобучение на многомиллионных изображений-титулов, чтобы расширить функционал таких моделей. Однако авторы отмечают, что данная подход не приносит ожидаемого прогресса в работе моделей уже более двух лет. Исследователи предложили новые аналитические методы, позволяющие выявить и анализировать ограничения, связанные с ошибками моделей. Исследовательские эксперименты демонстрируют, что эти ограничения ключевые для понимания проблем, с которыми сталкиваются модели open-vocabulary segmentation. В итоге, предложенные рекомендации могут способствовать повышению эффективности этих систем в будущих исследованиях.
Annotation:
Standard segmentation setups are unable to deliver models that can recognize concepts outside the training taxonomy. Open-vocabulary approaches promise to close this gap through language-image pretraining on billions of image-caption pairs. Unfortunately, we observe that the promise is not delivered due to several bottlenecks that have caused the performance to plateau for almost two years. This paper proposes novel oracle components that identify and decouple these bottlenecks by taking advanta...
ID: 2508.04211v1 cs.CV
Авторы:

Jiahui Li, Shengeng Tang, Jingxuan He, Gang Huang, Zhangye Wang, Yantao Pan, Lechao Cheng

Реконструкция динамических 3D-сцен из монокулярных видео остается сложной задачей из-за необходимости одновременного выявления движения, структуры и визуального вида на основе ограниченных наблюдений. Текущие методы, основанные на гауссовских сплаттингах, часто смешивают статические и динамические элементы в единой модели, что приводит к замешиванию мотива, геометрическим искажениям и визуальным фликеру. Авторы предлагают **SplitGaussian** — метод, разделяющий сцену на статические и динамические компоненты. Он аккуратно отделяет моделирование движения от фоновой геометрии, позволяя только динамической части меняться во времени. Это ведёт к уменьшению мотивных артефактов в статических регионах, повышению временной консистенции и фидбека во время обучения. Эксперименты показали, что SplitGaussian превосходит современные методы по качеству рендеринга, стабильности геометрии и разделению движения.
Annotation:
Reconstructing dynamic 3D scenes from monocular video remains fundamentally challenging due to the need to jointly infer motion, structure, and appearance from limited observations. Existing dynamic scene reconstruction methods based on Gaussian Splatting often entangle static and dynamic elements in a shared representation, leading to motion leakage, geometric distortions, and temporal flickering. We identify that the root cause lies in the coupled modeling of geometry and appearance across tim...
ID: 2508.04224v1 cs.CV
Авторы:

Yuyang Liu, Qiuhe Hong, Linlan Huang, Alexandra Gomez-Villa, Dipam Goswami, Xialei Liu, Joost van de Weijer, Yonghong Tian

Vision-language models (VLMs), основываясь на больших предварительно обученных моделях, достигли впечатляющих результатов в различных мультимодальных задачах. Однако их применение к непрерывному обучению с нестационарными данными остается сложной проблемой. Несмотря на успех в простых классических задачах непрерывного обучения, VLMs сталкиваются с уникальными проблемами: значительным забвением (forgetting) во время обучения, ухудшением параметров взаимодействия составных модалей, а также снижением возможностей нулевого-шотного обучения. Данное исследование представляет повсеместную и систематичную обзорную работу по непрерывному обучению VLMs (VLM-CL). Также предлагается категоризировать подходы к решению: (1) повторное использование мультимодальных данных, (2) регуляризационные методы, поддерживающие модальные связи, и (3) эффективные методы адаптации параметров. Обзор также проводит анализ текущих протоколов оценки, датасетов и метрик, и это подчеркивает необходимость создания новых бенчмарков, которые могут лучше отразить ограничения VLMs в направлении квалитивного непрерывного обучения.
Annotation:
Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to ...
ID: 2508.04227v1 cs.CV, cs.LG
Показано 11351 - 11360 из 11614 записей