📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Efficient Inter-Task Attention for Multitask Transformer Models

2025-08-09

Авторы:

Christian Bohn, Thomas Kurbiel, Klaus Friedrichs, Hasan Tercan, Tobias Meisen

В статье предлагается новый подход для эффективного обработки задач в multitask transformer моделях. Основная проблема заключается в высоких вычислительных затратах на мультихедное внимание (Multi-Head-Attention) при обработке множества задач, которые растут экспоненциально с повышением количества задач. Это приводит к ограничениям в практической реализации на ограниченном оборудовании. Разработанное решение — Deformable Inter-Task Self-Attention — позволяет эффективно агрегировать информацию между задачами, существенно сокращая число операций и латентность вывода. На данных NYUD-v2 и PASCAL-Context была показана снижение FLOPs и латентности в несколько раз, при этом улучшив качество предсказаний на отдельных задачах до 7.4%.

Annotation:

In both Computer Vision and the wider Deep Learning field, the Transformer architecture is well-established as state-of-the-art for many applications. For Multitask Learning, however, where there may be many more queries necessary compared to single-task models, its Multi-Head-Attention often approaches the limits of what is computationally feasible considering practical hardware limitations. This is due to the fact that the size of the attention matrix scales quadratically with the number of ta...

ID: 2508.04422v1 cs.CV

arXiv PDF

📄 Composed Object Retrieval: Object-level Retrieval via Composed Expressions

2025-08-09

Авторы:

Tong Wang, Guanyu Yang, Nian Liu, Zongyan Han, Jinxing Zhou, Salman Khan, Fahad Shahbaz Khan

В статье предлагается новая задача — Composed Object Retrieval (COR), которая расширяет обычный объектно-уровневый поиск, позволяя выполнять выборку на основе композитных выражений, объединяющих справочные объекты и текстовые запросы. Эта задача требует систем отразить широкий диапазон семантических преобразований и выделить целевые объекты из сцены, избегая попадания в область семантически похожих, но неподходящих объектов. Для этого разработан COR127K — первый крупномасштабный COR-бенчмарк с 127 166 тройками поиска в 408 категориях, демонстрирующий различные семантические преобразования. Также представлен CORE, универсальная модель, которая комбинирует кодирование регионов, адаптивное взаимодействие визуального и текстового слоя и контрастное обучение по регионам. На COR127K CORE показала значительные улучшения по сравнению со существующими моделями в основных и новых категориях, устанавливая простой и эффективный базовый подход для дальнейших исследований в области тонкой мультимодальной поиска.

Annotation:

Retrieving fine-grained visual content based on user intent remains a challenge in multi-modal systems. Although current Composed Image Retrieval (CIR) methods combine reference images with retrieval texts, they are constrained to image-level matching and cannot localize specific objects. To this end, we propose Composed Object Retrieval (COR), a brand-new task that goes beyond image-level retrieval to achieve object-level precision, allowing the retrieval and segmentation of target objects base...

ID: 2508.04424v1 cs.CV

arXiv PDF

📄 Unmasking Interstitial Lung Diseases: Leveraging Masked Autoencoders for Diagnosis

2025-08-09

Авторы:

Ethan Dack, Lorenzo Brigato, Vasilis Dedousis, Janine Gote-Schniering, Cheryl, Hanno Hoppe, Aristomenis Exadaktylos, Manuela Funke-Chambour, Thomas Geiser, Andreas Christe, Lukas Ebner, Stavroula Mougiakakou

**Резюме** Интерстициальные болезни легких (ILD) широко распространены, но диагностика их часто становится сложной из-за нехватки больших лабораторно отмеченных наборов данных. Масообучение (Masked Autoencoders, MAE) — мощный подход к созданию информативных представлений, особенно при ограниченных теггированных данных. Мы предлагаем использовать MAE для обучения модели на 5000+ полотен CT-сканов, объединив внутренние с уже существующими открытыми базами, связанными с COVID-19 и бактериальной пневмонией. Эта модель позже была применена для классификации ILD. Наши результаты показывают, что MAE могут эффективно извлекать клинически значимые признаки, даже в условиях нехватки меток. Надеемся, что наша работа поможет в улучшении диагностики и исследовании ILD. Исходный код и модели доступны на GitHub: https://github.com/eedack01/lung_masked_autoencoder.

Annotation:

Masked autoencoders (MAEs) have emerged as a powerful approach for pre-training on unlabelled data, capable of learning robust and informative feature representations. This is particularly advantageous in diffused lung disease research, where annotated imaging datasets are scarce. To leverage this, we train an MAE on a curated collection of over 5,000 chest computed tomography (CT) scans, combining in-house data with publicly available scans from related conditions that exhibit similar radiologi...

ID: 2508.04429v1 eess.IV, cs.CV

arXiv PDF

📄 Benchmarking Foundation Models for Mitotic Figure Classification

2025-08-09

Авторы:

Jonas Ammeling, Jonathan Ganz, Emely Rosbach, Ludwig Lausser, Christof A. Bertram, Katharina Breininger, Marc Aubreville

**Резюме** В публикации проводится оценка возможностей фундаментальных моделей в классификации митотических фигур, критичных для оценки прогноза рака. Эти модели, обученные с помощью самостоятельного обучения, обладают богатыми семантическими признаками и показывают высокую гибкость при решении новых задач с минимальными изменениями. Исследование анализирует свойства данных и эффективность различных подходов к адаптации моделей, включая линейную пробуждение и метод LoRA для адаптации внимательных механизмов. Основной вывод: адаптация моделей с помощью LoRA позволяет достичь высокой точности с минимальным объемом данных обучения (10% от полного объема) и почти либо полностью (95%) уменьшить разрыв производительности при использовании незнакомых доменов данных. Тем не менее, полная тюнинг подтвердил высокую конкурентоспособность традиционных архитектур, таких как CNN и Vision Transformers.

Annotation:

The performance of deep learning models is known to scale with data quantity and diversity. In pathology, as in many other medical imaging domains, the availability of labeled images for a specific task is often limited. Self-supervised learning techniques have enabled the use of vast amounts of unlabeled data to train large-scale neural networks, i.e., foundation models, that can address the limited data problem by providing semantically rich feature vectors that can generalize well to new task...

ID: 2508.04441v1 cs.CV

arXiv PDF

📄 TotalRegistrator: Towards a Lightweight Foundation Model for CT Image Registration

2025-08-09

Авторы:

Xuan Loc Pham, Gwendolyn Vuurberg, Marjan Doppen, Joey Roosen, Tip Stille, Thi Quynh Ha, Thuy Duong Quach, Quoc Vu Dang, Manh Ha Luu, Ewoud J. Smit, Hong Son Mai, Mattias Heinrich, Bram van Ginneken, Mathias Prokop, Alessa Hering

**Резюме** Регистрация изображений является ключевым элементом анализа мультифазных и многоорганичных медицинских сканов, однако большинство существующих методов ориентированы на регистрацию отдельных органов, что ограничивает их применение. Мы представляем TotalRegistrator — новую систему регистрации, способную совместно выравнивать несколько органов в рамках одной модели. Она основывается на стандартной UNet-архитектуре с использованием оригинальной стратегии разделения полей, что позволяет значительно сократить требования к GPU-памяти — до 11 ГБ при обучении. Мы обучили TotalRegistrator на большом лабиринте данных со сканами зоны грудной клетки, живота и таза, а также проверили его на трех внешних наборах данных. Результаты показали, что наше решение выполняет регистрацию многоорганичных снимков более эффективно, чем классические и новые генерик-модели, при этом масштабируемость и универсальность системы доказаны на различных внешних наборах. Таким образом, TotalRegistrator представляет собой прорыв в области многоорганичной регистрации медицинских изображений, обладая высокой обобщающей способностью.

Annotation:

Image registration is a fundamental technique in the analysis of longitudinal and multi-phase CT images within clinical practice. However, most existing methods are tailored for single-organ applications, limiting their generalizability to other anatomical regions. This work presents TotalRegistrator, an image registration framework capable of aligning multiple anatomical regions simultaneously using a standard UNet architecture and a novel field decomposition strategy. The model is lightweight,...

ID: 2508.04450v1 eess.IV, cs.CV

arXiv PDF

📄 Boosting Visual Knowledge-Intensive Training for LVLMs Through Causality-Driven Visual Object Completion

2025-08-09

Авторы:

Qingguo Hu, Ante Wang, Jia Song, Delai Qiu, Qingsong Liu, Jinsong Su

Недавние достижения в области Large Vision-Language Models (LVLMs) позволили повысить их мощность в обработке текстов и изображений. Однако их эффективность в задачах, требующих глубокого визуального понимания, таких как определение тонких различий между изображениями, до сих пор остается недостаточной. Решение этой проблемы лежит в использовании лучших подходов к визуальному обучению. Мы предлагаем **Causality-Driven Visual Object Completion (CVC)** — новый подход для улучшения визуальных знаний LVLMs. CVC включает в себя задачу предсказания удаленного объекта в изображении на основе его логических (казуальных) связей с остальным визуальным контекстом. Так как в популярных инструктивных корпусах лимитированное количество визуальных примеров, CVC обеспечивает экономичный способ пополнения этих примеров с помощью автоматической генерации данных. Эта методика позволяет LVLMs проводить самостоятельное тренирование через использование этих примеров, что улучшает их визуальные проблемы. В результате, наши эксперименты показали сильную улучшение в представлении визуальных данных на 4 специализированных и 4 общих задачах. Точность моделей LLaVA-1.5-7B и LLaVA-1.5-13B увеличилась на 5.4% и 4.0% соответственно. Этот подход показал свою эффективность в повышении визуально-лингвистического понимания LVLMs.

Annotation:

Large Vision-Language Models (LVLMs) have experienced significant advancements in recent years. However, their performance still falls short in tasks requiring deep visual perception, such as identifying subtle differences between images. A potential cause is the scarcity of visual knowledge in popular instruction-tuning corpora, resulting in inadequate visual perception and reasoning capabilities. To address this challenge, we introduce a self-improvement framework grounded in a novel visual kn...

ID: 2508.04453v1 cs.CV

arXiv PDF

📄 4DVD: Cascaded Dense-view Video Diffusion Model for High-quality 4D Content Generation

2025-08-09

Авторы:

Shuzhou Yang, Xiaodong Cun, Xiaoyu Li, Yaowei Li, Jian Zhang

В статье предлагается 4DVD, алгоритм, созданный для эффективной генерации высококачественных 4D-видео на основе много birds-eye-view (BEV) синтеза. Основная проблема заключается в сложности непосредственной генерации высокомерного 4D-контента, которая требует учета многоуровневой структуры пространственных и временных факторов. Решение представляет собой новую архитектуру, разделяющую процесс на две стадии: генерацию много birds-eye-view (BEV) макета и структурно-ориентированную генерацию содержимого с учетом времени. Это позволяет создавать более точные и высококачественные 4D-представления, используя высокодобротные много BEV-представления, что повышает качество пространственного и временного синтеза. Для обучения использовался собственный датасет D-Objaverse, созданный на основе Objaverse, с 16 объектами и 16 видеозаписями. Эксперименты показывают, что 4DVD превосходит существующие методы в задачах визуализации и 4D-генерации, обеспечивая перспективы для практического применения.

Annotation:

Given the high complexity of directly generating high-dimensional data such as 4D, we present 4DVD, a cascaded video diffusion model that generates 4D content in a decoupled manner. Unlike previous multi-view video methods that directly model 3D space and temporal features simultaneously with stacked cross view/temporal attention modules, 4DVD decouples this into two subtasks: coarse multi-view layout generation and structure-aware conditional generation, and effectively unifies them. Specifical...

ID: 2508.04467v1 cs.CV

arXiv PDF

📄 FrEVL: Leveraging Frozen Pretrained Embeddings for Efficient Vision-Language Understanding

2025-08-09

Авторы:

Emmanuelle Bourigault, Pauline Bourigault

Многие визуально-языковые модели страдают от высоких требований к вычислительным ресурсам, что ограничивает их развёртывание. В статье представлена фреймворм FrEVL, который исследует возможность использования замороженных предобученных векторных представлений для эффективного визуально-языкового понимания. Авторы показывают, что такие векторы содержат достаточно информации для решения задач с точностью от 85% до 95% от современных моделей, используя всего 68.4M тренируемых параметров. Однако эффективность зависит от того, насколько целевые задачи подходят для предобученных векторов. Когда рассматривается полный цикл вычислений, включая экстракцию векторов, FrEVL демонстрирует скорострельность в два раза и энергоэффективность в 52% по сравнению с полным развертыванием модели. Это делает его привлекательным для сценариев с предварительно обработанными входными данными или строгими ограничениями на ресурсы. Результаты показывают, что замороженные предобученные векторы могут быть реальным альтернативным подходом в ряде случаев.

Annotation:

The deployment of vision-language models remains constrained by substantial computational requirements. We present \textbf{FrEVL}, a framework exploring whether frozen pretrained embeddings can support effective vision-language understanding. Our analysis reveals that frozen embeddings contain rich information for discriminative tasks, achieving 85\% to 95\% of state-of-the-art performance on standard benchmarks with only 68.4M trainable parameters. This performance dichotomy reveals a critical ...

ID: 2508.04469v1 cs.CV, cs.CL

arXiv PDF

📄 QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution

2025-08-09

Авторы:

Bowen Chai, Zheng Chen, Libo Zhu, Wenbo Li, Yong Guo, Yulun Zhang

Существующие diffusion-based VSR-модели гарантируют высокую точность, но слишком ресурсоемки для реального применения. Бит-дробление может уменьшить эту нагрузку, но требует учета характеристик VSR, таких как временные зависимости. Мы предлагаем QuantVSR — модель квантования в реальном видео-суперразрешении с низким битовым режимом. Механизм spatio-temporal complexity aware (STCA) оценивает пространственную и временную сложность каждого слоя и назначает им уровни точности. Это позволяет оптимизировать параллельные полноформатные и низкобитные ветки, а также компенсировать квантовое расхождение с помощью learnable bias alignment (LBA). Эксперименты показали, что QuantVSR сохраняет точность FP-модели и показывает существенное превосходство по сравнению с текущими low-bit-quantization-методами. Результаты доступны на GitHub: [https://github.com/bowenchai/QuantVSR](https://github.com/bowenchai/QuantVSR).

Annotation:

Diffusion models have shown superior performance in real-world video super-resolution (VSR). However, the slow processing speeds and heavy resource consumption of diffusion models hinder their practical application and deployment. Quantization offers a potential solution for compressing the VSR model. Nevertheless, quantizing VSR models is challenging due to their temporal characteristics and high fidelity requirements. To address these issues, we propose QuantVSR, a low-bit quantization model f...

ID: 2508.04485v1 cs.CV

arXiv PDF

📄 OpenDCVCs: A PyTorch Open Source Implementation and Performance Evaluation of the DCVC series Video Codecs

2025-08-09

Авторы:

Yichi Zhang, Fengqing Zhu

Задача улучшения эффективности кодеков видеокодирования становится все более актуальной в условиях роста требований к качеству видео и ограниченности битрейтов. Одним из перспективных направлений является Deep Contextual Video Compression (DCVC), который использует нейронные сети для повышения эффективности кодирования. Однако ранее доступные реализации DCVC были ограничены возможностями проверки результатов, что затрудняло репликацию исследований и сравнение с другими моделями. В этой работе представлена OpenDCVCs — открытая реализация DCVC на PyTorch, включающая четыре представительских модели DCVC: базовую версию, модель с моделированием временного контекста, с гибридным моделированием энтропии и с использованием разнообразных контекстов. Данная реализация позволяет не только проводить оценку, но и осуществлять полный цикл обучения моделей. Она дополняется документацией, протоколами оценки и результатами сравнения с другими кодеками на разных наборах данных. Это открытие обеспечивает новые возможности для репликации исследований, сравнения алгоритмов и дальнейшего развития DCVC.

Annotation:

We present OpenDCVCs, an open-source PyTorch implementation designed to advance reproducible research in learned video compression. OpenDCVCs provides unified and training-ready implementations of four representative Deep Contextual Video Compression (DCVC) models--DCVC, DCVC with Temporal Context Modeling (DCVC-TCM), DCVC with Hybrid Entropy Modeling (DCVC-HEM), and DCVC with Diverse Contexts (DCVC-DC). While the DCVC series achieves substantial bitrate reductions over both classical codecs and...

ID: 2508.04491v1 eess.IV, cs.CV

arXiv PDF

1
2
1137
1138
1139
1140
1141
1161
1162

Показано 11381 - 11390 из 11614 записей