📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня
Авторы:

Stefan Brandstätter, Maximilian Köller, Philipp Seeböck, Alissa Blessing, Felicitas Oberndorfer, Svitlana Pochepnia, Helmut Prosch, Georg Langs

В histopathology stitching тканиных тканей для создания комплексных мозаик, необходимых для анализа, представляет сложную задачу из-за возможных потерь ткани, интервальных морфологических деформаций, несогласованности покраски и фрагментации ткани. Традиционные методы, основанные на сравнении контуров, эффективны только при полных и четко отделенных тканевых фрагментах. Мы предлагаем SemanticStitcher, метод основанный на применении визуальных фундаментальных моделей для выявления соседних областей в разных фрагментах на основе языковых описаний. Наши эксперименты на трех различных датасетах показали, что SemanticStitcher формирует более точные мозаичные конструкции и способен успешно обрабатывать несовершенные тканевые фрагменты. Это демонстрирует возможность использования semantic matching для автоматического stitching тканиных мозаик и подтверждает преимущество SemanticStitcher над традиционными подходами.
Annotation:
In histopathology, tissue samples are often larger than a standard microscope slide, making stitching of multiple fragments necessary to process entire structures such as tumors. Automated stitching is a prerequisite for scaling analysis, but is challenging due to possible tissue loss during preparation, inhomogeneous morphological distortion, staining inconsistencies, missing regions due to misalignment on the slide, or frayed tissue edges. This limits state-of-the-art stitching methods using b...
ID: 2508.03524v1 cs.CV, cs.LG
Авторы:

Md Abrar Jahin, Shahriar Soudeep, M. F. Mridha, Nafiz Fahad, Md. Jakir Hossen

Объектная детекция в динамических сценах сталкивается с проблемами, такими как наложение, классовое неравенство и ограниченная работа стивидирующих механизмов. Мы предлагаем Dynamic Class-Aware Fusion Network (DyCAF-Net), решающую эти задачи с помощью трех ключевых инноваций. Во-первых, используется устойчивый к входным данным механизм равновесия для итеративного улучшения мультискайловых признаков. Во-вторых, динамическая дважды динамическая аттенция адаптирует каналы и пространственные ответы к входным данным и классам. В-третьих, классно-ориентированная модификация признаков повышает признаки для редких классов. Наши эксперименты показали, что DyCAF-Net выдает значительные повышения в точности, mAP@50 и mAP@50-95 на 13 различных датасетах, включая сцены с ограниченной видимостью и длинной хвостовой частью. Имея эффективные тепловую модель, DyCAF-Net является универсальным решением для задач детекции в реальном мире, например, в медицинской имеджинге, системах безопасности и автономных системах.
Annotation:
Recent advancements in object detection rely on modular architectures with multi-scale fusion and attention mechanisms. However, static fusion heuristics and class-agnostic attention limit performance in dynamic scenes with occlusions, clutter, and class imbalance. We introduce Dynamic Class-Aware Fusion Network (DyCAF-Net) that addresses these challenges through three innovations: (1) an input-conditioned equilibrium-based neck that iteratively refines multi-scale features via implicit fixed-po...
ID: 2508.03598v1 cs.CV, cs.LG
Авторы:

Akshay L Chandra, Iman Nematollahi, Chenguang Huang, Tim Welschehold, Wolfram Burgard, Abhinav Valada

В статье предлагается новый подход, **DiWA** (Diffusion Policy Adaptation with World Models), для тонкой настройки diffusion policies в области обучения роботов. Основная проблема заключается в том, что fine-tuning diffusion policies с помощью reinforcement learning сталкивается с проблемой эффективной пропаграции награды в длинных последовательностях декодирования и требует миллионов реальных взаимодействий, что неэффективно и небезопасно. **DiWA** решает эту проблему, используя world model, обученный на небольшом количестве offline-интеракций, для организации offline-adaptation с использованием reinforcement learning. Это позволяет достичь существенной эффективности при использовании ресурсов и значительно уменьшить необходимое число реальных взаимодействий. На масштабном испытательном наборе **CALVIN**, DiWA достигает улучшений в производительности по 8 задачам, используя только offline-адаптацию, и требует меньшего числа физических взаимодействий по сравнению с модельно-свободными базовыми методами. Это является первым рабочим решением для offline-настройки diffusion policies в реальных роботизированных задачах.
Annotation:
Fine-tuning diffusion policies with reinforcement learning (RL) presents significant challenges. The long denoising sequence for each action prediction impedes effective reward propagation. Moreover, standard RL methods require millions of real-world interactions, posing a major bottleneck for practical fine-tuning. Although prior work frames the denoising process in diffusion policies as a Markov Decision Process to enable RL-based updates, its strong dependence on environment interaction remai...
ID: 2508.03645v1 cs.RO, cs.CV, cs.LG
Авторы:

Shen Zhu, Yinzhu Jin, Ifrah Zawar, P. Thomas Fletcher

Мы предлагаем диффузионный модель, предназначенный для генерации точечных представлений объектов с сохранением корреляций. Традиционные статистические модели формировались вокруг точечных корреляций, но современные глубокие нейросетевые модели этот аспект не учитывают, ориентируясь только на неупорядоченные точечные облака. Настоящая работа формулирует модель диффузии, которая успешно генерирует реалистичные точечные представления объектов с сохранением точечных корреляций, присутствующих в обучающих данных. Мы продемонстрировали эффективность нашей модели на данных Open Access Series of Imaging Studies 3 (OASIS-3), где она сформировала точечные представления гиппокампа, являющиеся крайне реалистичными по сравнению с другими подходами. Мы также применили нашу модель к задачам подготовки данных для локальных задач, таких как генерация подконтрольных и AD-пациентов, а также предсказания морфологических изменений, связанных с прогрессированием заболевания с помощью относительного генерирования.
Annotation:
We propose a diffusion model designed to generate point-based shape representations with correspondences. Traditional statistical shape models have considered point correspondences extensively, but current deep learning methods do not take them into account, focusing on unordered point clouds instead. Current deep generative models for point clouds do not address generating shapes with point correspondences between generated shapes. This work aims to formulate a diffusion model that is capable o...
ID: 2508.03925v1 cs.CV, cs.LG
Авторы:

Zhan Li, Huangying Zhan, Changyang Li, Qingan Yan, Yi Xu

3D Gaussian Splatting (3DGS) — метод рендеринга 3D-сцен, требующий тонкого адаптивного гиперпараметрического регулирования для получения качественных результатов. Однако этот процесс требует значительных усилий и опыта специалиста. Мы предлагаем RLGS — модель, основанную на развитии стратегий при помощи реINFOrмационного обучения, для адаптивного гиперпараметрического оптимизационного процесса в 3DGS. Решение включает в себя лёгкие политические модели, которые динамически корректируют ключевые параметры, такие как скорость обучения и пороги денсификации. RLGS является моделью, независимой от конкретной архитектуры 3DGS, и может быть легко интегрирована в существующие 3DGS-процессы. Мы проверили её эффективность на нескольких современных 3DGS-моделях, включая Taming-3DGS и 3DGS-MCMC, и показали, что она последовательно повышает качество рендеринга — например, улучшила PSNR Taming-3DGS на 0.7 dB на TNT датасете. Наши результаты указывают на то, что RLGS представляет собой эффективное и универсальное решение для автоматизации гиперпараметрического оптимизационного процесса в 3DGS.
Annotation:
Hyperparameter tuning in 3D Gaussian Splatting (3DGS) is a labor-intensive and expert-driven process, often resulting in inconsistent reconstructions and suboptimal results. We propose RLGS, a plug-and-play reinforcement learning framework for adaptive hyperparameter tuning in 3DGS through lightweight policy modules, dynamically adjusting critical hyperparameters such as learning rates and densification thresholds. The framework is model-agnostic and seamlessly integrates into existing 3DGS pipe...
ID: 2508.04078v1 cs.GR, cs.CV, cs.LG
Авторы:

Wengang Guo, Wei Ye, Chunchun Chen, Xin Sun, Christian Böhm, Claudia Plant, Susanto Rahardja

**Резюме** Спектральное кластеризационное моделирование широко применяется в различных задачах, но страдает от двух ключевых недостатков: разделение процессов оптимизации и ограниченная мощность представления. В данной работе предлагается модель Deep Spectral Clustering (BootSC), которая объединяет все этапы спектрального кластеризационного процесса — построение аффинтивной матрицы, спектральное отображение и $k$-means кластеризацию — в едином нейронной сети с полностью энд-то-энд оптимизацией. Метод BootSC использует оптимальное транспортное приближение для создания подтолжки в процессе аппроксимации матрицы аффинтивности и классовой матрицы кластеров, улучшая точность кластеризации. Дополнительно, введена техника семантически согласованной ортогональной репараметризации, которая улучшает дискриминационную способность спектральных признаков. Экспериментальные результаты показали, что BootSC демонстрирует состояние технологии в кластеризации, например, улучшив NMI на 16% по сравнению с конкурирующим методом на сложной датасете ImageNet-Dogs. Наш код доступен по ссылке: https://github.com/spdj2271/BootSC.
Annotation:
Spectral clustering is a leading clustering method. Two of its major shortcomings are the disjoint optimization process and the limited representation capacity. To address these issues, we propose a deep spectral clustering model (named BootSC), which jointly learns all stages of spectral clustering -- affinity matrix construction, spectral embedding, and $k$-means clustering -- using a single network in an end-to-end manner. BootSC leverages effective and efficient optimal-transport-derived sup...
ID: 2508.04200v1 cs.CV, cs.LG
Авторы:

Yuyang Liu, Qiuhe Hong, Linlan Huang, Alexandra Gomez-Villa, Dipam Goswami, Xialei Liu, Joost van de Weijer, Yonghong Tian

Vision-language models (VLMs), основываясь на больших предварительно обученных моделях, достигли впечатляющих результатов в различных мультимодальных задачах. Однако их применение к непрерывному обучению с нестационарными данными остается сложной проблемой. Несмотря на успех в простых классических задачах непрерывного обучения, VLMs сталкиваются с уникальными проблемами: значительным забвением (forgetting) во время обучения, ухудшением параметров взаимодействия составных модалей, а также снижением возможностей нулевого-шотного обучения. Данное исследование представляет повсеместную и систематичную обзорную работу по непрерывному обучению VLMs (VLM-CL). Также предлагается категоризировать подходы к решению: (1) повторное использование мультимодальных данных, (2) регуляризационные методы, поддерживающие модальные связи, и (3) эффективные методы адаптации параметров. Обзор также проводит анализ текущих протоколов оценки, датасетов и метрик, и это подчеркивает необходимость создания новых бенчмарков, которые могут лучше отразить ограничения VLMs в направлении квалитивного непрерывного обучения.
Annotation:
Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to ...
ID: 2508.04227v1 cs.CV, cs.LG
Авторы:

Lefei Shen, Mouxiang Chen, Xu Liu, Han Fu, Xiaoxue Ren, Jianling Sun, Zhuo Li, Chenghao Liu

**Резюме** В данном исследовании предлагается VisionTS++ — кросс-модальная фундаментальная модель для временных рядов, основанная на визуальных моделях. Несмотря на то, что визуальные модели, предварительно обученные на изображениях, показали способность решать задачи прогнозирования временных рядов, передача кросс-модальной информации возникают трудности из-за трех ключевых различий: (1) различия между структурированными изображениями и неструктурированными временными рядами; (2) различия между моделями визуальных данных трех-канального RGB-формата и необходимостью моделировать временные ряды с произвольным числом признаков; (3) различия между детерминированным выводом визуальных моделей и необходимостью прогнозировать распределения с обоснованным уровнем неопределенности. Для решения этих проблем, VisionTS++ предлагает тройной подход: (1) визуальный механизм фильтрации для выявления высококачественных временных рядов, (2) метод преобразования временных рядов в RGB-изображения с несколькими подкартинками для представления зависимостей между признаками, (3) многоквантильный прогнозный подход, использующий множество реконструкционных задач для гибкого прогнозирования различных квантилей. Тесты на различных задачах прогнозирования показали, что VisionTS++ превосходит специализированные модели на 6%–44% по метрике MSE и занимает первое место в 9 из 12 сценариев прогнозирования. Это работа устанавливает новый парадигму для кросс-модальных передачи знаний, двигая вперед развитие универсальных моделей для прогнозирования временных рядов.
Annotation:
Recent studies have revealed that vision models pre-trained on images can perform well in time series forecasting by reformulating forecasting as an image reconstruction task, suggesting their potential as universal time series foundation models. However, effective cross-modal transfer from vision to time series remains challenging due to three key discrepancies: (1) data-modality gap between structured, bounded image data and unbounded, heterogeneous time series; (2) multivariate-forecasting ga...
ID: 2508.04379v1 cs.CV, cs.LG
Авторы:

Johannes Tischer, Patric Kienast, Marlene Stümpflen, Gregor Kasprian, Georg Langs, Roxane Licandro

Условная атласная модель для сегментации тканей мозга неbornого ребенка (Fetal Brain Atlas Learning for Automatic Tissue Segmentation) решает проблему стандартизации и анализа МРТ изображений мозга неbornого ребенка, которые часто бывают непостоянными в зависимости от возраста беременности, протоколов съемки и степени точности оценки возраста беременности (GA). Метод предлагает генерировать условные, возрастно-специфичные модели, используя нейронные сети с регистрацией и условным дискриминатором. Модель обучалась на 219 MR-снимках неbornого мозга от 21 до 37 недель во втором триместре. Она достигла высокой аккуратности регистрации и точной сегментации шести зон мозга с DSC 86.3%. Благодаря этому, модель позволяет проводить детальный анализ развития мозга неbornого ребенка, дающий более точные траектории роста мозга, и оказывает важное значение для клинических исследований и применений.
Annotation:
Magnetic Resonance Imaging (MRI) of the fetal brain has become a key tool for studying brain development in vivo. Yet, its assessment remains challenging due to variability in brain maturation, imaging protocols, and uncertain estimates of Gestational Age (GA). To overcome these, brain atlases provide a standardized reference framework that facilitates objective evaluation and comparison across subjects by aligning the atlas and subjects in a common coordinate system. In this work, we introduce ...
ID: 2508.04522v1 eess.IV, cs.CV, cs.LG, 68T07 (Primary) 92C50 (Secondary), I.4.9; I.4.6; I.2.0
Авторы:

Franz Thaler, Darko Stern, Gernot Plank, Martin Urschler

В статье предлагается метод для векторной сегментации целого сердца на основе многоисточниковых данных с учетом доменного сдвига. Несмотря на прогрессы в deep learning для медицинской сегментации, хорошая точность в условиях доменного сдвига (когда тренировочные и тестовые данные отличаются по распределению) остается сложной задачей. Для тренировки используется метод балансировки по типам данных (CT и MR) и сильные техники увеличения разнообразия при помощи аугментаций. На тесте показана высокая точность: 93.33% DSC и 0.8388 mm ASSD для CT и 89.30% DSC и 1.2411 mm ASSD для MR. Это позволяет генерировать точные пациент-специфичные модели сердца, необходимые для электрофизиологических и терапевтических планов. Результаты показывают, что предложенный подход эффективен для решения проблемы доменного сдвига в медицинской имидж-сегментации.
Annotation:
As the leading cause of death worldwide, cardiovascular diseases motivate the development of more sophisticated methods to analyze the heart and its substructures from medical images like Computed Tomography (CT) and Magnetic Resonance (MR). Semantic segmentations of important cardiac structures that represent the whole heart are useful to assess patient-specific cardiac morphology and pathology. Furthermore, accurate semantic segmentations can be used to generate cardiac digital twin models whi...
ID: 2508.04552v1 cs.CV, cs.LG
Показано 841 - 850 из 863 записей