📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Matteo Caligiuri, Francesco Barbato, Donald Shenaj, Umberto Michieli, Pietro Zanuttigh

**Резюме** Существующие методы федеративного обучения (FL) часто сталкиваются с проблемой ресурсоемкости при обучении больших моделей на клиентских устройствах. Мы предлагаем FedPromo — фреймворк, решающий эту проблему за счет использования легковесных прокси-моделей. Решение работает в двух этапах: сначала выравнивается представление большой фундаментальной модели (например, трансформера) с компактной моделью (например, CNN) на сервере с помощью классического knowledge distillation. Затем клиентские устройства принимают прокси-модель и обучают на ней локальные классификаторы. Эти классификаторы мерджутся на сервере, обновляя базовую модель, но без непосредственного доступа к данным клиентов. Наш подход включает оригинальные регуляризационные стратегии, обеспечивая эффективное децентрализованное многодоменное обучение. На экспериментах с five-shot image classification FedPromo показал значительные выигрыши по результатам и ресурсоемкости по сравнению с современными методами, даже при ограниченных ресурсах клиентских устройств.
Annotation:
Federated Learning (FL) is an established paradigm for training deep learning models on decentralized data. However, as the size of the models grows, conventional FL approaches often require significant computational resources on client devices, which may not be feasible. We introduce FedPromo, a novel framework that enables efficient adaptation of large-scale foundation models stored on a central server to new domains encountered only by remote clients. Instead of directly training the large mo...
ID: 2508.03356v1 cs.CV, cs.LG
Авторы:

Gang Yang

**Резюме** В статье предлагается новая методика для многоуровневого линейного размешивания в hyperspectral imagery, которая основывается на многоуровневой модели факторизации матриц. Метод, названный Sparsity and Total Variation Constrained Multilayer Linear Unmixing (STVMLU), расширяет стандартные подходы к размешиванию, внедряя два ключевых ограничения. Первое — спарсинговое ограничение (L1/2-норма), нацеленное на эффективное характеризуя спарсность матрицы абундансов. Второе — ограничение на полноту (TV), которое учитывает соседственные пространственные схожести в изображении. Эти ограничения позволяют улучшить точность распределения абундансов и структуры материалов в изображении. Решение основывается на методе ADMM (Alternating Direction Method of Multipliers), который обеспечивает эффективную оптимизацию. Эксперименты показали, что предложенный подход превосходит другие алгоритмы, демонстрируя лучшую точность и стабильность в размешивании.
Annotation:
Hyperspectral unmixing aims at estimating material signatures (known as endmembers) and the corresponding proportions (referred to abundances), which is a critical preprocessing step in various hyperspectral imagery applications. This study develops a novel approach called sparsity and total variation (TV) constrained multilayer linear unmixing (STVMLU) for hyperspectral imagery. Specifically, based on a multilayer matrix factorization model, to improve the accuracy of unmixing, a TV constraint ...
ID: 2508.03403v1 cs.CV, cs.LG, eess.IV
Авторы:

Stefan Brandstätter, Maximilian Köller, Philipp Seeböck, Alissa Blessing, Felicitas Oberndorfer, Svitlana Pochepnia, Helmut Prosch, Georg Langs

В histopathology stitching тканиных тканей для создания комплексных мозаик, необходимых для анализа, представляет сложную задачу из-за возможных потерь ткани, интервальных морфологических деформаций, несогласованности покраски и фрагментации ткани. Традиционные методы, основанные на сравнении контуров, эффективны только при полных и четко отделенных тканевых фрагментах. Мы предлагаем SemanticStitcher, метод основанный на применении визуальных фундаментальных моделей для выявления соседних областей в разных фрагментах на основе языковых описаний. Наши эксперименты на трех различных датасетах показали, что SemanticStitcher формирует более точные мозаичные конструкции и способен успешно обрабатывать несовершенные тканевые фрагменты. Это демонстрирует возможность использования semantic matching для автоматического stitching тканиных мозаик и подтверждает преимущество SemanticStitcher над традиционными подходами.
Annotation:
In histopathology, tissue samples are often larger than a standard microscope slide, making stitching of multiple fragments necessary to process entire structures such as tumors. Automated stitching is a prerequisite for scaling analysis, but is challenging due to possible tissue loss during preparation, inhomogeneous morphological distortion, staining inconsistencies, missing regions due to misalignment on the slide, or frayed tissue edges. This limits state-of-the-art stitching methods using b...
ID: 2508.03524v1 cs.CV, cs.LG
Авторы:

Md Abrar Jahin, Shahriar Soudeep, M. F. Mridha, Nafiz Fahad, Md. Jakir Hossen

Объектная детекция в динамических сценах сталкивается с проблемами, такими как наложение, классовое неравенство и ограниченная работа стивидирующих механизмов. Мы предлагаем Dynamic Class-Aware Fusion Network (DyCAF-Net), решающую эти задачи с помощью трех ключевых инноваций. Во-первых, используется устойчивый к входным данным механизм равновесия для итеративного улучшения мультискайловых признаков. Во-вторых, динамическая дважды динамическая аттенция адаптирует каналы и пространственные ответы к входным данным и классам. В-третьих, классно-ориентированная модификация признаков повышает признаки для редких классов. Наши эксперименты показали, что DyCAF-Net выдает значительные повышения в точности, mAP@50 и mAP@50-95 на 13 различных датасетах, включая сцены с ограниченной видимостью и длинной хвостовой частью. Имея эффективные тепловую модель, DyCAF-Net является универсальным решением для задач детекции в реальном мире, например, в медицинской имеджинге, системах безопасности и автономных системах.
Annotation:
Recent advancements in object detection rely on modular architectures with multi-scale fusion and attention mechanisms. However, static fusion heuristics and class-agnostic attention limit performance in dynamic scenes with occlusions, clutter, and class imbalance. We introduce Dynamic Class-Aware Fusion Network (DyCAF-Net) that addresses these challenges through three innovations: (1) an input-conditioned equilibrium-based neck that iteratively refines multi-scale features via implicit fixed-po...
ID: 2508.03598v1 cs.CV, cs.LG
Авторы:

Akshay L Chandra, Iman Nematollahi, Chenguang Huang, Tim Welschehold, Wolfram Burgard, Abhinav Valada

В статье предлагается новый подход, **DiWA** (Diffusion Policy Adaptation with World Models), для тонкой настройки diffusion policies в области обучения роботов. Основная проблема заключается в том, что fine-tuning diffusion policies с помощью reinforcement learning сталкивается с проблемой эффективной пропаграции награды в длинных последовательностях декодирования и требует миллионов реальных взаимодействий, что неэффективно и небезопасно. **DiWA** решает эту проблему, используя world model, обученный на небольшом количестве offline-интеракций, для организации offline-adaptation с использованием reinforcement learning. Это позволяет достичь существенной эффективности при использовании ресурсов и значительно уменьшить необходимое число реальных взаимодействий. На масштабном испытательном наборе **CALVIN**, DiWA достигает улучшений в производительности по 8 задачам, используя только offline-адаптацию, и требует меньшего числа физических взаимодействий по сравнению с модельно-свободными базовыми методами. Это является первым рабочим решением для offline-настройки diffusion policies в реальных роботизированных задачах.
Annotation:
Fine-tuning diffusion policies with reinforcement learning (RL) presents significant challenges. The long denoising sequence for each action prediction impedes effective reward propagation. Moreover, standard RL methods require millions of real-world interactions, posing a major bottleneck for practical fine-tuning. Although prior work frames the denoising process in diffusion policies as a Markov Decision Process to enable RL-based updates, its strong dependence on environment interaction remai...
ID: 2508.03645v1 cs.RO, cs.CV, cs.LG
Авторы:

Shen Zhu, Yinzhu Jin, Ifrah Zawar, P. Thomas Fletcher

Мы предлагаем диффузионный модель, предназначенный для генерации точечных представлений объектов с сохранением корреляций. Традиционные статистические модели формировались вокруг точечных корреляций, но современные глубокие нейросетевые модели этот аспект не учитывают, ориентируясь только на неупорядоченные точечные облака. Настоящая работа формулирует модель диффузии, которая успешно генерирует реалистичные точечные представления объектов с сохранением точечных корреляций, присутствующих в обучающих данных. Мы продемонстрировали эффективность нашей модели на данных Open Access Series of Imaging Studies 3 (OASIS-3), где она сформировала точечные представления гиппокампа, являющиеся крайне реалистичными по сравнению с другими подходами. Мы также применили нашу модель к задачам подготовки данных для локальных задач, таких как генерация подконтрольных и AD-пациентов, а также предсказания морфологических изменений, связанных с прогрессированием заболевания с помощью относительного генерирования.
Annotation:
We propose a diffusion model designed to generate point-based shape representations with correspondences. Traditional statistical shape models have considered point correspondences extensively, but current deep learning methods do not take them into account, focusing on unordered point clouds instead. Current deep generative models for point clouds do not address generating shapes with point correspondences between generated shapes. This work aims to formulate a diffusion model that is capable o...
ID: 2508.03925v1 cs.CV, cs.LG
Авторы:

Zhan Li, Huangying Zhan, Changyang Li, Qingan Yan, Yi Xu

3D Gaussian Splatting (3DGS) — метод рендеринга 3D-сцен, требующий тонкого адаптивного гиперпараметрического регулирования для получения качественных результатов. Однако этот процесс требует значительных усилий и опыта специалиста. Мы предлагаем RLGS — модель, основанную на развитии стратегий при помощи реINFOrмационного обучения, для адаптивного гиперпараметрического оптимизационного процесса в 3DGS. Решение включает в себя лёгкие политические модели, которые динамически корректируют ключевые параметры, такие как скорость обучения и пороги денсификации. RLGS является моделью, независимой от конкретной архитектуры 3DGS, и может быть легко интегрирована в существующие 3DGS-процессы. Мы проверили её эффективность на нескольких современных 3DGS-моделях, включая Taming-3DGS и 3DGS-MCMC, и показали, что она последовательно повышает качество рендеринга — например, улучшила PSNR Taming-3DGS на 0.7 dB на TNT датасете. Наши результаты указывают на то, что RLGS представляет собой эффективное и универсальное решение для автоматизации гиперпараметрического оптимизационного процесса в 3DGS.
Annotation:
Hyperparameter tuning in 3D Gaussian Splatting (3DGS) is a labor-intensive and expert-driven process, often resulting in inconsistent reconstructions and suboptimal results. We propose RLGS, a plug-and-play reinforcement learning framework for adaptive hyperparameter tuning in 3DGS through lightweight policy modules, dynamically adjusting critical hyperparameters such as learning rates and densification thresholds. The framework is model-agnostic and seamlessly integrates into existing 3DGS pipe...
ID: 2508.04078v1 cs.GR, cs.CV, cs.LG
Авторы:

Wengang Guo, Wei Ye, Chunchun Chen, Xin Sun, Christian Böhm, Claudia Plant, Susanto Rahardja

**Резюме** Спектральное кластеризационное моделирование широко применяется в различных задачах, но страдает от двух ключевых недостатков: разделение процессов оптимизации и ограниченная мощность представления. В данной работе предлагается модель Deep Spectral Clustering (BootSC), которая объединяет все этапы спектрального кластеризационного процесса — построение аффинтивной матрицы, спектральное отображение и $k$-means кластеризацию — в едином нейронной сети с полностью энд-то-энд оптимизацией. Метод BootSC использует оптимальное транспортное приближение для создания подтолжки в процессе аппроксимации матрицы аффинтивности и классовой матрицы кластеров, улучшая точность кластеризации. Дополнительно, введена техника семантически согласованной ортогональной репараметризации, которая улучшает дискриминационную способность спектральных признаков. Экспериментальные результаты показали, что BootSC демонстрирует состояние технологии в кластеризации, например, улучшив NMI на 16% по сравнению с конкурирующим методом на сложной датасете ImageNet-Dogs. Наш код доступен по ссылке: https://github.com/spdj2271/BootSC.
Annotation:
Spectral clustering is a leading clustering method. Two of its major shortcomings are the disjoint optimization process and the limited representation capacity. To address these issues, we propose a deep spectral clustering model (named BootSC), which jointly learns all stages of spectral clustering -- affinity matrix construction, spectral embedding, and $k$-means clustering -- using a single network in an end-to-end manner. BootSC leverages effective and efficient optimal-transport-derived sup...
ID: 2508.04200v1 cs.CV, cs.LG
Авторы:

Yuyang Liu, Qiuhe Hong, Linlan Huang, Alexandra Gomez-Villa, Dipam Goswami, Xialei Liu, Joost van de Weijer, Yonghong Tian

Vision-language models (VLMs), основываясь на больших предварительно обученных моделях, достигли впечатляющих результатов в различных мультимодальных задачах. Однако их применение к непрерывному обучению с нестационарными данными остается сложной проблемой. Несмотря на успех в простых классических задачах непрерывного обучения, VLMs сталкиваются с уникальными проблемами: значительным забвением (forgetting) во время обучения, ухудшением параметров взаимодействия составных модалей, а также снижением возможностей нулевого-шотного обучения. Данное исследование представляет повсеместную и систематичную обзорную работу по непрерывному обучению VLMs (VLM-CL). Также предлагается категоризировать подходы к решению: (1) повторное использование мультимодальных данных, (2) регуляризационные методы, поддерживающие модальные связи, и (3) эффективные методы адаптации параметров. Обзор также проводит анализ текущих протоколов оценки, датасетов и метрик, и это подчеркивает необходимость создания новых бенчмарков, которые могут лучше отразить ограничения VLMs в направлении квалитивного непрерывного обучения.
Annotation:
Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to ...
ID: 2508.04227v1 cs.CV, cs.LG
Авторы:

Lefei Shen, Mouxiang Chen, Xu Liu, Han Fu, Xiaoxue Ren, Jianling Sun, Zhuo Li, Chenghao Liu

**Резюме** В данном исследовании предлагается VisionTS++ — кросс-модальная фундаментальная модель для временных рядов, основанная на визуальных моделях. Несмотря на то, что визуальные модели, предварительно обученные на изображениях, показали способность решать задачи прогнозирования временных рядов, передача кросс-модальной информации возникают трудности из-за трех ключевых различий: (1) различия между структурированными изображениями и неструктурированными временными рядами; (2) различия между моделями визуальных данных трех-канального RGB-формата и необходимостью моделировать временные ряды с произвольным числом признаков; (3) различия между детерминированным выводом визуальных моделей и необходимостью прогнозировать распределения с обоснованным уровнем неопределенности. Для решения этих проблем, VisionTS++ предлагает тройной подход: (1) визуальный механизм фильтрации для выявления высококачественных временных рядов, (2) метод преобразования временных рядов в RGB-изображения с несколькими подкартинками для представления зависимостей между признаками, (3) многоквантильный прогнозный подход, использующий множество реконструкционных задач для гибкого прогнозирования различных квантилей. Тесты на различных задачах прогнозирования показали, что VisionTS++ превосходит специализированные модели на 6%–44% по метрике MSE и занимает первое место в 9 из 12 сценариев прогнозирования. Это работа устанавливает новый парадигму для кросс-модальных передачи знаний, двигая вперед развитие универсальных моделей для прогнозирования временных рядов.
Annotation:
Recent studies have revealed that vision models pre-trained on images can perform well in time series forecasting by reformulating forecasting as an image reconstruction task, suggesting their potential as universal time series foundation models. However, effective cross-modal transfer from vision to time series remains challenging due to three key discrepancies: (1) data-modality gap between structured, bounded image data and unbounded, heterogeneous time series; (2) multivariate-forecasting ga...
ID: 2508.04379v1 cs.CV, cs.LG
Показано 811 - 820 из 835 записей