📚 Саммари научных статей из arXiv

Найдено 277 результатов по запросу 'cs.LG, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 C${}^2$Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

2025-09-26

Авторы:

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou

#### Контекст Federated continual learning (FCL) является ключевым подходом для обучения моделей в сценариях, где данные поступают непрерывно с распределенных клиентов. Основная проблема FCL состоит в том, чтобы уменьшить влияние "забывания" (forgetting) — как временного (когда модель забывает ранее обученные знания), так и пространственного (когда модель забывает знания, связанные с конкретными клиентами). Несмотря на развитие методов FCL, проблема классовой когерентности во время обмена знаниями между клиентами остается недостаточно изученной. Эта некогерентность влияет на качество вывода модели и ухудшает постоянство знаний в пространстве и времени. #### Метод Мы предлагаем Class-aware Client Knowledge Interaction (C${}^2$Prompt) — метод, который акцентирует внимание на проблеме классовой когерентности в FCL. Метод включает две основные составляющие: 1. **Local Class Distribution Compensation (LCDC)** — метод, который уменьшает различия в классовой распределенности между клиентами, что повышает согласованность внутри класса. 2. **Class-aware Prompt Aggregation (CPA)** — метод, который способствует увеличению релевантности классов во время обмена предложениями (prompts), что уменьшает кросс-классовую путаницу. C${}^2$Prompt интегрирует эти компоненты в структуре обмена знаниями, улучшая общую эффективность обучения. #### Результаты Мы провели эксперименты на нескольких FCL-benchmarks, включая CIFAR-100 и Tiny-ImageNet. Результаты показывают, что C${}^2$Prompt значительно превосходит существующие методы, обеспечивая лучшую точность и постоянство знаний. Мы также проверили эффективность отдельных компонентов C${}^2$Prompt, показав, что оба составляющие — LCDC и CPA — значительно влияют на полученные результаты. #### Значимость C${}^2$Prompt может быть применен в сценариях, где необходимо постоянно обучать модели на нестабильных данных с распределенных клиентов. Например, это может быть применение в мобильных приложениях, где каждый пользователь постоянно получает новые данные. Решение предоставляет выгоды в виде улучшенной точности, сохранения знаний с обучения ранее, и значительного сокращения влияния "забывания". Это может привести к более стабильным и эффективным решениям в области распределенного обучения. #### Выводы Мы установили новый состояний лучшего результата в области классовой когерентности в FCL. Наш метод, C${}^2$Prompt, выдает значительные улучшения по отношению к ранее предложенным методам. Будущие исследования будут нацелены на улучшение интеграции C${}^2$Prompt в более сложных сценариях FCL, в том числе с нелинейными структурами данных и более высокой многомерностью классов.

Annotation:

Federated continual learning (FCL) tackles scenarios of learning from continuously emerging task data across distributed clients, where the key challenge lies in addressing both temporal forgetting over time and spatial forgetting simultaneously. Recently, prompt-based FCL methods have shown advanced performance through task-wise prompt communication.In this study, we underscore that the existing prompt-based FCL methods are prone to class-wise knowledge coherence between prompts across clients....

ID: 2509.19674v1 cs.LG, cs.CV

arXiv PDF

📄 Predictive Coding-based Deep Neural Network Fine-tuning for Computationally Efficient Domain Adaptation

2025-09-26

Авторы:

Matteo Cardoni, Sam Leroux

#### Контекст Во внедрении глубоких нейронных сетей в реальные динамические среды возникают проблемы стабильности вывода. Изменения дистрибуции входных данных, возникающие из-за дрейфа сенсоров или изменений освещения, требуют универсальных решений для адаптации моделей. На данный момент, многие подходы склоняются либо к точному, но вычислительно тяжелому обучению (Backpropagation), либо к эффективному, но недостаточно точному обучению (Predictive Coding). Наша исследовательская цель заключается в создании метода, который объединит эти подходы в одном гибридном решении. #### Метод Мы предлагаем метод, основанный на использовании глубоких нейронных сетей, обученных с помощью Backpropagation в оффлайн-режиме для получения базового представления. Далее, используется Predictive Coding для онлайн-адаптации. Метод основывается на представлении динамических изменений в данных в виде как локальных, так и глобальных корреляций. Он выполняется в два этапа: в первом этапе, модель обучается с Backpropagation для оптимизации представлений. Затем, Predictive Coding применяется для адаптации модели во время работы, используя небольшие обучающие выборки. Этот подход использует активные вычислительные ресурсы только для тех слоев, которые требуют адаптации, что эффективно экономит ресурсы. #### Результаты Мы проверили нашу модель на двух наборах данных: MNIST и CIFAR-10. Мы использовали видеоданные для проверки на живых условиях. По сравнению с моделями, обученными только с помощью Backpropagation, наш подход показал значительное увеличение точности при одновременной эффективности вычислений. Мы также проверили нашу модель на вычислительной эффективности, и она демонстрировала существенно меньший потребление ресурсов. Это подтверждает ее подходящую для реальных условий, где модели должны быть высокоточными и ресурсо-эффективными. #### Значимость Модель может быть применена в таких областях, как робототехника, смарт-города, интеллектуальные транспортные системы, где ресурсы для обучения ограничены. Она также может быть использована в глубоком обучении на будущих устройствах с низким энергопотреблением. Наши результаты указывают на возможность создания моделей, которые могут быть постоянно адаптированы в реальном времени, что значительно повышает их ценность в динамичных средах. #### Выводы Мы доказали, что наш метод оптимален для регулярного обновления нейронных сетей в реальных условиях. В будущем, мы планируем провести эксперименты на более сложных наборах данных и расширить исследования, чтобы понять, как этот подход может быть применен к более широким данным и наборам задач. Наш подход может стать кл

Annotation:

As deep neural networks are increasingly deployed in dynamic, real-world environments, relying on a single static model is often insufficient. Changes in input data distributions caused by sensor drift or lighting variations necessitate continual model adaptation. In this paper, we propose a hybrid training methodology that enables efficient on-device domain adaptation by combining the strengths of Backpropagation and Predictive Coding. The method begins with a deep neural network trained offlin...

ID: 2509.20269v2 cs.LG, cs.CV, cs.NE

arXiv PDF

📄 Latent Danger Zone: Distilling Unified Attention for Cross-Architecture Black-box Attacks

2025-09-25

Авторы:

Yang Li, Chenyu Wang, Tingrui Wang, Yongwei Wang, Haonan Li, Zhunga Liu, Quan Pan

#### Контекст Black-box adversarial attacks представляют собой важный вид атак на нейронные сети, где злоумышленник не имеет доступа к внутренним параметрам модели, но пытается порождать входные образы, которые приведут к ошибке работы сети. Эти атаки широко применяются в области безопасности и систем анализа уязвимостей. Однако существующие подходы сталкиваются с рядом проблем, включая зависимость от конкретных архитектур моделей, высокое число запросов для поиска успешных атак и ограниченную переносимость результатов между разными архитектурами. Мотивация для данного исследования заключается в развитии метода, который бы устранил эти ограничения, обеспечив эффективность, гибкость и универсальность в задаче black-box атак. #### Метод Методология, предлагаемая в работе, основана на использовании **latent diffusion model**, который использует квантованные представления изображений для порождения адверсарных примеров. Основной инновацией является использование **attention maps**, полученных с помощью дистилляции из двух моделей: сверточной нейронной сети (CNN) и Vision Transformer (ViT). Эти модели объединяются в **joint attention distillation** (JAD), который фокусируется на общих для обеих моделей чувствительных областях изображений. Эта стратегия позволяет генерировать адверсарные примераы, которые эффективно переносятся между различными архитектурами. Кроме того, модель работает в рамочной форме, что уменьшает число запросов и улучшает генерирование адверсарных примеров. #### Результаты Для оценки эффективности JAD проводились эксперименты на различных моделях, включая CNN и ViT. Использовались стандартные датасеты, такие как ImageNet. Результаты показали, что JAD достигает **высокой переносимости между архитектурами** и **низкого количества запросов** по сравнению с другими подходами. Анализ показал, что JAD создает адверсарные примераы, которые эффективно атакуют модели с различными архитектурами, включая CNN и Vision Transformer. Это демонстрирует универсальность метода и его высокую эффективность в сравнении с существующими подходами. #### Значимость Предложенный подход имеет значительное значение в области безопасности искусственного интеллекта. Он может применяться для **тестирования уязвимостей** нейронных сетей, **анализа безопасности** систем, **проверки защиты** моделей и **разработке новых методов защиты**. JAD предлагает **простоту и эффективность** в генерировании адверсарных примеров, что делает его привлекательным для практического применения. В будущем можно рассмотреть расширение JAD на другие типы моделей, такие как рекуррентные или графовые модели, а также его применение в других аспектах уг

Annotation:

Black-box adversarial attacks remain challenging due to limited access to model internals. Existing methods often depend on specific network architectures or require numerous queries, resulting in limited cross-architecture transferability and high query costs. To address these limitations, we propose JAD, a latent diffusion model framework for black-box adversarial attacks. JAD generates adversarial examples by leveraging a latent diffusion model guided by attention maps distilled from both a c...

ID: 2509.19044v1 cs.LG, cs.CV

arXiv PDF

📄 ViTCAE: ViT-based Class-conditioned Autoencoder

2025-09-24

Авторы:

Vahid Jebraeeli, Hamid Krim, Derya Cansever

## Контекст В исследованиях по визуальной обработке данных возникают проблемы с эффективным использованием глобальных компонент, таких как Class token в Vision Transformer (ViT). Он часто остается недостаточно эффективным в генерировании и оптимизации. Ограниченность статических механизмов внимания и неэффективный потребление ресурсов являются ключевыми проблемами. Мотивация заключается в развитии более эффективной системы генеративного анализа, которая могла бы объединить глобальные семантические свойства с локальными деталями с помощью усовершенствованных механизмов адаптивного внимания. ## Метод В рамках подхода ViTCAE (ViT-based Class-conditioned Autoencoder) Class token превращается в генерирующую сущность, управляющую представлением локальных патчей. Для этого Class token мапится на глобальные переменные, которые влияют на распределение локальных переменных. Основным инструментом является механизм адаптивного внимания, основанный на динамике токенов, вдохновленной теорией о динамике мнений. В этой модели каждый внимательный головной нерв (attention head) рассматривается как система с диагностическими условиями для оптимального взаимодействия. Температурный стабилизатор применяется для достижения говорительного равновесия между головами. Более того, развита техника принудительного отбора голов, которая удаляет неэффективные внимания в процессе обучения. ## Результаты Используемые данные включали в себя различные обучающие и тестовые наборы, где применялась архитектура ViTCAE. Эксперименты показали, что использование глобального представления Class token улучшает качество сгенерированных изображений. Особенно заметное улучшение было замечено в задачах свертки, где адаптивное внимание способствовало более точной оптимизации задач. Несколько метрик, такие как доля ошибок и FID (Frechet Inception Distance), были использованы для оценки качества. Эти метрики показали превосходство ViTCAE над существующими моделями. ## Значимость Предложенная модель имеет широкое применение в генеративных задачах, таких как детекция и классификация объектов, а также в задачах синтеза изображений. Внедрение адаптивного внимания и увеличение эффективности обучения делают ViTCAE привлекательным для реализации в реальных системах. Особенно стоит выделить преимущества в скорости и точности, а также возможность уменьшения расходов на вычисления благодаря удалению ненужных голов. ## Выводы Результаты ViTCAE показывают, что этот подход значительно улучшает качество генеративных моделей на основе ViT. Он обеспечивает более эффективное и гибкое использование глобальных семантических свойств. В дальнейших исследованиях

Annotation:

Vision Transformer (ViT) based autoencoders often underutilize the global Class token and employ static attention mechanisms, limiting both generative control and optimization efficiency. This paper introduces ViTCAE, a framework that addresses these issues by re-purposing the Class token into a generative linchpin. In our architecture, the encoder maps the Class token to a global latent variable that dictates the prior distribution for local, patch-level latent variables, establishing a robust ...

ID: 2509.16554v1 cs.LG, cs.CV

arXiv PDF

📄 SOLAR: Switchable Output Layer for Accuracy and Robustness in Once-for-All Training

2025-09-24

Авторы:

Shaharyar Ahmed Khan Tareen, Lei Fan, Xiaojing Yuan, Qin Lin, Bin Hu

#### Контекст В последние годы появились многослойные нейронные сети, которые позволяют использовать одну и ту же архитектуру для разных задач и устройств. Этот подход, известный как Once-for-All (OFA), позволяет обучить сеть один раз (once-for-all) и сгенерировать из нее много подсетей (sub-nets), каждая из которых может быть адаптирована под конкретные потребности, например, разные экспериментальные устройства или задачи. Однако, столкнувшись с дополнительными ограничениями, такими как ограничение ресурсов (например, память и вычислительные мощности) на определенных устройствах, надо было придумать способ, который позволил бы очень просто модифицировать сеть для лучшей производительности. Это стало одним из основных мотивов для разработки нового подхода SOLAR. #### Метод SOLAR (Switchable Output Layer for Accuracy and Robustness in Once-for-All Training) — это новая методика, которая предлагает решение для улучшения качества подсетей в обучении Once-for-All (OFA). Основная идея заключается в том, чтобы каждой подсети присвоить свой собственный классификационный слой (output layer). Это позволяет выделить каждую подсеть свойственные ей характеристики, не влияя на процесс обучения общего сетевого каркаса (backbone). Эта техника позволяет увеличить точность (accuracy) и устойчивость (robustness) подсетей, особенно в тех случаях, когда сеть должна приспособиться к различным условиям работы, без изменения общей структуры сети. #### Результаты Опытные исследования были проведены на пяти различных датасетах: SVHN, CIFAR-10, STL-10, CIFAR-100 и TinyImageNet. Были использованы четыре различных архитектуры сетей: ResNet-34, WideResNet-16-8, WideResNet-40-2 и MobileNetV2. Также, были использованы два разных подхода OFA: OATS и SNNs. Результаты показали, что SOLAR выдает значительно лучшие результаты в сравнении с базовыми методами: увеличение точности до 1.26%, 4.71%, 1.67% и 1.76% на SVHN, CIFAR-10, STL-10 и CIFAR-100 соответственно, и увеличение устойчивости до 9.01%, 7.71%, 2.72% и 1.26% по соответствующим датасетам. Сравнительные тесты с другим подходом SNNs показали улучшения точности на 2.93%, 2.34% и 1.35% при использовании архитектур ResNet-34, WideResNet-16-8 и MobileNetV2, соответственно. #### Значимость SOLAR может быть применено в различных сценариях, где необходимы сети, достаточно простые и эффективные для различных деплойментных сценариев. Это может включать в себя мобильные приложения, устройства с ограниченными ресурсами и задачи с требованиями к высокой точности и устойчивости. Основные преимущества SOLAR заключаются в том, что он улучшает качество результатов без изменения основной архитектуры сети, что де

Annotation:

Once-for-All (OFA) training enables a single super-net to generate multiple sub-nets tailored to diverse deployment scenarios, supporting flexible trade-offs among accuracy, robustness, and model-size without retraining. However, as the number of supported sub-nets increases, excessive parameter sharing in the backbone limits representational capacity, leading to degraded calibration and reduced overall performance. To address this, we propose SOLAR (Switchable Output Layer for Accuracy and Robu...

ID: 2509.16833v1 cs.LG, cs.CV

arXiv PDF

📄 Towards Interpretable and Efficient Attention: Compressing All by Contracting a Few

2025-09-24

Авторы:

Qishuai Wen, Zhiyuan Huang, Chun-Guang Li

#### Контекст Transformer-based модели, особенно в сфере глубокого обучения, стали одним из наиболее эффективных инструментов для представления и обработки данных. Одна из ключевых компонент, обеспечивающих этот успех, является модель автопрогноза (self-attention), которая позволяет моделям сфокусироваться на самых важных частях входных данных. Однако, существуют две основные проблемы, связанные с такими моделями: необходимость в повышении прозрачности и эффективности. Современные методы атанданса часто являются непрозрачными, что затрудняет их использование в задачах, требующих понимания решений, и высокосложностными, что ограничивает применение моделей в реальном времени. Эти проблемы стимулируют развитие методов, способных объединить прозрачность и эффективность в одном решении. #### Метод Мы предлагаем Contract-and-Broadcast Self-Attention (CBSA), новую атанданс-методику, которая решает проблему непрозрачности и сложности, связанной с моделями атанданса. CBSA работает путем "сжатия" всех токенов во входных данных до низкоразмерных представлений (contracting), используя лишь несколько представительных токенов. Затем эти сжатые представления "обращаются" обратно в выходное представление (broadcasting). Этот подход гарантирует линейную сложность, что позволяет модели обрабатывать большие объемы данных быстрее и эффективнее. Таким образом, CBSA объединяет прозрачность и эффективность, которыми обычно страдают разные методы. #### Результаты Мы провели эксперименты на нескольких задачах, включая обработку естественных языков и изображений, используя наши модели CBSA. Результаты показали, что CBSA совместима с традиционными моделями в терминах точности, при этом существенно улучшая их скорость и сжимая модели. Кроме того, мы выявили, что CBSA достигает этих результатов благодаря уникальной архитектуре, которая не требует дополнительных ресурсов, чем стандартные модели. Эти результаты указывают на потенциал CBSA в различных задачах, где требуется быстрый и прозрачный анализ данных. #### Значимость Наш подход значительно расширяет возможности использования атанданс-методов в сценариях, где участвуют большие объемы данных. Для примера, в области глубокого обучения и мобильных приложений, где необходимы высокая скорость и низкий расход памяти, CBSA может стать ключевым решением. Эта новая атанданс-методика также открывает пути для дальнейшего изучения того, как модели могут быть как прозрачными, так и эффективными. #### Выводы Мы представили CBSA — новую методику, которая успешно решает проблемы непрозрачности и сложности моделей атанданса. Наши эксперименты показали, что CBSA

Annotation:

Attention mechanisms in Transformers have gained significant empirical success. Nonetheless, the optimization objectives underlying their forward pass are still unclear. Additionally, the quadratic complexity of self-attention is increasingly prohibitive. Unlike the prior work on addressing the interpretability or efficiency issue separately, we propose a unified optimization objective to alleviate both issues simultaneously. By unrolling the optimization over the objective, we derive an inheren...

ID: 2509.16875v2 cs.LG, cs.CV

arXiv PDF

📄 Long-Tailed Out-of-Distribution Detection with Refined Separate Class Learning

2025-09-24

Авторы:

Shuai Feng, Yuxin Ge, Yuntao Du, Mingcai Chen, Lei Feng

## Контекст Out-of-distribution (OOD) detection является ключевым аспектом для создания надежных и безопасных машинных обучения систем. Она позволяет моделям определять семплы, которые не принадлежат распределению обучающих данных. Однако, при использовании данных с длинным хвостом (long-tailed distribution), модели часто смутятся между OOD-семплами и классами-главами (head classes) или хвостовыми классами (tail classes). Это приводит к ухудшению показателей OOD-детекции. Для решения этой проблемы, появился подход "отдельного обучения классов" (Separate Class Learning, SCL), который разделяет обучение для классов-глав и хвостовых классов. Несмотря на его прогресс, существуют лимиты: использование статического параметра температуры и неэффективность в обработке неинформативных выбросов. Эти ограничения ставили перед сообществом задачу повышения эффективности OOD-детекции в условиях длинного хвоста. ## Метод Мы предлагаем Refined Separate Class Learning (RSCL) — усовершенствованный подход к SCL, который адаптирует термодинамические параметры для каждого класса индивидуально. Это позволяет добиться более точного разделения OOD-семплов от классов-глав и хвостовых классов. Для того, чтобы эффективнее выделять OOD-семплы, мы вводим "информативные выбросы" — метод идентификации OOD-семплов, основанный на измерении их схожести с классами-глав и хвостовыми классами. Этот подход добавляет подробности в распределение OOD-семплов и улучшает обнаружение OOD-семплов из разных классовых структур. ## Результаты Мы провели ряд экспериментов на стандартных OOD-данных и данных с длинным хвостом, включая CIFAR-10-C, CIFAR-100-C и ImageNet-O. RSCL показал значительное улучшение в OOD-детекции по сравнению с эталонными методами SCL. Мы также проанализировали влияние динамического термодинамического регулирования и майнинга информативных выбросов на качество модели. Результаты показали, что RSCL значительно улучшает точность OOD-детекции без существенного ухудшения точности классификации OOD-семплов. ## Значимость Наш подход имеет широкие области применения, например, в системах мониторинга для предвидения нестандартных событий, в системах безопасности для идентификации необычных действий и в области медицины для обнаружения аномалий в данных. RSCL предоставляет более точную детекцию OOD-семплов, что повышает надежность моделей в условиях длинного хвоста. Это открывает путь к более эффективным и надежным системам обнаружения нестандартных ситуаций в реальном времени. ## Выводы RSCL становится новым стандартом для OOD-детекции в условиях длинного хвоста. Мы показали, что динамическая адапта

Annotation:

Out-of-distribution (OOD) detection is crucial for deploying robust machine learning models. However, when training data follows a long-tailed distribution, the model's ability to accurately detect OOD samples is significantly compromised, due to the confusion between OOD samples and head/tail classes. To distinguish OOD samples from both head and tail classes, the separate class learning (SCL) approach has emerged as a promising solution, which separately conduct head-specific and tail-specific...

ID: 2509.17034v1 cs.LG, cs.CV

arXiv PDF

📄 Learning Neural Antiderivatives

2025-09-24

Авторы:

Fizza Rubab, Ntumba Elie Nsampi, Martin Balint, Felix Mujkanovic, Hans-Peter Seidel, Tobias Ritschel, Thomas Leimkühler

## Контекст Область исследования заключается в развитии нейронных полей (neural fields) — динамичных, непрерывных представлений, которые превышают традиционные дискретные форматы в области визуальных вычислений. Одной из проблем в этой области является необходимость нейронных представлений для непрерывных локальных операций, таких как повторная интеграция, которые широко используются в дискретных системах, например, в summed-area tables. Изучение непрерывных нейронных представлений позволяет расширить возможности текущих нейронных систем, однако традиционные методы, основанные на решетчатых структурах, не могут быть прямо применены в контексте нейронных полей. Этот аспект подчеркивает важность разработки новых методик для успешного внедрения таких подходов в современные нейронные системы. ## Метод Для адресации проблемы повторной интеграции в нейронных полях, авторы предлагают многочисленные технические подходы, включающие обучение нейронных сетей для вывода непрерывных антидеривативов. Методология основывается на нейронных полях, которые позволяют выражать непрерывные функции и их повторные интеграли. Набор алгоритмов включает в себя адаптации предыдущих работ, а также совершенно новые методики. Эта систематическая интерпретация различных подходов позволяет рассмотреть их преимущества и ограничения в условиях непрерывных объектов. Архитектура основывается на нейронных сетях, которые изучают непрерывные пространства и выполняют сложные интегральные операции, предоставляя динамические представления в нейронных системах. ## Результаты Эксперименты проводились на различных типах входных данных, включая функции с различными мерными пространствами и различными порядками интегрирования. Измерены были качество реконструкции непрерывных функций, эффективность в проведении непрерывных интегральных операций, таких как фильтрация и рендеринг, а также производительность алгоритмов на разных интегральных задачах. Результаты показали высокую точность в реконструкции данных и эффективность в решении непрерывных задач, что демонстрирует практическую значимость предлагаемых методов. Также были проверены различные адаптации и новые подходы, чтобы определить наилучшие решения для условий непрерывных операций. ## Значимость Предлагаемые методы могут быть применены в различных нейронных системах, которые включают непрерывные операции визуальных вычислений, такие как фильтрация, визуальные оценки и визуализация. Основное преимущество заключается в переходе от дискретных методов к непрерывным нейронным полям, что позволяет увеличить област

Annotation:

Neural fields offer continuous, learnable representations that extend beyond traditional discrete formats in visual computing. We study the problem of learning neural representations of repeated antiderivatives directly from a function, a continuous analogue of summed-area tables. Although widely used in discrete domains, such cumulative schemes rely on grids, which prevents their applicability in continuous neural contexts. We introduce and analyze a range of neural methods for repeated integra...

ID: 2509.17755v1 cs.LG, cs.CV, cs.GR

arXiv PDF

📄 Kuramoto Orientation Diffusion Models

2025-09-23

Авторы:

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling

## Контекст Ориентация-богатые изображения, такие как отпечатки пальцев и текстуры, часто показывают выраженные паттерны направления, которые трудно моделировать с помощью стандартных генерирующих подходов, основанных на изотропных Евклидовых процессах диффузии. Мотивация для данного исследования лежит в интересных свойствах синхронизации в биологических системах, где Kuramoto-модели используются для описания синхронизации фаз нейронов или взаимодействия циркуляции крови. Мы предлагаем модель, основанную на Kuramoto-диффузии, для генерирования структурированных изображений, которая использует эти динамики для повышения структуры в процессе генерирования. ## Метод Мы предложили "Kuramoto Orientation Diffusion Models", основанную на стандартном шаге генерирующей модели с основанной на скор-функции, но с использованием новых динамических Kuramoto-синхронизации в качестве предварительного шага. Это дает нам возможность определить обратный процесс, работающий на совместных точках с передаточными функциями, подходящими для круговой геометрии изображений. Диффузия выполняет синхронизацию по фазам с использованием полиномиальной синхронности на основе скорейшей куртозности. Мы также разрабатывали специальные сети, которые учитывают циклическую геометрию изображений. Предлагаемая модель позволяет генерировать новые изображения с высоким уровнем структуры и детализации. ## Результаты Мы проверили модель на стандартных наборах данных изображений, а также на наборах, ориентированных на ориентацию, таких как отпечатки пальцев и текстуры. Результаты показали, что наши модели могут генерировать изображения с высоким уровнем детализации, и показали значительные повышения в качестве генерирования на ориентационно-богатых наборах данных. Мы также проверили, что наш подход работает эффективно в ситуациях, где существуют большие суммарные и синхронные динамики, которые трудно моделировать стандартными методами. ## Значимость Метод может использоваться в множестве применений, таких как поиск и создание новых текстур, моделирование естественных циклических динамик, и даже в системах по распознаванию отпечатков пальцев. Мы также доказали, что наш подход может решать проблемы с синхронизацией в генерировании изображений, которые нельзя решить стандартными подходами. В будущем мы планируем расширить модель, чтобы она могла синтезировать не только изображения, но и видео, используя аналогичные синхронизационные паттерны. ## Выводы Мы доказали, что новый подход, основанный на синхронизационных динамиках Kuramoto, может значительно повысить

Annotation:

Orientation-rich images, such as fingerprints and textures, often exhibit coherent angular directional patterns that are challenging to model using standard generative approaches based on isotropic Euclidean diffusion. Motivated by the role of phase synchronization in biological systems, we propose a score-based generative model built on periodic domains by leveraging stochastic Kuramoto dynamics in the diffusion process. In neural and physical systems, Kuramoto models capture synchronization ph...

ID: 2509.15328v1 cs.LG, cs.CV, q-bio.NC

arXiv PDF

📄 Global Pre-fixing, Local Adjusting: A Simple yet Effective Contrastive Strategy for Continual Learning

2025-09-23

Авторы:

Jia Tang, Xinrui Wang, Songcan Chen

#### Контекст Continual learning (CL) является ключевым заданием в машинном обучении, нацеленным на уменьшение проблемы катастрофического забывания. Эта проблема возникает при обучении модели на ряде задач, когда она забывает ранее полученные знания. Одним из перспективных подходов в CL является использование contrastive loss для создания более трансферабельных и менее забывающихся представлений. Однако, существующие методы сталкиваются с проблемами разделения интер-задачных и интра-задачных признаков, что приводит к повышенной степени забывания и неточности. Данная статья предлагает новую стратегию, которая адресует эти проблемы, обеспечивая более точное разделение и трансформацию представлений. #### Метод Метод \textbf{G}lobal \textbf{P}re-fixing, \textbf{L}ocal \textbf{A}djusting for \textbf{S}upervised \textbf{C}ontrastive learning (GPLASC) основывается на двух основных компонентах: **глобальном префиксинге** и **локальной регулировке**. Глобальный префиксинг разбивает пространство представлений на непересекающиеся области, каждая из которых сформирована по точечной схеме, образующей **E**quiangular **T**ight **F**rame (ETF). Эти области делятся между задачами, чтобы избежать интер-задачной путаницы. Локальная регулировка, в свою очередь, регулирует внутризадачные признаки, образуя индивидуальные локальные ETF-фреймы в рамках предварительно определенной области. Таким образом, GPLASC обеспечивает возможность разделять и отличать признаки как между задачами, так и внутри задач. Этот подход легко интегрируется с существующими CL-фреймворками. #### Результаты Чтобы проверить эффективность GPLASC, проводились ряд экспериментов на широко известных базах данных для CL, включая Split-CIFAR-100 и Split-MiniImagenet. Мы сравнивали нашу стратегию с несколькими современными методами CL, включая подходы, основанные на contrastive loss. Результаты показали, что GPLASC превосходит другие методы в терминах метрик качества, таких как average accuracy и forgetting rate. Эти результаты доказывают, что наш подход эффективно решает проблему забывания и сохраняет высокую точность в CL-задачах. #### Значимость Предложенная стратегия GPLASC может быть применена в различных CL-ситуациях, включая образовательные системы, робототехнику и анализ данных в реальном времени. Основные преимущества заключаются в высокой точности, уменьшении забывания и уменьшении конфузионирования между задачами. Будущие исследования будут сосредоточены на улучшении адаптации GPLASC к более сложным задачам и его интеграции с другими CL-методами. #### Выводы В этой работе мы предложили новую стратегию GPLASC для решения проблемы забывания в CL. Мы демонстрируем, что наш подход эффектив

Annotation:

Continual learning (CL) involves acquiring and accumulating knowledge from evolving tasks while alleviating catastrophic forgetting. Recently, leveraging contrastive loss to construct more transferable and less forgetful representations has been a promising direction in CL. Despite advancements, their performance is still limited due to confusion arising from both inter-task and intra-task features. To address the problem, we propose a simple yet effective contrastive strategy named \textbf{G}lo...

ID: 2509.15347v1 cs.LG, cs.CV

arXiv PDF

1
2
17
18
19
20
21
27
28

Показано 181 - 190 из 277 записей