📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Semantic Editing with Coupled Stochastic Differential Equations

2025-10-01

Авторы:

Jianxin Zhang, Clayton Scott

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Editing the content of an image with a pretrained text-to-image model remains challenging. Existing methods often distort fine details or introduce unintended artifacts. We propose using coupled stochastic differential equations (coupled SDEs) to guide the sampling process of any pre-trained generative model that can be sampled by solving an SDE, including diffusion and rectified flow models. By driving both the source image and the edited image with the same correlated noise, our approach steer...

ID: 2509.24223v1 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers

2025-10-01

Авторы:

Xianhang Li, Chen Huang, Chun-Liang Li, Eran Malach, Josh Susskind, Vimal Thilak, Etai Littwin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Video Joint Embedding Predictive Architectures (V-JEPA) learn generalizable off-the-shelf video representation by predicting masked regions in latent space with an exponential moving average (EMA)-updated teacher. While EMA prevents representation collapse, it complicates scalable model selection and couples teacher and student architectures. We revisit masked-latent prediction and show that a frozen teacher suffices. Concretely, we (i) train a target encoder with a simple pixel-reconstruction o...

ID: 2509.24317v1 cs.LG, cs.CV

arXiv PDF

📄 SAIP: A Plug-and-Play Scale-adaptive Module in Diffusion-based Inverse Problems

2025-10-01

Авторы:

Lingyu Wang, Xiangming Meng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Solving inverse problems with diffusion models has shown promise in tasks such as image restoration. A common approach is to formulate the problem in a Bayesian framework and sample from the posterior by combining the prior score with the likelihood score. Since the likelihood term is often intractable, estimators like DPS, DMPS, and $\pi$GDM are widely adopted. However, these methods rely on a fixed, manually tuned scale to balance prior and likelihood contributions. Such a static design is sub...

ID: 2509.24580v1 cs.LG, cs.CV

arXiv PDF

📄 Score-based Membership Inference on Diffusion Models

2025-10-01

Авторы:

Mingxing Rao, Bowen Qu, Daniel Moyer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Membership inference attacks (MIAs) against diffusion models have emerged as a pressing privacy concern, as these models may inadvertently reveal whether a given sample was part of their training set. We present a theoretical and empirical study of score-based MIAs, focusing on the predicted noise vectors that diffusion models learn to approximate. We show that the expected denoiser output points toward a kernel-weighted local mean of nearby training samples, such that its norm encodes proximity...

ID: 2509.25003v1 cs.LG, cs.CV

arXiv PDF

📄 Uncertainty-Aware Deep Learning for Wildfire Danger Forecasting

2025-10-01

Авторы:

Spyros Kondylatos, Gustau Camps-Valls, Ioannis Papoutsis

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Wildfires are among the most severe natural hazards, posing a significant threat to both humans and natural ecosystems. The growing risk of wildfires increases the demand for forecasting models that are not only accurate but also reliable. Deep Learning (DL) has shown promise in predicting wildfire danger; however, its adoption is hindered by concerns over the reliability of its predictions, some of which stem from the lack of uncertainty quantification. To address this challenge, we present an ...

ID: 2509.25017v1 cs.LG, cs.CV

arXiv PDF

📄 VISION: Prompting Ocean Vertical Velocity Reconstruction from Incomplete Observations

2025-09-30

Авторы:

Yuan Gao, Hao Wu, Qingsong Wen, Kun Wang, Xian Wu, Xiaomeng Huang

## Контекст Обратная задача построения подводных динамических полей, таких как вертикальный ветер, из неполных наблюдений на поверхности океана, широко распространена в области океанологии и геофизики. Однако эта задача сталкивается с рядом сложностей, включая недостаточность высококачественных данных, проблемы в единообразии и отсутствие стандартизированных бенчмарков. Эти проблемы затрудняют развитие инструментов для моделирования и прогнозирования океанических динамических процессов. Наша мотивация заключается в разработке системы, которая способна эффективно реконструировать подводные динамические поля даже при недостаточном количестве наблюдений, с учетом высокой точности и общей области применения. ## Метод Мы предлагаем **VISION**, новую парадигму реконструкции, основанную на **Dynamic Prompting**, которая адаптивно обрабатывает недостаточные наблюдения. Наше решение включает в себя два ключевых модуля: **Dynamic Prompt Generator** и **State-conditioned Prompting Module**. **Dynamic Prompt Generator** строит на-лету визуальные признаки, которые рефлектруют как наличие данных, так и физическое состояние океана. **State-conditioned Prompting Module**, в свою очередь, инжектирует эти признаки в универсальный бэкбоне с геометрическими и масштабными операторами. Эта модулярная архитектура позволяет VISION адаптироваться к различным комбинациям данных и выполнять высокоточную реконструкцию даже в условиях абсолютного отсутствия данных. ## Результаты Мы проверяем VISION на бенчмарке **KD48** — наборе данных с высокой разрешностью, полученным из петаскалевых симуляций и тщательно подготовленным экспертной группой. Наши результаты показывают, что VISION не только превосходит существующие модели, но и показывает высокую устойчивость в ситуациях с исключительно неполными наблюдениями. Мы также проводим анализ точности и скорости вывода, подтверждая адекватность VISION для реальных сценариев применения в океанологии. ## Значимость VISION широко применима в области океанологии, где требуется реконструировать подводные процессы на основе недостаточного набора данных. Она демонстрирует значительные преимущества по сравнению с другими моделями в том числе в ситуациях с высокой неопределенностью данных. Наш подход может повысить точность моделирования и прогнозирования океанических динамических полей, что имеет большое значение для прогноза климата, мониторинга океанических процессов и развития энергоэффективных моделей морских течений. ## Выводы Мы представляем VISION — новую модель для реконструкции подводных динамических полей, которая эффективно решает проблему неполных наблюдений с помощью подхода Dynamic Prompting. Наши результаты показывают, что

Annotation:

Reconstructing subsurface ocean dynamics, such as vertical velocity fields, from incomplete surface observations poses a critical challenge in Earth science, a field long hampered by the lack of standardized, analysis-ready benchmarks. To systematically address this issue and catalyze research, we first build and release KD48, a high-resolution ocean dynamics benchmark derived from petascale simulations and curated with expert-driven denoising. Building on this benchmark, we introduce VISION, a ...

ID: 2509.21477v1 cs.LG, cs.CV, physics.ao-ph

arXiv PDF

📄 SlimDiff: Training-Free, Activation-Guided Hands-free Slimming of Diffusion Models

2025-09-30

Авторы:

Arani Roy, Shristi Das Biswas, Kaushik Roy

#### Контекст Diffusion models (DMs) являются одним из самых продвинутых инструментов для генерирования качественных данных, особенно в области изображений и текстов. Однако, они ограничены высоким потреблением ресурсов, связанным с огромным числом параметров и сложной итеративной структурой. Это приводит к значительной вычислительной нагрузке, что делает их менее эффективными в реальном времени. Известные методы, такие как quantization, pruning или timestep reduction, требуют сложных процессов fine-tuning или retraining, что приводит к убыткам в качестве генерации и добавляет дополнительные затраты. В данной работе мы предлагаем SlimDiff, уникальную автоматизированную систему, которая сокращает размерность активаций и входов в DMs без использования никаких градиентных методов. #### Метод SlimDiff основывается на активационно-информированной спектральной аппроксимации. Он использует ковариации активаций во время последовательных шагов denoising для определения low-rank subspaces. Это позволяет динамически уменьшить размерность в модулях, таких как query-key, value-output и feedforward, без переобучения. Особенность SlimDiff заключается в том, что он применяет module-wise decompositions, чтобы учитывать неоднородную геометрию diffusion trajectories. Это позволяет адаптивно распределять sparsity по модулям без ухудшения качества. Метод включает эффективное управление распределением ресурсов, полностью основанное на активациях, без необходимости в backpropagation. #### Результаты Мы проверили SlimDiff на нескольких задачах, включая задачи image generation с популярными DMs. При этом SlimDiff позволил достичь значительных экономий в ресурсах: до 35% ускорения и снижения до $\sim$100M параметров, при этом сохраняя качество генерации на уровне uncompressed models. Эксперименты показали, что SlimDiff требует всего 500 калибровочных сэмплов, что значительно меньше, чем у аналогов (примерно 70$\times$ меньше). Метод демонстрирует высокую эффективность и теоретическую ясность, предоставляя практический и простой способ сжатия DMs. #### Значимость SlimDiff может быть применен в тех разделах, где необходима уменьшенная модель, но при этом необходимо сохранить качество генерации. Это включает в себя работы на устройствах с ограниченными ресурсами, таких как мобильные телефоны и IoT-устройства. Этот подход также имеет преимущества из-за того, что он не требует retraining или fine-tuning, чтобы поддерживать качество. Будущие исследования могут сфокусироваться на расширении SlimDiff для других типов моделей и его интеграции с другими методами сжатия, чтобы достичь еще более высокого эффекта. #### Выводы SlimDiff представляет собой первый closed-form, activation-guided подход к сжатию DMs без необходимости в градиентных методах. Он позво

Annotation:

Diffusion models (DMs), lauded for their generative performance, are computationally prohibitive due to their billion-scale parameters and iterative denoising dynamics. Existing efficiency techniques, such as quantization, timestep reduction, or pruning, offer savings in compute, memory, or runtime but are strictly bottlenecked by reliance on fine-tuning or retraining to recover performance. In this work, we introduce SlimDiff, an automated activation-informed structural compression framework th...

ID: 2509.21498v1 cs.LG, cs.CV

arXiv PDF

📄 TRiCo: Triadic Game-Theoretic Co-Training for Robust Semi-Supervised Learning

2025-09-30

Авторы:

Hongyang He, Xinyuan Song, Yangfan He, Zeyu Zhang, Yanshu Li, Haochen You, Lifan Sun, Wenqiao Zhang

#### Контекст Semi-supervised learning (SSL), широко используемый в машинном обучении, стремится обучать модели с помощью ограниченного набора меток. Однако существующие подходы часто сталкиваются с проблемами, такими как статичность взаимодействия представителей, неустойчивость выбора псевдометок и неэффективное обработка трудных образцов. Эти недостатки приводят к ограниченной гибкости и недостаточной надежности в решении задач. TRiCo (Triadic Game-Theoretic Co-Training) предлагает новый подход, основываясь на играх теории и мета-обучении, чтобы улучшить обработку данных в SSL. #### Метод TRiCo представляет собой трехуровневую архитектуру, включающую два студента-классификатора, мета-обученного теха, а также непараметрический генератор. Основной идеей является формализация SSL в виде трейдической игры, где студенты обучаются на основе замороженных, комплементарных представлений, а теха регулирует выбор псевдометок и баланс потерь с использованием валидационной обратной связи. Для того чтобы обнаруживать слабые места в решении, генератор рассматривает эмбеддинги и имитирует атаки на модель. Этот подход формализуется как игра Stackelberg, где теха выступает в роли лидера, оптимизирующего стратегию, а студенты — в роли последователей, реагирующих на противостояние в условиях адверсарных вмешательств. #### Результаты Эксперименты проводились на таких наборах данных, как CIFAR-10, SVHN, STL-10 и ImageNet. Результаты показали, что TRiCo постоянно достигает лучших результатов в условиях небольших объемов меток. Также было продемонстрировано, что TRiCo не зависит от архитектур, легко адаптируется к различным моделям, в том числе и визуальным бэкбокам, и имеет высокую универсальность. #### Значимость TRiCo может применяться в таких областях, как диагностика и мониторинг, где доступ к меток ограничен, но необходимость в точности высока. Он превосходит существующие подходы, обеспечивая более надежную обработку трудных случаев и меньшую чувствительность к выбору параметров. Благодаря своему адаптивному подходу и поддержке архитектур моделей, TRiCo может стать ключевым инструментом в развитии технологий машинного обучения. #### Выводы TRiCo представляет собой перспективный подход, который избавляет SSL от ограничений статичности и неуверенности в псевдометках, а также эффективно обрабатывает трудные образцы. Дальнейшие исследования будут уделять внимание улучшению непараметрического генератора и расширению применения TRiCo в других областях, таких как дорожный трафик и мониторинг.

Annotation:

We introduce TRiCo, a novel triadic game-theoretic co-training framework that rethinks the structure of semi-supervised learning by incorporating a teacher, two students, and an adversarial generator into a unified training paradigm. Unlike existing co-training or teacher-student approaches, TRiCo formulates SSL as a structured interaction among three roles: (i) two student classifiers trained on frozen, complementary representations, (ii) a meta-learned teacher that adaptively regulates pseudo-...

ID: 2509.21526v1 cs.LG, cs.CV

arXiv PDF

📄 Closing the Oracle Gap: Increment Vector Transformation for Class Incremental Learning

2025-09-30

Авторы:

Zihuan Qiu, Yi Xu, Fanman Meng, Runtong Zhang, Linfeng Xu, Qingbo Wu, Hongliang Li

## Контекст Class Incremental Learning (CIL) — это задача, предполагающая последовательное получение знаний о новых классах без утраты знаний о старых. Однако несмотря на некоторый прогресс в этой области, существующие методы CIL всё ещё страдают от существенных проблем. В частности, они значительно уступают в производительности своим аналогам, обученным на всей исторической выборке (oracle). Эта проблема, называемая "Oracle Gap", обуславливает значительные проблемы в практическом применении CIL. Исследователи акцентируют внимание на законах геометрии решений oracle, отмечая, что они обычно сохраняют низкопотеривые линейные связи с оптималом предыдущих задач. Это открытие стало мотивацией для разработки нового подхода, который способен улучшить производительность CIL и снизить ущерб от catastrophic forgetting. ## Метод Заложенная в основу Increment Vector Transformation (IVT) фреймворк предложен как новая, мощная подходка к решению проблемы Oracle Gap. Основная идея заключается в периодическом переносе модели в новые решения, сохраняющие линейную связь с оптималом предыдущих задач. Эта техника достигается с помощью оптимизации диагональных матриц Фишера. Это позволяет IVT эффективно решать задачу CIL в обоих сценариях: с использованием или без использования примеров (exemplar-free или exemplar-based). Кроме того, IVT легко адаптируется к различным стратегиям инициализации модели. Эта формальная модель даёт возможность значительно уменьшить ущерб от catastrophic forgetting и сохранить высокую точность на предыдущих классах. ## Результаты Опытные исследования были проведены на таких датасетах, как CIFAR-100, FGVCAircraft, ImageNet-Subset и ImageNet-Full. Использовались сильные базисные методы CIL для сравнения. Итоговые результаты показали, что IVT эффективно улучшает последней точности на CIFAR-100 (+5.12%) и снижает ущерб от catastrophic forgetting (+2.54%). На FGVCAircraft, используя CLIP-pre-trained SLCA baseline, IVT демонстрирует подвиги +14.93% в средней точности и +21.95% в последней точности. Эти результаты подтверждают эффективность IVT в решении проблемы Oracle Gap, что делает его важной добавкой к инструментарию CIL. ## Значимость Разработанный подход может быть применён в различных областях, где необходимо постоянно обновлять модели без потери эффективности на старых данных. Особый потенциал IVT проявляется в сценариях, где используются модели с предварительной фазой обучения (pre-training). Изучение геометрических свойств решений oracle позволяет IVT значительно повысить стабильность модели и снизить ущерб от ошибок, связанных с forgetting. Это делает метод привлекательным для реализации в практических проектах, где требуется высокая точность и долгосрочна

Annotation:

Class Incremental Learning (CIL) aims to sequentially acquire knowledge of new classes without forgetting previously learned ones. Despite recent progress, current CIL methods still exhibit significant performance gaps compared to their oracle counterparts-models trained with full access to historical data. Inspired by recent insights on Linear Mode Connectivity (LMC), we revisit the geometric properties of oracle solutions in CIL and uncover a fundamental observation: these oracle solutions typ...

ID: 2509.21898v1 cs.LG, cs.CV

arXiv PDF

📄 Enriching Knowledge Distillation with Intra-Class Contrastive Learning

2025-09-30

Авторы:

Hua Yuan, Ning Xu, Xin Geng, Yong Rui

## Контекст В области машинного обучения, техника знаний преподавания (knowledge distillation) позволяет студентским моделям улучшить свои результаты, используя дополнительные знания, полученные от более мощных преподавательских моделей. Однако существующие методы, целью которых является эффективное использование слабых сигналов в soft labels, недостаточно учитывают внутреннюю структуру классов. Внутри каждого класса существуют различные представления объектов, которые могут улучшить общую обучаемость студентской модели. Недостаток в учете этих внутренних разнообразий приводит к ограниченности в обучении моделей. Мотивируясь этим, предлагается методология, включающая intra-class contrastive loss в процесс обучения преподавательских моделей, чтобы усилить внутренние представления классов в soft labels. ## Метод Метод предлагаемой методологии состоит в введении intra-class contrastive loss во время обучения преподавательской модели. Этот подход нацелен на улучшение внутреннего разнообразия представлений внутри каждого класса. Однако в ходе экспериментов обнаружилось, что этот подход может привести к нестабильности в процессе обучения и замедлению конвергенции. Чтобы устранить эти проблемы, была внедрена margin loss, которая позволяет стабилизировать обучение и ускорить конвергенцию. Теоретическая обоснование проводилось для изучения влияния этого подхода на расстояния между представлениями внутри класса и между классами. Это подтвердило, что intra-class contrastive loss позволяет улучшить внутреннюю разнообразность представлений. ## Результаты Для проверки эффективности предложенного подхода проведены эксперименты с использованием нескольких датасетов и моделей. Результаты показали, что включение intra-class contrastive loss приводит к улучшению точности и общей обучаемости студентских моделей. Эти результаты были сравнены с традиционными методами, и показано, что новый подход дает более высокие результаты, особенно в ситуациях с ограниченным объемом обучающих данных. Это указывает на то, что включение intra-class contrastive loss в процесс дистилляции значительно улучшает общую эффективность модели. ## Значимость Предлагаемый подход может быть применен в различных областях, где необходимо улучшить точность моделей нейронных сетей, включая обработку естественных языков, распознавание изображений и анализ видео. Одним из основных преимуществ является улучшение внутренней разнообразности классов, что приводит к более гибким и точным моделям. Это также может привести к повышению эффективности обучения, особенно при ограниченных ресурсах. Будущие исследования могут направляться на расширение этого подхода на более сложные структ

Annotation:

Since the advent of knowledge distillation, much research has focused on how the soft labels generated by the teacher model can be utilized effectively. Existing studies points out that the implicit knowledge within soft labels originates from the multi-view structure present in the data. Feature variations within samples of the same class allow the student model to generalize better by learning diverse representations. However, in existing distillation methods, teacher models predominantly adhe...

ID: 2509.22053v1 cs.LG, cs.CV

arXiv PDF

Показано 161 - 170 из 277 записей