📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Sampling Control for Imbalanced Calibration in Semi-Supervised Learning

2025-11-26

Авторы:

Senmao Tian, Xiang Wei, Shunli Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Class imbalance remains a critical challenge in semi-supervised learning (SSL), especially when distributional mismatches between labeled and unlabeled data lead to biased classification. Although existing methods address this issue by adjusting logits based on the estimated class distribution of unlabeled data, they often handle model imbalance in a coarse-grained manner, conflating data imbalance with bias arising from varying class-specific learning difficulties. To address this issue, we pro...

ID: 2511.18773v1 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space

2025-11-26

Авторы:

Shivam Pal, Sakshi Varshney, Piyush Rai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Deep neural networks are prone to learning shortcuts, spurious and easily learned correlations in training data that cause severe failures in out-of-distribution (OOD) generalization. A dominant line of work seeks robustness by learning a robust representation, often explicitly partitioning the latent space into core and spurious components; this approach can be complex, brittle, and difficult to scale. We take a different approach, instead of a robust representation, we learn a robust function....

ID: 2511.19525v1 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 Self-Supervised Learning by Curvature Alignment

2025-11-25

Авторы:

Benyamin Ghojogh, M. Hadi Sepanj, Paul Fieguth

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Self-supervised learning (SSL) has recently advanced through non-contrastive methods that couple an invariance term with variance, covariance, or redundancy-reduction penalties. While such objectives shape first- and second-order statistics of the representation, they largely ignore the local geometry of the underlying data manifold. In this paper, we introduce CurvSSL, a curvature-regularized self-supervised learning framework, and its RKHS extension, kernel CurvSSL. Our approach retains a stan...

ID: 2511.17426v1 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 Coordinate Descent for Network Linearization

2025-11-18

Авторы:

Vlad Rakhlin, Amir Jevnisek, Shai Avidan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ReLU activations are the main bottleneck in Private Inference that is based on ResNet networks. This is because they incur significant inference latency. Reducing ReLU count is a discrete optimization problem, and there are two common ways to approach it. Most current state-of-the-art methods are based on a smooth approximation that jointly optimizes network accuracy and ReLU budget at once. However, the last hard thresholding step of the optimization usually introduces a large performance loss....

ID: 2511.11781v1 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 Matricial Free Energy as a Gaussianizing Regularizer: Enhancing Autoencoders for Gaussian Code Generation

2025-10-22

Авторы:

Rishi Sonthalia, Raj Rao Nadakuditi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce a novel regularization scheme for autoencoders based on matricial free energy. Our approach defines a differentiable loss function in terms of the singular values of the code matrix (code dimension x batch size). From the standpoint of free probability an d random matrix theory, this loss achieves its minimum when the singular value distribution of the code matrix coincides with that of an appropriately sculpted random metric with i.i.d. Gaussian entries. Empirical simulations demon...

ID: 2510.17120v1 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 Test-Time Anchoring for Discrete Diffusion Posterior Sampling

2025-10-04

Авторы:

Litu Rout, Andreas Lugmayr, Yasamin Jafarian, Srivatsan Varadharajan, Constantine Caramanis, Sanjay Shakkottai, Ira Kemelmacher-Shlizerman

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study the problem of posterior sampling using pretrained discrete diffusion foundation models, aiming to recover images from noisy measurements without retraining task-specific models. While diffusion models have achieved remarkable success in generative modeling, most advances rely on continuous Gaussian diffusion. In contrast, discrete diffusion offers a unified framework for jointly modeling categorical data such as text and images. Beyond unification, discrete diffusion provides faster in...

ID: 2510.02291v1 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 Semantic Editing with Coupled Stochastic Differential Equations

2025-10-01

Авторы:

Jianxin Zhang, Clayton Scott

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Editing the content of an image with a pretrained text-to-image model remains challenging. Existing methods often distort fine details or introduce unintended artifacts. We propose using coupled stochastic differential equations (coupled SDEs) to guide the sampling process of any pre-trained generative model that can be sampled by solving an SDE, including diffusion and rectified flow models. By driving both the source image and the edited image with the same correlated noise, our approach steer...

ID: 2509.24223v1 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 SelectMix: Enhancing Label Noise Robustness through Targeted Sample Mixing

2025-09-17

Авторы:

Qiuhao Liu, Ling Li, Yao Lu, Qi Xuan, Zhaowei Zhu, Jiaheng Wei

## Контекст Обучение глубоких нейронных сетей с шумными метками остается вызовом в области машинного обучения. Шумные метки мешают сетям выучивать правильные представления, что приводит к ухудшению их общей и переобученной модели. Хотя методы, такие как Mixup, показали свою эффективность в улучшении общей и робастной модели, они часто применяются без достаточного учета того, какие выборки следует смешивать и как. Это приводит к нежелательному продолжению шумных сигналов в обучении. Мотивация для разработки SelectMix заключается в создании более учётной стратегии смешивания, которая бы учитывала характерные шумные метки и создавала более точные супервайзинг-сигналы. ## Метод SelectMix — это фреймворк, основанный на конфиденциальном гиданте, который предназначен для улучшения устойчивости к шумным меткам. Он работает в двух этапах: (1) **Идентификация неточных выборок:** Используя кросс-валидацию K-fold, SelectMix определяет выборки с неуверенными метками или амбигуами. (2) **Учётное смешивание выборок:** Эти выборки смешиваются с выборками с высоким уровнем уверенности из их классов. Выборки смешиваются используя **мягкие метки** — комбинацию всех классов, участвующих в смешении. Это позволяет создавать более точные сигналы обучения, которые более полно соответствуют смешанным выборкам. ## Результаты SelectMix протестирован на множестве синтетических и реальных датасетов, включая MNIST, Fashion-MNIST, CIFAR-10, CIFAR-100, CIFAR-N и Clothing1M. Эксперименты показали, что SelectMix намного превосходит существующие методы, такие как Mixup, в ситуациях, когда данные имеют шумные метки. Также было проведено теоретическое анализирование, подтвердив, что SelectMix лучше адаптируется к шумным меткам и обеспечивает более стабильное обучение сетей. ## Значимость SelectMix может применяться в ситуациях, где данные имеют высокий шум в метках, например, в обработке изображений, текстов или звука. Он предоставляет более точные супервайзинг-сигналы, что приводит к улучшенной общей и робастной модели. В перспективе, SelectMix может быть использован в сценариях, где данные собираются из недостоверных источников, таких как сенсоры или гугл-формы, что делает его значимым для реального мира. ## Выводы SelectMix показал свою эффективность в обучении глубоких нейронных сетей в условиях шумных меток. Он предоставил новый подход к смешиванию выборок, который учитывает характерные шумные сигналы и позволяет создавать более точные сигналы обучения. Будущие исследования будут направлены на расширение SelectMix к другим типам данных и его

Annotation:

Deep neural networks tend to memorize noisy labels, severely degrading their generalization performance. Although Mixup has demonstrated effectiveness in improving generalization and robustness, existing Mixup-based methods typically perform indiscriminate mixing without principled guidance on sample selection and mixing strategy, inadvertently propagating noisy supervision. To overcome these limitations, we propose SelectMix, a confidence-guided mixing framework explicitly tailored for noisy la...

ID: 2509.11265v1 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 Curvature Learning for Generalization of Hyperbolic Neural Networks

2025-08-27

Авторы:

Xiaomeng Fan, Yuwei Wu, Zhi Gao, Mehrtash Harandi, Yunde Jia

## Контекст Hyperbolic neural networks (HNNs) приобрели популярность в области машинного обучения, особенно при работе с данными, имеющими древовидную или хирархическую структуру. Эти сети эффективно используют геометрические свойства гиперболических пространств, характеризующихся отрицательными кривизнами. Однако кривизна, как главный параметр, может сильно влиять на эффективность и качество обучения HNNs. Неправильный выбор кривизны может привести к плохому формированию параметров, ухудшению показателей обучения и возможному ранее достижению стабильного решения. Несмотря на практический успех HNNs, теоретическая основа влияния кривизны на их обучение и генерализацию остается недостаточно изученной. Одной из задач, предъявляемой к HNNs, является минимизация риска ошибки при генерализации. Текущие подходы недостаточно эффективны, и есть необходимость в усовершенствовании. ## Метод Мы предлагаем метод **Curvature Learning for Generalization of Hyperbolic Neural Networks**. Наша методика основывается на разработке критерия генерализации HNNs с учетом кривизны — PAC-Bayesian статистического теоремы. Мы выводим обобщающую баузианскую оценку, подчеркивающую влияние кривизны на сглаживание ландшафта потерь. Это позволяет выявить точки высокой кривизны, которые могут приводить к тому, что сеть не будет сходиться к оптимальному решению. Далее, мы предлагаем метод **Sharpness-Aware Curvature Learning**, в котором используется **метрика scope sharpness**. Это позволяет оптимизировать кривизну и уменьшить потери в локальных минимумах. Мы используем **би-уровневый процесс оптимизации**, в котором первоначальная задача — найти критические точки кривизны. Для этих целей мы применяем **императивную дифференциацию**, что позволяет эффективно решать задачу. Также мы изучаем анализ ошибки приближения и выявляем условия, при которых метод может быть применен. ## Результаты Мы проводили эксперименты на четырёх областях применения: 1) классической классификации данных, 2) обучению с длинными хвостами (long-tailed learning), 3) обучению с неточными данными и 4) обучению с пары-shot обучением. Мы сравнивали полученные результаты с другими методами, такими как **learnable curvature** и **adaptive curvature regularization**. Наши результаты показывают, что **sharpness-aware curvature learning** позволяет повысить показатели генерализации HNNs на этих задачах. Мы также проводили анализ ошибки приближения и проверили надежность нашего метода. В результате, мы доказали, что наша методика эффективна и может быть применена в различных сферах. ## Значимость Наша работа имеет значительные практические применения в следующих областях: - **Нейросети для древовидных данных**: HNNs могут быть использованы для модели

Annotation:

Hyperbolic neural networks (HNNs) have demonstrated notable efficacy in representing real-world data with hierarchical structures via exploiting the geometric properties of hyperbolic spaces characterized by negative curvatures. Curvature plays a crucial role in optimizing HNNs. Inappropriate curvatures may cause HNNs to converge to suboptimal parameters, degrading overall performance. So far, the theoretical foundation of the effect of curvatures on HNNs has not been developed. In this paper, w...

ID: 2508.17232v2 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 Toward Architecture-Agnostic Local Control of Posterior Collapse in VAEs

2025-08-20

Авторы:

Hyunsoo Song, Seungwhan Kim, Seungkyu Lee

## Контекст Variational autoencoders (VAEs) широко используются в генерирующих моделях, но страдают от постепенного распада постерона (posterior collapse), что приводит к уменьшению разнообразия генерируемых выборок. Эта проблема связана с неверным балансом между реконструкцией и регуляризацией. Отсутствие взаимозависимости между активными компонентами в локальном пространстве позволяет постерону распадаться. Из-за этого многие работы прибегают к структурным ограничениям сети, но это приводит к жестким контролам на архитектуру. Существующие подходы, такие как подходы к упорядочиванию и разметке, неэффективны для устранения постерона. Мы предлагаем новый подход, который не зависит от архитектуры, чтобы решать эту проблему на уровне предобученных сетей. ## Метод Мы предлагаем Latent Reconstruction (LR) loss, который строится на математических свойствах инъективных и составных функций. Этот подход позволяет избежать постерона без ограничений на архитектуру. Основной идеей является, что LR loss оптимизирует соответствие между индивидуальными точками данных и их представлениями в локальном пространстве. Мы используем различные выборки данных, такие как MNIST, fashionMNIST, Omniglot, CelebA, и FFHQ, чтобы продемонстрировать эффективность нашего подхода. Метод позволяет контролировать постеронные распады, не привязываясь к конкретной архитектуре, что делает его гибким и универсальным. ## Результаты Мы проверили наш подход на популярных датасетах, таких как MNIST, fashionMNIST, Omniglot, CelebA и FFHQ. Оценивая постеронные распады, мы применили LR loss к каждому датасету и сравнили результаты с другими подходами. Наши эксперименты показали, что LR loss эффективно уменьшает постеронные распады, улучшая разнообразие генерируемых выборок и поддерживая упорядоченность в локальном пространстве. Эти результаты показывают, что Latent Reconstruction loss является эффективным средством для управления постероном, не привязываясь к конкретной структуре сети. ## Значимость Наша работа имеет значительное значение для развития методов управления постероном в VAEs. Он позволяет улучшить диверсификацию вывода, что может иметь приложение в машинном обучении, визуальном поиске, изображении и даже в глубоком обучении. Мы предлагаем гибкий подход, который может быть применен к различным сетям без жестких контрольных ограничений. Это делает LR loss очень привлекательным для развития в области генерирующих моделей, таких как VAEs, и может способствовать развитию новых подходов в области глубокого обучения. ## Выводы Мы продемонстрировали эффективность Latent Reconstruction loss в управлении постероном в VAEs, не привязываясь к

Annotation:

Variational autoencoders (VAEs), one of the most widely used generative models, are known to suffer from posterior collapse, a phenomenon that reduces the diversity of generated samples. To avoid posterior collapse, many prior works have tried to control the influence of regularization loss. However, the trade-off between reconstruction and regularization is not satisfactory. For this reason, several methods have been proposed to guarantee latent identifiability, which is the key to avoiding pos...

ID: 2508.12530v1 cs.LG, cs.CV, stat.ML, I.2.6

arXiv PDF