📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Senmao Tian, Xiang Wei, Shunli Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Class imbalance remains a critical challenge in semi-supervised learning (SSL), especially when distributional mismatches between labeled and unlabeled data lead to biased classification. Although existing methods address this issue by adjusting logits based on the estimated class distribution of unlabeled data, they often handle model imbalance in a coarse-grained manner, conflating data imbalance with bias arising from varying class-specific learning difficulties. To address this issue, we pro...
Авторы:
Shivam Pal, Sakshi Varshney, Piyush Rai
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Deep neural networks are prone to learning shortcuts, spurious and easily learned correlations in training data that cause severe failures in out-of-distribution (OOD) generalization. A dominant line of work seeks robustness by learning a robust representation, often explicitly partitioning the latent space into core and spurious components; this approach can be complex, brittle, and difficult to scale. We take a different approach, instead of a robust representation, we learn a robust function....
Авторы:
Benyamin Ghojogh, M. Hadi Sepanj, Paul Fieguth
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Self-supervised learning (SSL) has recently advanced through non-contrastive methods that couple an invariance term with variance, covariance, or redundancy-reduction penalties. While such objectives shape first- and second-order statistics of the representation, they largely ignore the local geometry of the underlying data manifold. In this paper, we introduce CurvSSL, a curvature-regularized self-supervised learning framework, and its RKHS extension, kernel CurvSSL. Our approach retains a stan...
Авторы:
Vlad Rakhlin, Amir Jevnisek, Shai Avidan
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
ReLU activations are the main bottleneck in Private Inference that is based on ResNet networks. This is because they incur significant inference latency. Reducing ReLU count is a discrete optimization problem, and there are two common ways to approach it. Most current state-of-the-art methods are based on a smooth approximation that jointly optimizes network accuracy and ReLU budget at once. However, the last hard thresholding step of the optimization usually introduces a large performance loss....
Авторы:
Rishi Sonthalia, Raj Rao Nadakuditi
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We introduce a novel regularization scheme for autoencoders based on
matricial free energy. Our approach defines a differentiable loss function in
terms of the singular values of the code matrix (code dimension x batch size).
From the standpoint of free probability an d random matrix theory, this loss
achieves its minimum when the singular value distribution of the code matrix
coincides with that of an appropriately sculpted random metric with i.i.d.
Gaussian entries. Empirical simulations demon...
Авторы:
Litu Rout, Andreas Lugmayr, Yasamin Jafarian, Srivatsan Varadharajan, Constantine Caramanis, Sanjay Shakkottai, Ira Kemelmacher-Shlizerman
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We study the problem of posterior sampling using pretrained discrete
diffusion foundation models, aiming to recover images from noisy measurements
without retraining task-specific models. While diffusion models have achieved
remarkable success in generative modeling, most advances rely on continuous
Gaussian diffusion. In contrast, discrete diffusion offers a unified framework
for jointly modeling categorical data such as text and images. Beyond
unification, discrete diffusion provides faster in...
Авторы:
Jianxin Zhang, Clayton Scott
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Editing the content of an image with a pretrained text-to-image model remains
challenging. Existing methods often distort fine details or introduce
unintended artifacts. We propose using coupled stochastic differential
equations (coupled SDEs) to guide the sampling process of any pre-trained
generative model that can be sampled by solving an SDE, including diffusion and
rectified flow models. By driving both the source image and the edited image
with the same correlated noise, our approach steer...
Авторы:
Qiuhao Liu, Ling Li, Yao Lu, Qi Xuan, Zhaowei Zhu, Jiaheng Wei
## Контекст
Обучение глубоких нейронных сетей с шумными метками остается вызовом в области машинного обучения. Шумные метки мешают сетям выучивать правильные представления, что приводит к ухудшению их общей и переобученной модели. Хотя методы, такие как Mixup, показали свою эффективность в улучшении общей и робастной модели, они часто применяются без достаточного учета того, какие выборки следует смешивать и как. Это приводит к нежелательному продолжению шумных сигналов в обучении. Мотивация для разработки SelectMix заключается в создании более учётной стратегии смешивания, которая бы учитывала характерные шумные метки и создавала более точные супервайзинг-сигналы.
## Метод
SelectMix — это фреймворк, основанный на конфиденциальном гиданте, который предназначен для улучшения устойчивости к шумным меткам. Он работает в двух этапах: (1) **Идентификация неточных выборок:** Используя кросс-валидацию K-fold, SelectMix определяет выборки с неуверенными метками или амбигуами. (2) **Учётное смешивание выборок:** Эти выборки смешиваются с выборками с высоким уровнем уверенности из их классов. Выборки смешиваются используя **мягкие метки** — комбинацию всех классов, участвующих в смешении. Это позволяет создавать более точные сигналы обучения, которые более полно соответствуют смешанным выборкам.
## Результаты
SelectMix протестирован на множестве синтетических и реальных датасетов, включая MNIST, Fashion-MNIST, CIFAR-10, CIFAR-100, CIFAR-N и Clothing1M. Эксперименты показали, что SelectMix намного превосходит существующие методы, такие как Mixup, в ситуациях, когда данные имеют шумные метки. Также было проведено теоретическое анализирование, подтвердив, что SelectMix лучше адаптируется к шумным меткам и обеспечивает более стабильное обучение сетей.
## Значимость
SelectMix может применяться в ситуациях, где данные имеют высокий шум в метках, например, в обработке изображений, текстов или звука. Он предоставляет более точные супервайзинг-сигналы, что приводит к улучшенной общей и робастной модели. В перспективе, SelectMix может быть использован в сценариях, где данные собираются из недостоверных источников, таких как сенсоры или гугл-формы, что делает его значимым для реального мира.
## Выводы
SelectMix показал свою эффективность в обучении глубоких нейронных сетей в условиях шумных меток. Он предоставил новый подход к смешиванию выборок, который учитывает характерные шумные сигналы и позволяет создавать более точные сигналы обучения. Будущие исследования будут направлены на расширение SelectMix к другим типам данных и его
Annotation:
Deep neural networks tend to memorize noisy labels, severely degrading their
generalization performance. Although Mixup has demonstrated effectiveness in
improving generalization and robustness, existing Mixup-based methods typically
perform indiscriminate mixing without principled guidance on sample selection
and mixing strategy, inadvertently propagating noisy supervision. To overcome
these limitations, we propose SelectMix, a confidence-guided mixing framework
explicitly tailored for noisy la...
Авторы:
Xiaomeng Fan, Yuwei Wu, Zhi Gao, Mehrtash Harandi, Yunde Jia
## Контекст
Hyperbolic neural networks (HNNs) приобрели популярность в области машинного обучения, особенно при работе с данными, имеющими древовидную или хирархическую структуру. Эти сети эффективно используют геометрические свойства гиперболических пространств, характеризующихся отрицательными кривизнами. Однако кривизна, как главный параметр, может сильно влиять на эффективность и качество обучения HNNs. Неправильный выбор кривизны может привести к плохому формированию параметров, ухудшению показателей обучения и возможному ранее достижению стабильного решения. Несмотря на практический успех HNNs, теоретическая основа влияния кривизны на их обучение и генерализацию остается недостаточно изученной. Одной из задач, предъявляемой к HNNs, является минимизация риска ошибки при генерализации. Текущие подходы недостаточно эффективны, и есть необходимость в усовершенствовании.
## Метод
Мы предлагаем метод **Curvature Learning for Generalization of Hyperbolic Neural Networks**. Наша методика основывается на разработке критерия генерализации HNNs с учетом кривизны — PAC-Bayesian статистического теоремы. Мы выводим обобщающую баузианскую оценку, подчеркивающую влияние кривизны на сглаживание ландшафта потерь. Это позволяет выявить точки высокой кривизны, которые могут приводить к тому, что сеть не будет сходиться к оптимальному решению. Далее, мы предлагаем метод **Sharpness-Aware Curvature Learning**, в котором используется **метрика scope sharpness**. Это позволяет оптимизировать кривизну и уменьшить потери в локальных минимумах. Мы используем **би-уровневый процесс оптимизации**, в котором первоначальная задача — найти критические точки кривизны. Для этих целей мы применяем **императивную дифференциацию**, что позволяет эффективно решать задачу. Также мы изучаем анализ ошибки приближения и выявляем условия, при которых метод может быть применен.
## Результаты
Мы проводили эксперименты на четырёх областях применения: 1) классической классификации данных, 2) обучению с длинными хвостами (long-tailed learning), 3) обучению с неточными данными и 4) обучению с пары-shot обучением. Мы сравнивали полученные результаты с другими методами, такими как **learnable curvature** и **adaptive curvature regularization**. Наши результаты показывают, что **sharpness-aware curvature learning** позволяет повысить показатели генерализации HNNs на этих задачах. Мы также проводили анализ ошибки приближения и проверили надежность нашего метода. В результате, мы доказали, что наша методика эффективна и может быть применена в различных сферах.
## Значимость
Наша работа имеет значительные практические применения в следующих областях:
- **Нейросети для древовидных данных**: HNNs могут быть использованы для модели
Annotation:
Hyperbolic neural networks (HNNs) have demonstrated notable efficacy in
representing real-world data with hierarchical structures via exploiting the
geometric properties of hyperbolic spaces characterized by negative curvatures.
Curvature plays a crucial role in optimizing HNNs. Inappropriate curvatures may
cause HNNs to converge to suboptimal parameters, degrading overall performance.
So far, the theoretical foundation of the effect of curvatures on HNNs has not
been developed. In this paper, w...
Авторы:
Hyunsoo Song, Seungwhan Kim, Seungkyu Lee
## Контекст
Variational autoencoders (VAEs) широко используются в генерирующих моделях, но страдают от постепенного распада постерона (posterior collapse), что приводит к уменьшению разнообразия генерируемых выборок. Эта проблема связана с неверным балансом между реконструкцией и регуляризацией. Отсутствие взаимозависимости между активными компонентами в локальном пространстве позволяет постерону распадаться. Из-за этого многие работы прибегают к структурным ограничениям сети, но это приводит к жестким контролам на архитектуру. Существующие подходы, такие как подходы к упорядочиванию и разметке, неэффективны для устранения постерона. Мы предлагаем новый подход, который не зависит от архитектуры, чтобы решать эту проблему на уровне предобученных сетей.
## Метод
Мы предлагаем Latent Reconstruction (LR) loss, который строится на математических свойствах инъективных и составных функций. Этот подход позволяет избежать постерона без ограничений на архитектуру. Основной идеей является, что LR loss оптимизирует соответствие между индивидуальными точками данных и их представлениями в локальном пространстве. Мы используем различные выборки данных, такие как MNIST, fashionMNIST, Omniglot, CelebA, и FFHQ, чтобы продемонстрировать эффективность нашего подхода. Метод позволяет контролировать постеронные распады, не привязываясь к конкретной архитектуре, что делает его гибким и универсальным.
## Результаты
Мы проверили наш подход на популярных датасетах, таких как MNIST, fashionMNIST, Omniglot, CelebA и FFHQ. Оценивая постеронные распады, мы применили LR loss к каждому датасету и сравнили результаты с другими подходами. Наши эксперименты показали, что LR loss эффективно уменьшает постеронные распады, улучшая разнообразие генерируемых выборок и поддерживая упорядоченность в локальном пространстве. Эти результаты показывают, что Latent Reconstruction loss является эффективным средством для управления постероном, не привязываясь к конкретной структуре сети.
## Значимость
Наша работа имеет значительное значение для развития методов управления постероном в VAEs. Он позволяет улучшить диверсификацию вывода, что может иметь приложение в машинном обучении, визуальном поиске, изображении и даже в глубоком обучении. Мы предлагаем гибкий подход, который может быть применен к различным сетям без жестких контрольных ограничений. Это делает LR loss очень привлекательным для развития в области генерирующих моделей, таких как VAEs, и может способствовать развитию новых подходов в области глубокого обучения.
## Выводы
Мы продемонстрировали эффективность Latent Reconstruction loss в управлении постероном в VAEs, не привязываясь к
Annotation:
Variational autoencoders (VAEs), one of the most widely used generative
models, are known to suffer from posterior collapse, a phenomenon that reduces
the diversity of generated samples. To avoid posterior collapse, many prior
works have tried to control the influence of regularization loss. However, the
trade-off between reconstruction and regularization is not satisfactory. For
this reason, several methods have been proposed to guarantee latent
identifiability, which is the key to avoiding pos...