📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Linqi Zhou, Mathias Parger, Ayaan Haque, Jiaming Song

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We propose Terminal Velocity Matching (TVM), a generalization of flow matching that enables high-fidelity one- and few-step generative modeling. TVM models the transition between any two diffusion timesteps and regularizes its behavior at its terminal time rather than at the initial time. We prove that TVM provides an upper bound on the $2$-Wasserstein distance between data and model distributions when the model is Lipschitz continuous. However, since Diffusion Transformers lack this property, w...
ID: 2511.19797v1 cs.LG, cs.AI, cs.CV, stat.ML
Авторы:

Randall Balestriero, Yann LeCun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Learning manipulable representations of the world and its dynamics is central to AI. Joint-Embedding Predictive Architectures (JEPAs) offer a promising blueprint, but lack of practical guidance and theory has led to ad-hoc R&D. We present a comprehensive theory of JEPAs and instantiate it in {\bf LeJEPA}, a lean, scalable, and theoretically grounded training objective. First, we identify the isotropic Gaussian as the optimal distribution that JEPAs' embeddings should follow to minimize downstrea...
ID: 2511.08544v2 cs.LG, cs.AI, cs.CV, stat.ML
Авторы:

Maojiang Su, Jerry Yao-Chieh Hu, Sophia Pi, Han Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We derive a deterministic, non-asymptotic upper bound on the Kullback-Leibler (KL) divergence of the flow-matching distribution approximation. In particular, if the $L_2$ flow-matching loss is bounded by $\epsilon^2 > 0$, then the KL divergence between the true data distribution and the estimated distribution is bounded by $A_1 \epsilon + A_2 \epsilon^2$. Here, the constants $A_1$ and $A_2$ depend only on the regularities of the data and velocity fields. Consequently, this bound implies statisti...
ID: 2511.05480v1 cs.LG, cs.AI, cs.CV, stat.ML
Авторы:

Jaebyeong Jeon, Hyeonseo Jang, Jy-yong Sohn, Kibok Lee

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Equivariant representation learning aims to capture variations induced by input transformations in the representation space, whereas invariant representation learning encodes semantic information by disregarding such transformations. Recent studies have shown that jointly learning both types of representations is often beneficial for downstream tasks, typically by employing separate projection heads. However, this design overlooks information shared between invariant and equivariant learning, wh...
ID: 2510.27222v1 cs.LG, cs.AI, cs.CV, stat.ML
Авторы:

Randall Balestriero, Nicolas Ballas, Mike Rabbat, Yann LeCun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Joint Embedding Predictive Architectures (JEPAs) learn representations able to solve numerous downstream tasks out-of-the-box. JEPAs combine two objectives: (i) a latent-space prediction term, i.e., the representation of a slightly perturbed sample must be predictable from the original sample's representation, and (ii) an anti-collapse term, i.e., not all samples should have the same representation. While (ii) is often considered as an obvious remedy to representation collapse, we uncover that J...
ID: 2510.05949v1 cs.LG, cs.AI, cs.CV, stat.ML
Авторы:

Mohammad Mohaiminul Islam, Thijs P. Kuipers, Sharvaree Vadgama, Coen de Vente, Afsana Khan, Clara I. Sánchez, Erik J. Bekkers

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Generative models for sequential data often struggle with sparsely sampled and high-dimensional trajectories, typically reducing the learning of dynamics to pairwise transitions. We propose \textit{Interpolative Multi-Marginal Flow Matching} (IMMFM), a framework that learns continuous stochastic dynamics jointly consistent with multiple observed time points. IMMFM employs a piecewise-quadratic interpolation path as a smooth target for flow matching and jointly optimizes drift and a data-driven d...
ID: 2510.03569v1 cs.LG, cs.AI, cs.CV, stat.ML
Авторы:

Yuhta Takida, Satoshi Hayakawa, Takashi Shibuya, Masaaki Imaizumi, Naoki Murata, Bac Nguyen, Toshimitsu Uesaka, Chieh-Hsin Lai, Yuki Mitsufuji

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Deep generative models have made significant advances in generating complex content, yet conditional generation remains a fundamental challenge. Existing conditional generative adversarial networks often struggle to balance the dual objectives of assessing authenticity and conditional alignment of input samples within their conditional discriminators. To address this, we propose a novel discriminator design that integrates three key capabilities: unconditional discrimination, matching-aware supe...
ID: 2510.04576v1 cs.LG, cs.AI, cs.CV, stat.ML
Авторы:

Tingyu Shi, Fan Lyu, Shaoliang Peng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Active Test-Time Adaptation (ATTA) improves model robustness under domain shift by selectively querying human annotations at deployment, but existing methods use heuristic uncertainty measures and suffer from low data selection efficiency, wasting human annotation budget. We propose Conformal Prediction Active TTA (CPATTA), which first brings principled, coverage-guaranteed uncertainty into ATTA. CPATTA employs smoothed conformal scores with a top-K certainty measure, an online weight-update alg...
ID: 2509.25692v1 cs.LG, cs.AI, cs.CV, stat.ML
Авторы:

Annabel Ma, Kaiying Hou, David Alvarez-Melis, Melanie Weber

## Контекст Техника оптимального транспорта (Optimal Transport, OT) широко используется в машинном обучении, графике и визуализации для установления однозначных сопоставлений между двумя распределениями или наборами данных. Однако в наборах данных, характеризующихся симметриями (например, визуальные симметрии в изображениях), подходы, основанные только на парных метриках геометрии, могут пропускать важные структуры данных. Такие проблемы часто приводят к потере контекста и неточности в сопоставлениях. Мы предлагаем Bispectral Optimal Transport (Bispectral OT) — расширение классической методологии OT, которое учитывает симметрии и позволяет получить более точные и смысловые сопоставления. ## Метод Bispectral Optimal Transport использует биспектру — групповую Фурье-инварианту — для представления элементов в наборе данных. В отличие от стандартного OT, который оперирует парами координат, Bispectral OT учитывает не только локальные отношения, но и глобальные структуры данных. Эта техника сохраняет все сигнальные свойства, вычитая только симметричные колебания. Мы реализуем Bispectral OT в качестве расширения задачи оптимального транспорта, используя новый класс мер расстояний, основанных на биспектре. Это позволяет произвести более точные сопоставления, которые сохраняют классовую структуру данных, независимо от визуальных симметрий. ## Результаты Мы проверили Bispectral OT на нескольких задачах синтетических и реальных данных, включая изображения, подвергнутые различным визуальным симметриям. Наши эксперименты показали, что метод Bispectral OT превосходит классический OT в задачах классового сохранения и однозначности сопоставлений. Например, при изменении изображений в холсте симметричной преобразовательной группы, Bispectral OT позволяет учитывать основные свойства классов (например, геометрические формы), даже когда они преобразуются симметрически. Эти результаты подтверждают, что Bispectral OT не только улучшает точность, но и позволяет определять более подробные и контекстуально значимые сопоставления. ## Значимость Вычислительный метод Bispectral OT может быть применен в сложных сценариях, где важна сохраняемость классов и удаление ненужных симметричных колебаний. Он применим в графике, где необходимо удалить ненужные визуальные симметрии при анализе изображений. Более того, Bispectral OT может быть использован в обработке естественных языков, где симметрии в семантической структуре могут затруднять понимание. Этот подход открывает новые пути для повышения точности и смысловой нагрузки в задачах машинного обучения, затрагивающих высокомерный анализ распределений. ## Выводы Наше и
Annotation:
Optimal transport (OT) is a widely used technique in machine learning, graphics, and vision that aligns two distributions or datasets using their relative geometry. In symmetry-rich settings, however, OT alignments based solely on pairwise geometric distances between raw features can ignore the intrinsic coherence structure of the data. We introduce Bispectral Optimal Transport, a symmetry-aware extension of discrete OT that compares elements using their representation using the bispectrum, a gr...
ID: 2509.20678v1 cs.LG, cs.AI, cs.CV, stat.ML
Авторы:

Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin

## Контекст Generative modeling, representation learning, и classification являются тремя основными задачами в машинном обучении (ML). Несмотря на то, что существуют совершенно разные подходы для каждой из этих задач, их современные решения в целом независимы друг от друга. Это приводит к разделению ML-процессов и снижению взаимодействия между задачами. Тем не менее, может ли быть придумана общая модель, которая бы решала все три задачи одновременно? Такой подход был бы значительной новостью, так как упростил бы процессы ML и повысил бы их эффективность. Разработка такой модели — основная цель настоящей работы. ## Метод Разработанная модель Latent Zoning Network (LZN) основывается на идее создания общего гауссовского латентного пространства, которое бы синтезировало информацию для всех задач. Каждый тип данных (например, изображения, текст, метки) имеет собственный энкодер, который преобразует данные в соответствующие латентные "зоны". У компонентов также есть декодеры, которые возвращают латентные представления обратно в оригинальные данные. ML-задачи выражаются как композиции этих энкодеров и декодеров. Например, для генерации меток-условием изображений используется энкодер меток и декодер изображений. Для обычного задания входной меткой в модель и использования ее для генерации картинок, LZN извлекает изображение с помощью изображения-энкодера. Также, для classification модель использует изображение-энкодер и метку-декодер. Эта модель была применена во всех трех направлениях, и далее мы рассмотрим результаты этих экспериментов. ## Результаты Чтобы продемонстрировать потенциал LZN, она была применена к трем различным задачам: (1) улучшение изображений в существующих моделях; (2) решение задач представления без внесения внешних ауксиальных функций; (3) решение нескольких задач одновременно. В процессе тестирования LZN на CIFAR10, к содержащейся в ней модели Rectified Flow была добавлена для улучшения FID (Fréchet Inception Distance) — от 2.76 до 2.59, не изменяя основное целевое значение модели. Также LZN показала себя в задаче нейросетевого представления, выполнив уникальное представление в латентном пространстве без дополнительных loss-функций. Она превзошла модели MoCo и SimCLR в downstream linear classification на ImageNet — на 9.3% и 0.2% соответственно. Наконец, в задаче совместной генерации изображений и классификации, LZN продемонстрировала синергию между этими задачами, повысив FID и достигнув стандартных результатов на CIFAR10. ## Значимость LZN представляет собой новую модель, которая может быть применена во многих областях ML, включая изображения, текст, и другие задачи. Она объединяет несколько задач в единую систему,
Annotation:
Generative modeling, representation learning, and classification are three core problems in machine learning (ML), yet their state-of-the-art (SoTA) solutions remain largely disjoint. In this paper, we ask: Can a unified principle address all three? Such unification could simplify ML pipelines and foster greater synergy across tasks. We introduce Latent Zoning Network (LZN) as a step toward this goal. At its core, LZN creates a shared Gaussian latent space that encodes information across all tas...
ID: 2509.15591v1 cs.LG, cs.AI, cs.CV, stat.ML
Показано 1 - 10 из 12 записей