Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification
2509.15591v1
cs.LG, cs.AI, cs.CV, stat.ML
2025-09-23
Авторы:
Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin
Резюме на русском
## Контекст
Generative modeling, representation learning, и classification являются тремя основными задачами в машинном обучении (ML). Несмотря на то, что существуют совершенно разные подходы для каждой из этих задач, их современные решения в целом независимы друг от друга. Это приводит к разделению ML-процессов и снижению взаимодействия между задачами. Тем не менее, может ли быть придумана общая модель, которая бы решала все три задачи одновременно? Такой подход был бы значительной новостью, так как упростил бы процессы ML и повысил бы их эффективность. Разработка такой модели — основная цель настоящей работы.
## Метод
Разработанная модель Latent Zoning Network (LZN) основывается на идее создания общего гауссовского латентного пространства, которое бы синтезировало информацию для всех задач. Каждый тип данных (например, изображения, текст, метки) имеет собственный энкодер, который преобразует данные в соответствующие латентные "зоны". У компонентов также есть декодеры, которые возвращают латентные представления обратно в оригинальные данные. ML-задачи выражаются как композиции этих энкодеров и декодеров. Например, для генерации меток-условием изображений используется энкодер меток и декодер изображений. Для обычного задания входной меткой в модель и использования ее для генерации картинок, LZN извлекает изображение с помощью изображения-энкодера. Также, для classification модель использует изображение-энкодер и метку-декодер. Эта модель была применена во всех трех направлениях, и далее мы рассмотрим результаты этих экспериментов.
## Результаты
Чтобы продемонстрировать потенциал LZN, она была применена к трем различным задачам: (1) улучшение изображений в существующих моделях; (2) решение задач представления без внесения внешних ауксиальных функций; (3) решение нескольких задач одновременно. В процессе тестирования LZN на CIFAR10, к содержащейся в ней модели Rectified Flow была добавлена для улучшения FID (Fréchet Inception Distance) — от 2.76 до 2.59, не изменяя основное целевое значение модели. Также LZN показала себя в задаче нейросетевого представления, выполнив уникальное представление в латентном пространстве без дополнительных loss-функций. Она превзошла модели MoCo и SimCLR в downstream linear classification на ImageNet — на 9.3% и 0.2% соответственно. Наконец, в задаче совместной генерации изображений и классификации, LZN продемонстрировала синергию между этими задачами, повысив FID и достигнув стандартных результатов на CIFAR10.
## Значимость
LZN представляет собой новую модель, которая может быть применена во многих областях ML, включая изображения, текст, и другие задачи. Она объединяет несколько задач в единую систему,
Abstract
Generative modeling, representation learning, and classification are three
core problems in machine learning (ML), yet their state-of-the-art (SoTA)
solutions remain largely disjoint. In this paper, we ask: Can a unified
principle address all three? Such unification could simplify ML pipelines and
foster greater synergy across tasks. We introduce Latent Zoning Network (LZN)
as a step toward this goal. At its core, LZN creates a shared Gaussian latent
space that encodes information across all tasks. Each data type (e.g., images,
text, labels) is equipped with an encoder that maps samples to disjoint latent
zones, and a decoder that maps latents back to data. ML tasks are expressed as
compositions of these encoders and decoders: for example, label-conditional
image generation uses a label encoder and image decoder; image embedding uses
an image encoder; classification uses an image encoder and label decoder. We
demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN
can enhance existing models (image generation): When combined with the SoTA
Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without
modifying the training objective. (2) LZN can solve tasks independently
(representation learning): LZN can implement unsupervised representation
learning without auxiliary loss functions, outperforming the seminal MoCo and
SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear
classification on ImageNet. (3) LZN can solve multiple tasks simultaneously
(joint generation and classification): With image and label encoders/decoders,
LZN performs both tasks jointly by design, improving FID and achieving SoTA
classification accuracy on CIFAR10. The code and trained models are available
at https://github.com/microsoft/latent-zoning-networks. The project website is
at https://zinanlin.me/blogs/latent_zoning_networks.html.