Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

2509.15591v1 cs.LG, cs.AI, cs.CV, stat.ML 2025-09-23
Авторы:

Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin

Резюме на русском

## Контекст Generative modeling, representation learning, и classification являются тремя основными задачами в машинном обучении (ML). Несмотря на то, что существуют совершенно разные подходы для каждой из этих задач, их современные решения в целом независимы друг от друга. Это приводит к разделению ML-процессов и снижению взаимодействия между задачами. Тем не менее, может ли быть придумана общая модель, которая бы решала все три задачи одновременно? Такой подход был бы значительной новостью, так как упростил бы процессы ML и повысил бы их эффективность. Разработка такой модели — основная цель настоящей работы. ## Метод Разработанная модель Latent Zoning Network (LZN) основывается на идее создания общего гауссовского латентного пространства, которое бы синтезировало информацию для всех задач. Каждый тип данных (например, изображения, текст, метки) имеет собственный энкодер, который преобразует данные в соответствующие латентные "зоны". У компонентов также есть декодеры, которые возвращают латентные представления обратно в оригинальные данные. ML-задачи выражаются как композиции этих энкодеров и декодеров. Например, для генерации меток-условием изображений используется энкодер меток и декодер изображений. Для обычного задания входной меткой в модель и использования ее для генерации картинок, LZN извлекает изображение с помощью изображения-энкодера. Также, для classification модель использует изображение-энкодер и метку-декодер. Эта модель была применена во всех трех направлениях, и далее мы рассмотрим результаты этих экспериментов. ## Результаты Чтобы продемонстрировать потенциал LZN, она была применена к трем различным задачам: (1) улучшение изображений в существующих моделях; (2) решение задач представления без внесения внешних ауксиальных функций; (3) решение нескольких задач одновременно. В процессе тестирования LZN на CIFAR10, к содержащейся в ней модели Rectified Flow была добавлена для улучшения FID (Fréchet Inception Distance) — от 2.76 до 2.59, не изменяя основное целевое значение модели. Также LZN показала себя в задаче нейросетевого представления, выполнив уникальное представление в латентном пространстве без дополнительных loss-функций. Она превзошла модели MoCo и SimCLR в downstream linear classification на ImageNet — на 9.3% и 0.2% соответственно. Наконец, в задаче совместной генерации изображений и классификации, LZN продемонстрировала синергию между этими задачами, повысив FID и достигнув стандартных результатов на CIFAR10. ## Значимость LZN представляет собой новую модель, которая может быть применена во многих областях ML, включая изображения, текст, и другие задачи. Она объединяет несколько задач в единую систему,

Abstract

Generative modeling, representation learning, and classification are three core problems in machine learning (ML), yet their state-of-the-art (SoTA) solutions remain largely disjoint. In this paper, we ask: Can a unified principle address all three? Such unification could simplify ML pipelines and foster greater synergy across tasks. We introduce Latent Zoning Network (LZN) as a step toward this goal. At its core, LZN creates a shared Gaussian latent space that encodes information across all tasks. Each data type (e.g., images, text, labels) is equipped with an encoder that maps samples to disjoint latent zones, and a decoder that maps latents back to data. ML tasks are expressed as compositions of these encoders and decoders: for example, label-conditional image generation uses a label encoder and image decoder; image embedding uses an image encoder; classification uses an image encoder and label decoder. We demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN can enhance existing models (image generation): When combined with the SoTA Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without modifying the training objective. (2) LZN can solve tasks independently (representation learning): LZN can implement unsupervised representation learning without auxiliary loss functions, outperforming the seminal MoCo and SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear classification on ImageNet. (3) LZN can solve multiple tasks simultaneously (joint generation and classification): With image and label encoders/decoders, LZN performs both tasks jointly by design, improving FID and achieving SoTA classification accuracy on CIFAR10. The code and trained models are available at https://github.com/microsoft/latent-zoning-networks. The project website is at https://zinanlin.me/blogs/latent_zoning_networks.html.

Ссылки и действия