MonoCon: A general framework for learning ultra-compact high-fidelity representations using monotonicity constraints

2509.22931v1 cs.LG, cs.AI, cs.CV 2025-10-01
Авторы:

Shreyas Gokhale

Резюме на русском

## Контекст В статье предлагается MonoCon, новшество в области метрического обучения, которое использует функциональные ограничения для повышения качества и эффективности представлений. Данный подход является альтернативой традиционным архитектурным и оптимизационным методам. Он включает монотонную нейронную сеть (MLP), которая подключается к предварительно обученной сети. Использование контрастивной функции потерь и монотонных ограничений позволяет MonoCon формировать высококачественные, дисэнтентностные и компактные представления, в то же время сохраняя высокую точность классификации. MonoCon представляет собой общую модель, применимую к различным задачам, от классификации изображений до выработки представлений для текстовых данных. ## Метод MonoCon состоит из двух основных компонентов: предварительно обученной сети и монотонной нейронной сети (MLP). Обучение происходит с использованием контрастивной функции потерь, при которой нейронная сеть и монотонный MLP координируются друг с другом. Это приводит к формированию устойчивых, компактных и дисэнтентных представлений. Во время тестирования MLP используется в качестве эмбеддинг-головки, что позволяет сократить размер представления, не теряя в качестве. Таким образом, MonoCon предлагает простой и эффективный подход к обучению высококачественных представлений, используя функциональные требования. ## Результаты Эксперименты показали, что MonoCon значительно улучшает сжатие представлений, не ухудшая их качество. На задаче классификации изображений на CIFAR-100 MonoCon формирует представления, которые 9 раз компактнее, чем представления, полученные базовой моделью, при этом сохраняя 99% точности классификации. Для задачи определения схожести предложений на SNLI MonoCon формирует представления, которые 3,4 раза компактнее, и 1,4 раза улучшаются по метрике STS-B. Это указывает на общий потенциал MonoCon в различных задачах и доменах. ## Значимость MonoCon предлагает решение для ключевых проблем в области метрического обучения: сокращение размера представлений, повышение устойчивости и сохранение качества. Эти преимущества имеют широкое применение в различных областях, включая машинное обучение на краевых устройствах, хранение данных, поиск информации и вычисление на крупных объемах данных. Этот подход может повысить эффективность и ресурсосбережение в системах, где ограничены ресурсы или требуется высокая скорость обработки. ## Выводы MonoCon представляет собой новую модель для обучения компактных и дисэнтентных представлений, использующую функциональные ограничения. Этот подход показал высокую эффективность на различных зада

Abstract

Learning high-quality, robust, efficient, and disentangled representations is a central challenge in artificial intelligence (AI). Deep metric learning frameworks tackle this challenge primarily using architectural and optimization constraints. Here, we introduce a third approach that instead relies on $\textit{functional}$ constraints. Specifically, we present MonoCon, a simple framework that uses a small monotonic multi-layer perceptron (MLP) head attached to any pre-trained encoder. Due to co-adaptation between encoder and head guided by contrastive loss and monotonicity constraints, MonoCon learns robust, disentangled, and highly compact embeddings at a practically negligible performance cost. On the CIFAR-100 image classification task, MonoCon yields representations that are nearly 9x more compact and 1.5x more robust than the fine-tuned encoder baseline, while retaining 99\% of the baseline's 5-NN classification accuracy. We also report a 3.4x more compact and 1.4x more robust representation on an SNLI sentence similarity task for a marginal reduction in the STSb score, establishing MonoCon as a general domain-agnostic framework. Crucially, these robust, ultra-compact representations learned via functional constraints offer a unified solution to critical challenges in disparate contexts ranging from edge computing to cloud-scale retrieval.

Ссылки и действия