Geometric Mixture Classifier (GMC): A Discriminative Per-Class Mixture of Hyperplanes
2509.16769v1
cs.LG, cs.AI, cs.CL, 68T05, 62H30, 62M45, I.2.6; I.5.1; I.5.2; G.3
2025-09-24
Авторы:
Prasanth K K, Shubham Sharma
Резюме на русском
#### Контекст
Многие реальные классы являются многоформенными, с отдельными регионами в пространстве признаков, отведенными для каждого класса. Традиционные линейные модели, такие как логистическая регрессия или линейный SVM, используют единый глобальный пороговый слой и неэффективны при работе с такими данными. Однако высокосложностные методы, такие как RBF-SVM, деревья решений и неглубокие нейросети, могут хорошо подстроиться под многоформенные данные, однако это приводит к проблемам в интерпретируемости, высокой сложности настройки и большим потреблением ресурсов. Чтобы решить эти проблемы, мы предлагаем **Geometric Mixture Classifier (GMC)** — модель, представляющую каждый класс как смесь гиперплоскостей, что обеспечивает высокую точность и интерпретируемость.
#### Метод
GMC представляет каждый класс как смесь гиперплоскостей, где пороговые значения управляются тёплой операцией log-sum-exp с параметром "температура". Эта смесь позволяет гибко аппроксимировать логическое ИЛИ для классификации. Для улучшения многомерной структуры используются Random Fourier Features (RFF), что позволяет реализовывать нелинейности, не увеличивая сложность вывода, которая остаётся линейной по числу гиперплоскостей и признаков. Методы гиперпараметров GMC включают геометрически ориентированный к-средних для инициализации, бюджетирование гиперплоскостей с помощью метрики силуэта, линейная аннелинг-алгебра для штрафа, лабел-сглаживание и ранняя остановка. Это делает GMC простой в использовании и эффективным в применении.
#### Результаты
Мы провести эксперименты на синтетических многоформенных данных (в виде лун, кругов, спиралей, пузырьков) и реальных бенчмарках (IRIS, WINE, WDBC, цифры). GMC показал себя лучше линейных базовых моделей и k-NN, а также демонстрировал конкурентную скорость работы и точность по сравнению с RBF-SVM, Random Forest и неглубокими нейросетями. Благодаря геометрической интроспекции, GMC позволяет визуализировать ответы для каждой из гиперплоскостей и класса, что даёт пользователю глубокий пониманий работы модели. Также мы продемонстрировали, что **пост-хок температурная масштабирование** уменьшает Expected Calibration Error (ECE) с 0.06 до 0.02, что улучшает доверительность предсказаний.
#### Значимость
GMC обладает широким спектром применений в области многоклассовой классификации, включая как синтетические задачи, так и реальные задачи в области табличных и изображенческих данных. Он обеспечивает высокую точность, легкость в интерпретации и быстродействие, что делает его привлекательным для задач, где необходимо быстрое и прозрачно
Abstract
Many real world categories are multimodal, with single classes occupying
disjoint regions in feature space. Classical linear models (logistic
regression, linear SVM) use a single global hyperplane and perform poorly on
such data, while high-capacity methods (kernel SVMs, deep nets) fit multimodal
structure but at the expense of interpretability, heavier tuning, and higher
computational cost. We propose the Geometric Mixture Classifier (GMC), a
discriminative model that represents each class as a mixture of hyperplanes.
Within each class, GMC combines plane scores via a temperature-controlled
soft-OR (log-sum-exp), smoothly approximating the max; across classes, standard
softmax yields probabilistic posteriors. GMC optionally uses Random Fourier
Features (RFF) for nonlinear mappings while keeping inference linear in the
number of planes and features. Our practical training recipe: geometry-aware
k-means initialization, silhouette-based plane budgeting, alpha annealing,
usage-aware L2 regularization, label smoothing, and early stopping, makes GMC
plug-and-play. Across synthetic multimodal datasets (moons, circles, blobs,
spirals) and tabular/image benchmarks (iris, wine, WDBC, digits), GMC
consistently outperforms linear baselines and k-NN, is competitive with
RBF-SVM, Random Forests, and small MLPs, and provides geometric introspection
via per-plane and class responsibility visualizations. Inference scales
linearly in planes and features, making GMC CPU-friendly, with single-digit
microsecond latency per example, often faster than RBF-SVM and compact MLPs.
Post-hoc temperature scaling reduces ECE from about 0.06 to 0.02. GMC thus
strikes a favorable balance of accuracy, interpretability, and efficiency: it
is more expressive than linear models and lighter, more transparent, and faster
than kernel or deep models.