Disentangled Deep Smoothed Bootstrap for Fair Imbalanced Regression

2508.13829v1 cs.LG, stat.ML 2025-08-21

Авторы:

Samuel Stocksieker, Denys pommeret, Arthur Charpentier

Резюме на русском

## Контекст Исследование решения проблемы неравномерного распределения данных в подсистемах системы безопасности является важной задачей в области машинного обучения. Неравномерность данных в обучающем корпусе может привести к снижению качества моделей машинного обучения, особенно в задачах регрессии. В статье предлагается новый подход для улучшения обучения с использованием табулярных данных в контексте неравномерного регрессионного рамфамвока (Imbalanced Regression, IR). Обработка неравномерных данных в регрессии широко распространена в практических задачах, например, в предсказании финансовых показателей, прогнозировании клиентских поведенческих моделей и др. Данный метод значительно улучшает результаты стандартных методов обработки неравномерного распределения в регрессионных задачах. ## Метод Метод, предложенный авторами, основывается на применении Variational Autoencoders (VAEs) для моделирования и определения латентного представления данных. Однако стандартные VAEs могут быть неэффективными при обучении на неравномерных данных. Для решения этой проблемы разработана инновационная техника, которая сочетает в себе disentangled VAE с методом Smoothed Bootstrap, примененным в латентном пространстве. Это позволяет лучше учитывать неравномерность данных и повысить точность модели. Кроме того, предлагается систематический подход к оценке эффективности метода с использованием множества бенчмарк-данных, что позволяет сравнить его с другими подходами в задачах IR. ## Результаты Эксперименты проводились на нескольких выборках данных из реальной практики, которые характеризуются неравномерным распределением. Метод показал значительное улучшение результатов по сравнению с остальными методами, особенно в ситуациях, когда данные имеют высокий уровень неравномерности. Измеренные показатели, такие как RMSE и MAE, показали значительное снижение ошибки в предсказаниях. Эти результаты подтверждают эффективность предлагаемого подхода в задачах регрессии с неравномерным распределением данных. ## Значимость Предлагаемый подход может быть использован в различных областях, где неравномерные данные являются типичной проблемой, например, в финансовых прогнозах, здравоохранении, прогнозировании поведенческих моделей. Основные преимущества метода заключаются в том, что он не только улучшает точность регрессионных моделей на неравномерных данных, но и обеспечивает более стабильный интерпретируемый результат. Это может иметь потенциал для широкого применения в практических задачах и может способствовать развитию новых методов обработки данных в регрессионных задачах. ## Выводы Результаты исследования показывают, что предложенный подход эффекти

Abstract

Imbalanced distribution learning is a common and significant challenge in predictive modeling, often reducing the performance of standard algorithms. Although various approaches address this issue, most are tailored to classification problems, with a limited focus on regression. This paper introduces a novel method to improve learning on tabular data within the Imbalanced Regression (IR) framework, which is a critical problem. We propose using Variational Autoencoders (VAEs) to model and define a latent representation of data distributions. However, VAEs can be inefficient with imbalanced data like other standard approaches. To address this, we develop an innovative data generation method that combines a disentangled VAE with a Smoothed Bootstrap applied in the latent space. We evaluate the efficiency of this method through numerical comparisons with competitors on benchmark datasets for IR.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Disentangled Deep Smoothed Bootstrap for Fair Imbalanced Regression

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in ...

Tuning-Free Structured Sparse Recovery of Multiple Measurement Vectors using Imp...

GaussDetect-LiNGAM:Causal Direction Identification without Gaussianity test

Parameter-Efficient Augment Plugin for Class-Incremental Learning

Mitigating the Curse of Detail: Scaling Arguments for Feature Learning and Sampl...

Навигация