xRFM: Accurate, scalable, and interpretable feature learning models for tabular data

2508.10053v1 cs.LG, stat.ML 2025-08-15
Авторы:

Daniel Beaglehole, David Holzmüller, Adityanarayanan Radhakrishnan, Mikhail Belkin

Резюме на русском

## Контекст Современная техонология и наука строится на анализе и прогнозировании данных, которые часто представлены в виде табличных данных — матриц из непрерывных и категориальных переменных. Однако, несмотря на огромное значение таких данных, проблема их прогнозирования уже десятилетия остается неизменной. Несмотря на то, что ИИ в своих различных аспектах быстро развивается, стандартными методами для табличных данных в большинстве случаев остаются градиентно уклонные решающие деревья (Gradient Boosted Decision Trees, GBDTs). Несмотря на их эффективность, они имеют ограничения в скорости обучения и способности выразить сложные зависимости, что может быть критично для некоторых задач. В этой работе мы предлагаем xRFM, новую модель, которая использует возможности нейронных сетей и градиентных деревьев для более точного, стабильного и интерпретируемого прогнозирования. ## Метод xRFM сочетает в себе мощь ядерных методов и градиентных деревьев, чтобы обеспечить точность и мощь обучения. Модель обучается с помощью локальных ядер, которые адаптируются к локальным свойствам данных, а затем эти локальные модели объединяются в глобальную структуру, основанную на градиентных деревьях. Это позволяет xRFM эффективно использовать большие объемы данных, а также тщательно анализировать локальную структуру. Модель также включает в себя средства интерпретирования, чтобы помочь пользователю понять, как именно она приходит к определенным прогнозам. ## Результаты Мы провели тестирование xRFM на $100$ регрессионных и $200$ классификационных данных. Она показала себя лучше $31$ других методов, включая GBDTs и TabPFNv2. Где-то она достигла самого высокого результата, а где-то была конкурентоспособна, но не стала лидирующей. Особенно значительными являются результаты в регрессионных задачах, где xRFM доминирует. Кроме того, модель предлагает интерпретируемые результаты, например, через среднее произведение внешних производных, что позволяет пользователям понять, почему она пришла к определенному прогнозу. ## Значимость xRFM может быть применена во многих областях, где требуется прогнозирование и анализ на основе табличных данных, например в финансах, медицине, интернет-рекламе и моделировании экологических процессов. Она превосходит GBDTs по скорости обучения и точности, что делает ее привлекательной для задач, требующих быстрого и точного решения. Кроме того, ее интерпретируемость делает ее полезной для организаций, требующих понятных моделей для принятия решений. ## Выводы xRFM доказывает, что можно сочетать простоту и эффективность градиентных деревь

Abstract

Inference from tabular data, collections of continuous and categorical variables organized into matrices, is a foundation for modern technology and science. Yet, in contrast to the explosive changes in the rest of AI, the best practice for these predictive tasks has been relatively unchanged and is still primarily based on variations of Gradient Boosted Decision Trees (GBDTs). Very recently, there has been renewed interest in developing state-of-the-art methods for tabular data based on recent developments in neural networks and feature learning methods. In this work, we introduce xRFM, an algorithm that combines feature learning kernel machines with a tree structure to both adapt to the local structure of the data and scale to essentially unlimited amounts of training data. We show that compared to $31$ other methods, including recently introduced tabular foundation models (TabPFNv2) and GBDTs, xRFM achieves best performance across $100$ regression datasets and is competitive to the best methods across $200$ classification datasets outperforming GBDTs. Additionally, xRFM provides interpretability natively through the Average Gradient Outer Product.

Ссылки и действия