LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence

2509.03505v1 cs.LG, cs.AI, cs.CL 2025-09-05
Авторы:

Xingxuan Zhang, Gang Ren, Han Yu, Hao Yuan, Hui Wang, Jiansheng Li, Jiayun Wu, Lang Mo, Li Mao, Mingchao Hao, Ningbo Dai, Renzhe Xu, Shuyang Li, Tianyang Zhang, Yue He, Yuanrui Wang, Yunjia Zhang, Zijing Xu, Dongzhe Li, Fang Gao, Hao Zou, Jiandong Liu, Jiashuo Liu, Jiawei Xu, Kaijie Cheng, Kehan Li, Linjun Zhou, Qing Li, Shaohua Fan, Xiaoyu Lin, Xinyan Han, Xuanyue Li, Yan Lu, Yuan Xue, Yuanyuan Jiang, Zimu Wang, Zhenlei Wang, Peng Cui

Резюме на русском

## Контекст Область исследования связана с развитием продолжительных технологий универсального знания, которые могут обрабатывать различные типы данных. Несмотря на успех моделей, ориентированных на обработку текстов и изображений, существуют значительные проблемы в обработке данных структурированного характера, таких как табличные данные. Они широко применяются в науке, технике и бизнесе, но по-прежнему представляют заметные проблемы в обработке. Один из главных трудностей заключается в том, что существующие модели не в состоянии обрабатывать такие данные с высокой точностью. Таким образом, в целях достижения универсального знания необходимо развитие моделей, которые могут эффективно работать с структурированными данными. ## Метод Методология, использованная в работе, основана на технологии **Masked Joint-Distribution Modeling**, которая позволяет модели LimiX обрабатывать структурированные данные. Данная модель рассматривается как распределение переменных, отсутствующих в данных, в сочетании с их маской. Модель позволяет решать различные задачи, такие как классификация, регрессия и восстановление отсутствующих данных, с помощью **Query-Based Conditional Prediction**. Одним из основных преимуществ этого подхода является то, что модель может быть применена к различным задачам без постоянного обучения, что упрощает ее использование. Такая архитектура позволяет LimiX быть универсальной моделью для разных типов задач, используя единое решение для различных ситуаций. ## Результаты Результаты исследования указывают на высокую точность LimiX в различных типах задач, включая классификацию, регрессию и восстановление отсутствующих данных. Он превосходит существующие модели, такие как градиентные бустинговые деревья, нейросети для табличных данных и другие модели, основанные на табличных данных. Это достигается благодаря универсальной структуре модели, которая позволяет работать с различными режимами обучения и использует единственный интерфейс для различных задач. Эти результаты были получены в результате экспериментов с данными, включая несколько бенчмарков с разными характеристиками, такими как размер, число признаков, классов и представления данных. ## Значимость Полученные результаты могут быть применены в различных областях, таких как бизнес-аналитика, химическая инженерия, финансы и медицина, чтобы сделать табличные данные более доступными и эффективными для обработки. Основное преимущество LimiX заключается в его универсальности и точности при обработке различных структурированных задач без необходимости постоянного тренирования модели. Это может привести к значительным улучшения

Abstract

We argue that progress toward general intelligence requires complementary foundation models grounded in language, the physical world, and structured data. This report presents LimiX, the first installment of our large structured-data models (LDMs). LimiX treats structured data as a joint distribution over variables and missingness, thus capable of addressing a wide range of tabular tasks through query-based conditional prediction via a single model. LimiX is pretrained using masked joint-distribution modeling with an episodic, context-conditional objective, where the model predicts for query subsets conditioned on dataset-specific contexts, supporting rapid, training-free adaptation at inference. We evaluate LimiX across 10 large structured-data benchmarks with broad regimes of sample size, feature dimensionality, class number, categorical-to-numerical feature ratio, missingness, and sample-to-feature ratios. With a single model and a unified interface, LimiX consistently surpasses strong baselines including gradient-boosting trees, deep tabular networks, recent tabular foundation models, and automated ensembles, as shown in Figure 1 and Figure 2. The superiority holds across a wide range of tasks, such as classification, regression, missing value imputation, and data generation, often by substantial margins, while avoiding task-specific architectures or bespoke training per task. All LimiX models are publicly accessible under Apache 2.0.

Ссылки и действия