Авторы:
Xingxuan Zhang, Gang Ren, Han Yu, Hao Yuan, Hui Wang, Jiansheng Li, Jiayun Wu, Lang Mo, Li Mao, Mingchao Hao, Ningbo Dai, Renzhe Xu, Shuyang Li, Tianyang Zhang, Yue He, Yuanrui Wang, Yunjia Zhang, Zijing Xu, Dongzhe Li, Fang Gao, Hao Zou, Jiandong Liu, Jiashuo Liu, Jiawei Xu, Kaijie Cheng, Kehan Li, Linjun Zhou, Qing Li, Shaohua Fan, Xiaoyu Lin, Xinyan Han, Xuanyue Li, Yan Lu, Yuan Xue, Yuanyuan Jiang, Zimu Wang, Zhenlei Wang, Peng Cui
## Контекст
Область исследования связана с развитием продолжительных технологий универсального знания, которые могут обрабатывать различные типы данных. Несмотря на успех моделей, ориентированных на обработку текстов и изображений, существуют значительные проблемы в обработке данных структурированного характера, таких как табличные данные. Они широко применяются в науке, технике и бизнесе, но по-прежнему представляют заметные проблемы в обработке. Один из главных трудностей заключается в том, что существующие модели не в состоянии обрабатывать такие данные с высокой точностью. Таким образом, в целях достижения универсального знания необходимо развитие моделей, которые могут эффективно работать с структурированными данными.
## Метод
Методология, использованная в работе, основана на технологии **Masked Joint-Distribution Modeling**, которая позволяет модели LimiX обрабатывать структурированные данные. Данная модель рассматривается как распределение переменных, отсутствующих в данных, в сочетании с их маской. Модель позволяет решать различные задачи, такие как классификация, регрессия и восстановление отсутствующих данных, с помощью **Query-Based Conditional Prediction**. Одним из основных преимуществ этого подхода является то, что модель может быть применена к различным задачам без постоянного обучения, что упрощает ее использование. Такая архитектура позволяет LimiX быть универсальной моделью для разных типов задач, используя единое решение для различных ситуаций.
## Результаты
Результаты исследования указывают на высокую точность LimiX в различных типах задач, включая классификацию, регрессию и восстановление отсутствующих данных. Он превосходит существующие модели, такие как градиентные бустинговые деревья, нейросети для табличных данных и другие модели, основанные на табличных данных. Это достигается благодаря универсальной структуре модели, которая позволяет работать с различными режимами обучения и использует единственный интерфейс для различных задач. Эти результаты были получены в результате экспериментов с данными, включая несколько бенчмарков с разными характеристиками, такими как размер, число признаков, классов и представления данных.
## Значимость
Полученные результаты могут быть применены в различных областях, таких как бизнес-аналитика, химическая инженерия, финансы и медицина, чтобы сделать табличные данные более доступными и эффективными для обработки. Основное преимущество LimiX заключается в его универсальности и точности при обработке различных структурированных задач без необходимости постоянного тренирования модели. Это может привести к значительным улучшения
Annotation:
We argue that progress toward general intelligence requires complementary
foundation models grounded in language, the physical world, and structured
data. This report presents LimiX, the first installment of our large
structured-data models (LDMs). LimiX treats structured data as a joint
distribution over variables and missingness, thus capable of addressing a wide
range of tabular tasks through query-based conditional prediction via a single
model. LimiX is pretrained using masked joint-distrib...
ID: 2509.03505v1
cs.LG, cs.AI, cs.CL