Large Language Models as Universal Predictors? An Empirical Study on Small Tabular Datasets
2508.17391v1
cs.AI, cs.CL
2025-08-27
Авторы:
Nikolaos Pavlidis, Vasilis Perifanis, Symeon Symeonidis, Pavlos S. Efraimidis
Резюме на русском
#### Контекст
Large Language Models (LLMs), развиты для обработки естественных языков, продемонстрировали возможность общего применения в различных областях. Используя внедренное обучение (in-context learning, ICL), LLMs могут выполнять предсказательные задачи структурированных данных без прямого оптимизационного адаптирования к конкретным задачам. Однако, необходимо изучить их эффективность на реальных структурированных данных, особенно в контексте малограмотных наборов данных. В настоящем исследовании мы исследуем эмпирические возможности LLMs в качестве предсказателей для классификации, регрессии и кластеризации на небольших табличных наборах данных, а также проводим сравнение с методами машинного обучения, такими как линейные модели, пакетные методы и модели воспроизводства табличных данных.
#### Метод
Мы используем несколько моделей LLMs, включая GPT-5, GPT-4o, GPT-o3, Gemini-2.5-Flash и DeepSeek-R1, применяемые в условиях нескольких выводов (few-shot prompting). Для оценки качества прогнозирования мы используем метрики качества, такие как точность классификации, MAE для регрессии и silhouette score для кластеризации. Для машинного обучения мы применяем классические модели, такие как линейные регрессоры, случайный лес и модели XGBoost, а также модели Tabular Foundation Models (TFMs), оптимизированные для табличных данных. Данные для экспериментов были сгенерированы из различных типов задач наборов данных, включая категориальные и числовые признаки.
#### Результаты
LLMs доказали высокую эффективность в задачах классификации даже при ограниченных объемах данных, устанавливая базовые значения для нулевого обучения. Однако, в задачах регрессии, где требуется прогнозирование непрерывных значений, результаты LLMs были значительно хуже, чем у использованных ML-моделей. Это можно объяснить тем, что регрессионные задачи требуют прогнозирования в большом (или бесконечном) пространстве значений. Для кластеризации результаты LLMs также остались невысокими, что можно связать с отсутствием реального внедренного обучения в этой области.
#### Значимость
Наше исследование открывает новые возможности для применения LLMs в бизнес-аналитике и эксплорейторных задачах, где необходим быстрый анализ данных. Модели LLMs могут стать важной альтернативой традиционным ML-процессам в таких областях. Мы также выявили, что качество прогнозирования LLMs сильно зависит от контекстного размера и структуры карт запросов (prompts), что может помочь оптимизировать их применение в практических ситуациях.
#### Выводы
Мы показали, что LLMs могут выступать как универсальные предсказатели для структурированных данных, при этом имеют сильные стороны в задачах классификации и существенные ограничения в регрессии и
Abstract
Large Language Models (LLMs), originally developed for natural language
processing (NLP), have demonstrated the potential to generalize across
modalities and domains. With their in-context learning (ICL) capabilities, LLMs
can perform predictive tasks over structured inputs without explicit
fine-tuning on downstream tasks. In this work, we investigate the empirical
function approximation capability of LLMs on small-scale structured datasets
for classification, regression and clustering tasks. We evaluate the
performance of state-of-the-art LLMs (GPT-5, GPT-4o, GPT-o3, Gemini-2.5-Flash,
DeepSeek-R1) under few-shot prompting and compare them against established
machine learning (ML) baselines, including linear models, ensemble methods and
tabular foundation models (TFMs). Our results show that LLMs achieve strong
performance in classification tasks under limited data availability,
establishing practical zero-training baselines. In contrast, the performance in
regression with continuous-valued outputs is poor compared to ML models, likely
because regression demands outputs in a large (often infinite) space, and
clustering results are similarly limited, which we attribute to the absence of
genuine ICL in this setting. Nonetheless, this approach enables rapid,
low-overhead data exploration and offers a viable alternative to traditional ML
pipelines in business intelligence and exploratory analytics contexts. We
further analyze the influence of context size and prompt structure on
approximation quality, identifying trade-offs that affect predictive
performance. Our findings suggest that LLMs can serve as general-purpose
predictive engines for structured data, with clear strengths in classification
and significant limitations in regression and clustering.
Ссылки и действия
Дополнительные ресурсы: