Large Language Models as Universal Predictors? An Empirical Study on Small Tabular Datasets

2508.17391v1 cs.AI, cs.CL 2025-08-27
Авторы:

Nikolaos Pavlidis, Vasilis Perifanis, Symeon Symeonidis, Pavlos S. Efraimidis

Резюме на русском

#### Контекст Large Language Models (LLMs), развиты для обработки естественных языков, продемонстрировали возможность общего применения в различных областях. Используя внедренное обучение (in-context learning, ICL), LLMs могут выполнять предсказательные задачи структурированных данных без прямого оптимизационного адаптирования к конкретным задачам. Однако, необходимо изучить их эффективность на реальных структурированных данных, особенно в контексте малограмотных наборов данных. В настоящем исследовании мы исследуем эмпирические возможности LLMs в качестве предсказателей для классификации, регрессии и кластеризации на небольших табличных наборах данных, а также проводим сравнение с методами машинного обучения, такими как линейные модели, пакетные методы и модели воспроизводства табличных данных. #### Метод Мы используем несколько моделей LLMs, включая GPT-5, GPT-4o, GPT-o3, Gemini-2.5-Flash и DeepSeek-R1, применяемые в условиях нескольких выводов (few-shot prompting). Для оценки качества прогнозирования мы используем метрики качества, такие как точность классификации, MAE для регрессии и silhouette score для кластеризации. Для машинного обучения мы применяем классические модели, такие как линейные регрессоры, случайный лес и модели XGBoost, а также модели Tabular Foundation Models (TFMs), оптимизированные для табличных данных. Данные для экспериментов были сгенерированы из различных типов задач наборов данных, включая категориальные и числовые признаки. #### Результаты LLMs доказали высокую эффективность в задачах классификации даже при ограниченных объемах данных, устанавливая базовые значения для нулевого обучения. Однако, в задачах регрессии, где требуется прогнозирование непрерывных значений, результаты LLMs были значительно хуже, чем у использованных ML-моделей. Это можно объяснить тем, что регрессионные задачи требуют прогнозирования в большом (или бесконечном) пространстве значений. Для кластеризации результаты LLMs также остались невысокими, что можно связать с отсутствием реального внедренного обучения в этой области. #### Значимость Наше исследование открывает новые возможности для применения LLMs в бизнес-аналитике и эксплорейторных задачах, где необходим быстрый анализ данных. Модели LLMs могут стать важной альтернативой традиционным ML-процессам в таких областях. Мы также выявили, что качество прогнозирования LLMs сильно зависит от контекстного размера и структуры карт запросов (prompts), что может помочь оптимизировать их применение в практических ситуациях. #### Выводы Мы показали, что LLMs могут выступать как универсальные предсказатели для структурированных данных, при этом имеют сильные стороны в задачах классификации и существенные ограничения в регрессии и

Abstract

Large Language Models (LLMs), originally developed for natural language processing (NLP), have demonstrated the potential to generalize across modalities and domains. With their in-context learning (ICL) capabilities, LLMs can perform predictive tasks over structured inputs without explicit fine-tuning on downstream tasks. In this work, we investigate the empirical function approximation capability of LLMs on small-scale structured datasets for classification, regression and clustering tasks. We evaluate the performance of state-of-the-art LLMs (GPT-5, GPT-4o, GPT-o3, Gemini-2.5-Flash, DeepSeek-R1) under few-shot prompting and compare them against established machine learning (ML) baselines, including linear models, ensemble methods and tabular foundation models (TFMs). Our results show that LLMs achieve strong performance in classification tasks under limited data availability, establishing practical zero-training baselines. In contrast, the performance in regression with continuous-valued outputs is poor compared to ML models, likely because regression demands outputs in a large (often infinite) space, and clustering results are similarly limited, which we attribute to the absence of genuine ICL in this setting. Nonetheless, this approach enables rapid, low-overhead data exploration and offers a viable alternative to traditional ML pipelines in business intelligence and exploratory analytics contexts. We further analyze the influence of context size and prompt structure on approximation quality, identifying trade-offs that affect predictive performance. Our findings suggest that LLMs can serve as general-purpose predictive engines for structured data, with clear strengths in classification and significant limitations in regression and clustering.

Ссылки и действия