Robustness is Important: Limitations of LLMs for Data Fitting

2508.19563v2 cs.LG, cs.AI, stat.AP, stat.ML 2025-09-01

Авторы:

Hejia Liu, Mochen Yang, Gediminas Adomavicius

Резюме на русском

## Контекст Large Language Models (LLMs), изначально разработанные для языковых задач, недавно начали применяться в различных областях, включая фиттинг данных и прогнозирование. Хотя LLMs показывают выдающиеся результаты в предсказаниях, существуют значительные проблемы с их устойчивостью к изменениям данных. Такие изменения могут привести к существенно отличающимся результатам, даже если изменения не имеют отношения к основной задаче. Например, простые изменения, такие как изменение имен переменных, могут увеличить ошибку прогноза до 82%. Эта уязвимость не только ограничивает применение LLMs в широких сценариях, но и поднимает вопросы о их надежности в качестве заменителя традиционных методов описания данных. ## Метод Для исследования этой проблемы использовались общего назначения и добавочно обученные LLMs (с использованием in-context learning или супервизированного тренировки). Измерялись показатели устойчивости LLMs к изменениям в представлении данных, включая простые изменения, такие как переименование переменных. Также проводилось рассмотрение внутренней архитектуры LLMs, в том числе исследования влияния позиций примеров и переменных внутри продвижения на скорость и точность генерации прогнозов. ## Результаты Исследования показали, что LLMs быстро вносят изменения в прогнозы в ответ на полностью несущественные для задачи изменения в данных. Например, процент ошибки прогноза может меняться до 82% при переименовании переменных. Эти изменения не относятся к основному обучению или анализу данных, но нарушают устойчивость прогнозов LLMs. Была также выявлена неоднородная модель внимания: некоторые переменные и примеры получают больше внимания при формировании прогнозов, даже в случае, когда это не имеет никакого отношения к задаче. Доказано, что эта уязвимость присутствует как в базовых LLMs, так и в фундаментальных моделях для задач фиттинга данных. ## Значимость Полученные результаты подчеркивают значимость улучшения устойчивости LLMs к подобным изменениям. Это необходимо для их применения в серьезных задачах, таких как фиттинг данных в моделях прогнозов. Улучшение устойчивости может повысить доверие к LLMs в таких областях, как финансы, здравоохранение и технические приложения. Более устойчивые модели LLMs могут стать более надежными инструментами для принятия решений на основе данных. ## Выводы Несмотря на выдающиеся преимущества LLMs в предсказании, они не достигают необходимой устойчивости для применения в задачах фиттинга данных. Для решения этой проблемы необходимо разработать методы, которые сделают LLMs более устойчивыми к изменениям в данных, которые не имеют отношения к задаче. Будущие исследования должны фокусироваться на решении этой проблемы, а также на развитии моделей

Abstract

Large Language Models (LLMs) are being applied in a wide array of settings, well beyond the typical language-oriented use cases. In particular, LLMs are increasingly used as a plug-and-play method for fitting data and generating predictions. Prior work has shown that LLMs, via in-context learning or supervised fine-tuning, can perform competitively with many tabular supervised learning techniques in terms of predictive performance. However, we identify a critical vulnerability of using LLMs for data fitting -- making changes to data representation that are completely irrelevant to the underlying learning task can drastically alter LLMs' predictions on the same data. For example, simply changing variable names can sway the size of prediction error by as much as 82% in certain settings. Such prediction sensitivity with respect to task-irrelevant variations manifests under both in-context learning and supervised fine-tuning, for both close-weight and open-weight general-purpose LLMs. Moreover, by examining the attention scores of an open-weight LLM, we discover a non-uniform attention pattern: training examples and variable names/values which happen to occupy certain positions in the prompt receive more attention when output tokens are generated, even though different positions are expected to receive roughly the same attention. This partially explains the sensitivity in the presence of task-irrelevant variations. We also consider a state-of-the-art tabular foundation model (TabPFN) trained specifically for data fitting. Despite being explicitly designed to achieve prediction robustness, TabPFN is still not immune to task-irrelevant variations. Overall, despite LLMs' impressive predictive capabilities, currently they lack even the basic level of robustness to be used as a principled data-fitting tool.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Robustness is Important: Limitations of LLMs for Data Fitting

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing

Multi-task neural diffusion processes for uncertainty-quantified wind power pred...

Just Because You Can, Doesn't Mean You Should: LLMs for Data Fitting

Навигация