Robustness is Important: Limitations of LLMs for Data Fitting
2508.19563v2
cs.LG, cs.AI, stat.AP, stat.ML
2025-09-01
Авторы:
Hejia Liu, Mochen Yang, Gediminas Adomavicius
Резюме на русском
## Контекст
Large Language Models (LLMs), изначально разработанные для языковых задач, недавно начали применяться в различных областях, включая фиттинг данных и прогнозирование. Хотя LLMs показывают выдающиеся результаты в предсказаниях, существуют значительные проблемы с их устойчивостью к изменениям данных. Такие изменения могут привести к существенно отличающимся результатам, даже если изменения не имеют отношения к основной задаче. Например, простые изменения, такие как изменение имен переменных, могут увеличить ошибку прогноза до 82%. Эта уязвимость не только ограничивает применение LLMs в широких сценариях, но и поднимает вопросы о их надежности в качестве заменителя традиционных методов описания данных.
## Метод
Для исследования этой проблемы использовались общего назначения и добавочно обученные LLMs (с использованием in-context learning или супервизированного тренировки). Измерялись показатели устойчивости LLMs к изменениям в представлении данных, включая простые изменения, такие как переименование переменных. Также проводилось рассмотрение внутренней архитектуры LLMs, в том числе исследования влияния позиций примеров и переменных внутри продвижения на скорость и точность генерации прогнозов.
## Результаты
Исследования показали, что LLMs быстро вносят изменения в прогнозы в ответ на полностью несущественные для задачи изменения в данных. Например, процент ошибки прогноза может меняться до 82% при переименовании переменных. Эти изменения не относятся к основному обучению или анализу данных, но нарушают устойчивость прогнозов LLMs. Была также выявлена неоднородная модель внимания: некоторые переменные и примеры получают больше внимания при формировании прогнозов, даже в случае, когда это не имеет никакого отношения к задаче. Доказано, что эта уязвимость присутствует как в базовых LLMs, так и в фундаментальных моделях для задач фиттинга данных.
## Значимость
Полученные результаты подчеркивают значимость улучшения устойчивости LLMs к подобным изменениям. Это необходимо для их применения в серьезных задачах, таких как фиттинг данных в моделях прогнозов. Улучшение устойчивости может повысить доверие к LLMs в таких областях, как финансы, здравоохранение и технические приложения. Более устойчивые модели LLMs могут стать более надежными инструментами для принятия решений на основе данных.
## Выводы
Несмотря на выдающиеся преимущества LLMs в предсказании, они не достигают необходимой устойчивости для применения в задачах фиттинга данных. Для решения этой проблемы необходимо разработать методы, которые сделают LLMs более устойчивыми к изменениям в данных, которые не имеют отношения к задаче. Будущие исследования должны фокусироваться на решении этой проблемы, а также на развитии моделей
Abstract
Large Language Models (LLMs) are being applied in a wide array of settings,
well beyond the typical language-oriented use cases. In particular, LLMs are
increasingly used as a plug-and-play method for fitting data and generating
predictions. Prior work has shown that LLMs, via in-context learning or
supervised fine-tuning, can perform competitively with many tabular supervised
learning techniques in terms of predictive performance. However, we identify a
critical vulnerability of using LLMs for data fitting -- making changes to data
representation that are completely irrelevant to the underlying learning task
can drastically alter LLMs' predictions on the same data. For example, simply
changing variable names can sway the size of prediction error by as much as 82%
in certain settings. Such prediction sensitivity with respect to
task-irrelevant variations manifests under both in-context learning and
supervised fine-tuning, for both close-weight and open-weight general-purpose
LLMs. Moreover, by examining the attention scores of an open-weight LLM, we
discover a non-uniform attention pattern: training examples and variable
names/values which happen to occupy certain positions in the prompt receive
more attention when output tokens are generated, even though different
positions are expected to receive roughly the same attention. This partially
explains the sensitivity in the presence of task-irrelevant variations. We also
consider a state-of-the-art tabular foundation model (TabPFN) trained
specifically for data fitting. Despite being explicitly designed to achieve
prediction robustness, TabPFN is still not immune to task-irrelevant
variations. Overall, despite LLMs' impressive predictive capabilities,
currently they lack even the basic level of robustness to be used as a
principled data-fitting tool.