Just Because You Can, Doesn't Mean You Should: LLMs for Data Fitting
2508.19563v1
cs.LG, cs.AI, stat.AP, stat.ML
2025-08-29
Авторы:
Hejia Liu, Mochen Yang, Gediminas Adomavicius
Резюме на русском
## Контекст
Large Language Models (LLMs) становятся все более популярными во всех областях применения, включая задачи не связанных с языком. Одним из таких применений является использование LLMs для данных подготовки и предсказания. Несмотря на их внеграфические возможности, LLMs не являются идеальными для таких задач. Например, изменение данных, которые не имеют отношения к задаче, может вносить существенные изменения в прогнозы LLMs. Этот вопрос требует детального изучения, чтобы понять, как LLMs обрабатывают данные и как это влияет на их прогнозы.
## Метод
Для изучения этой проблемы, авторы проводят подробный анализ работы LLMs на примерах данных. Они изучают, как LLMs воспринимают и интерпретируют данные, особое внимание уделяется проблемам, связанным с несбалансированным вниманием к определенным частям данных. Авторы также исследуют, как определенные внесенные изменения в данных могут повлиять на прогнозы LLMs, даже когда эти изменения не имеют отношения к задаче.
## Результаты
Исследования показали, что LLMs нередко оказываются чувствительными к изменениям данных, которые не имеют отношения к задаче. Например, простое изменение имён переменных может изменить ошибку прогноза на 82%. Анализ акцентов (attention scores) открытого типа LLM показал, что он неравномерно реагирует на различные части входных данных, даже когда это не должно происходить. Также было изучено специально разработанное для данных формирования TabPFN-система, но даже она не оказалась особенно устойчивой к таким изменениям.
## Значимость
Полученные результаты имеют значительное значение для различных областей, в которых используются LLM для формирования данных. Особенно важно для систем, где точность прогнозов критична, таких как финансы, медицина и исследования. Использование LLMs для таких приложений может привести к ошибкам, если не будет приняты меры по улучшению их устойчивости.
## Выводы
LLMs показывают великолепную подавляющую мощь и гибкость в обработке текста. Однако, когда применяются для формирования данных, они становятся чувствительными к изменениям, влияющим на прогнозы, даже если эти изменения не имеют отношения к задаче. Этот механизм требует дальнейшего рассмотрения и улучшения. Будущие исследования должны фокусироваться на улучшении устойчивости LLMs к задачу непосредственного прогнозирования.
Abstract
Large Language Models (LLMs) are being applied in a wide array of settings,
well beyond the typical language-oriented use cases. In particular, LLMs are
increasingly used as a plug-and-play method for fitting data and generating
predictions. Prior work has shown that LLMs, via in-context learning or
supervised fine-tuning, can perform competitively with many tabular supervised
learning techniques in terms of predictive performance. However, we identify a
critical vulnerability of using LLMs for data fitting -- making changes to data
representation that are completely irrelevant to the underlying learning task
can drastically alter LLMs' predictions on the same data. For example, simply
changing variable names can sway the size of prediction error by as much as 82%
in certain settings. Such prediction sensitivity with respect to
task-irrelevant variations manifests under both in-context learning and
supervised fine-tuning, for both close-weight and open-weight general-purpose
LLMs. Moreover, by examining the attention scores of an open-weight LLM, we
discover a non-uniform attention pattern: training examples and variable
names/values which happen to occupy certain positions in the prompt receive
more attention when output tokens are generated, even though different
positions are expected to receive roughly the same attention. This partially
explains the sensitivity in the presence of task-irrelevant variations. We also
consider a state-of-the-art tabular foundation model (TabPFN) trained
specifically for data fitting. Despite being explicitly designed to achieve
prediction robustness, TabPFN is still not immune to task-irrelevant
variations. Overall, despite LLMs' impressive predictive capabilities,
currently they lack even the basic level of robustness to be used as a
principled data-fitting tool.