Just Because You Can, Doesn't Mean You Should: LLMs for Data Fitting

2508.19563v1 cs.LG, cs.AI, stat.AP, stat.ML 2025-08-29
Авторы:

Hejia Liu, Mochen Yang, Gediminas Adomavicius

Резюме на русском

## Контекст Large Language Models (LLMs) становятся все более популярными во всех областях применения, включая задачи не связанных с языком. Одним из таких применений является использование LLMs для данных подготовки и предсказания. Несмотря на их внеграфические возможности, LLMs не являются идеальными для таких задач. Например, изменение данных, которые не имеют отношения к задаче, может вносить существенные изменения в прогнозы LLMs. Этот вопрос требует детального изучения, чтобы понять, как LLMs обрабатывают данные и как это влияет на их прогнозы. ## Метод Для изучения этой проблемы, авторы проводят подробный анализ работы LLMs на примерах данных. Они изучают, как LLMs воспринимают и интерпретируют данные, особое внимание уделяется проблемам, связанным с несбалансированным вниманием к определенным частям данных. Авторы также исследуют, как определенные внесенные изменения в данных могут повлиять на прогнозы LLMs, даже когда эти изменения не имеют отношения к задаче. ## Результаты Исследования показали, что LLMs нередко оказываются чувствительными к изменениям данных, которые не имеют отношения к задаче. Например, простое изменение имён переменных может изменить ошибку прогноза на 82%. Анализ акцентов (attention scores) открытого типа LLM показал, что он неравномерно реагирует на различные части входных данных, даже когда это не должно происходить. Также было изучено специально разработанное для данных формирования TabPFN-система, но даже она не оказалась особенно устойчивой к таким изменениям. ## Значимость Полученные результаты имеют значительное значение для различных областей, в которых используются LLM для формирования данных. Особенно важно для систем, где точность прогнозов критична, таких как финансы, медицина и исследования. Использование LLMs для таких приложений может привести к ошибкам, если не будет приняты меры по улучшению их устойчивости. ## Выводы LLMs показывают великолепную подавляющую мощь и гибкость в обработке текста. Однако, когда применяются для формирования данных, они становятся чувствительными к изменениям, влияющим на прогнозы, даже если эти изменения не имеют отношения к задаче. Этот механизм требует дальнейшего рассмотрения и улучшения. Будущие исследования должны фокусироваться на улучшении устойчивости LLMs к задачу непосредственного прогнозирования.

Abstract

Large Language Models (LLMs) are being applied in a wide array of settings, well beyond the typical language-oriented use cases. In particular, LLMs are increasingly used as a plug-and-play method for fitting data and generating predictions. Prior work has shown that LLMs, via in-context learning or supervised fine-tuning, can perform competitively with many tabular supervised learning techniques in terms of predictive performance. However, we identify a critical vulnerability of using LLMs for data fitting -- making changes to data representation that are completely irrelevant to the underlying learning task can drastically alter LLMs' predictions on the same data. For example, simply changing variable names can sway the size of prediction error by as much as 82% in certain settings. Such prediction sensitivity with respect to task-irrelevant variations manifests under both in-context learning and supervised fine-tuning, for both close-weight and open-weight general-purpose LLMs. Moreover, by examining the attention scores of an open-weight LLM, we discover a non-uniform attention pattern: training examples and variable names/values which happen to occupy certain positions in the prompt receive more attention when output tokens are generated, even though different positions are expected to receive roughly the same attention. This partially explains the sensitivity in the presence of task-irrelevant variations. We also consider a state-of-the-art tabular foundation model (TabPFN) trained specifically for data fitting. Despite being explicitly designed to achieve prediction robustness, TabPFN is still not immune to task-irrelevant variations. Overall, despite LLMs' impressive predictive capabilities, currently they lack even the basic level of robustness to be used as a principled data-fitting tool.

Ссылки и действия

Связанные статьи

Robustness is Important: Limitations of LLMs for Data Fitting

## Контекст Large Language Models (LLMs), изначально разработанные для языковых задач, недавно начали применяться в разл...

2025-09-01