Do LLMs Adhere to Label Definitions? Examining Their Receptivity to External Label Definitions
2509.02452v1
cs.CL, cs.AI, cs.LG
2025-09-05
Авторы:
Seyedali Mohammadi, Bhaskara Hanuma Vedula, Hemank Lamba, Edward Raff, Ponnurangam Kumaraguru, Francis Ferraro, Manas Gaur
Резюме на русском
## Контекст
Сложные нейронные сети, такие как генеративные модели и семантические локальные модели (LLM), достигли впечатляющих результатов в области обработки естественного языка. Однако поведение этих моделей часто остается непредсказуемым, особенно когда им предлагаются внешние данные или определения. Это становится критически важной проблемой при использовании таких моделей в критически важных задачах, таких как генерация медицинских отчетов или юридических документов. Насколько хорошо LLM прислушиваются к внешним определениям, а не доверяют своим внутренним представлениям? Этот вопрос приобретает ключевое значение при поиске решений, которые могут обеспечить более транспарентное и предсказуемое взаимодействие с моделями. Мотивирует эти рассмотрения актуальность задачи глубокого понимания и контроля поведения моделей в различных условиях.
## Метод
Для изучения влияния внешних определений на модели LLM проводятся контролируемые эксперименты с использованием нескольких тестовых наборов данных, охватывающих общие и домен-специфические задачи. Модели подвергаются тестированию в условиях различных определений ярлыков (labels), включая экспертно-подготовленные, генерируемые LLM, подложенные (perturbed) и замененные ярлыки. Это позволяет оценивать, насколько эффективно модели интегрируют внешние определения в свое решающее процесс, и тщательно рассматриваются результаты с точки зрения точности и понятности. Далее, проводятся аналитические процедуры для изучения относительного вклада внешних определений в работу модели, а также для выявления мотивов, по которым модели могут прибегать к их внутренним представлениям вместо внешних определений.
## Результаты
Эксперименты показали, что LLM могут существенно повысить точность и понятность решений при использовании внешних определений, но это не гарантируется во всех случаях. На общих задачах модели часто прибегают к внутренним представлениям, в то время как в домен-специфических задачах внешние определения демонстрируют более выраженный эффект. Однако, даже в случае домен-специфических задач, LLM могут придерживаться внутренних представлений, если они считают, что внешние определения недостаточно точные или неполные. Это подтверждает, что модели, несмотря на внешние вклады, часто остаются зависимыми от своих предварительно обученных структур.
## Значимость
Полученные результаты имеют большое значение в сфере глубокого обучения и применений моделей в критически важных областях, таких как медицина, право и финансы. Исследование показывает, что внешние определения могут не только улуч
Abstract
Do LLMs genuinely incorporate external definitions, or do they primarily rely
on their parametric knowledge? To address these questions, we conduct
controlled experiments across multiple explanation benchmark datasets (general
and domain-specific) and label definition conditions, including expert-curated,
LLM-generated, perturbed, and swapped definitions. Our results reveal that
while explicit label definitions can enhance accuracy and explainability, their
integration into an LLM's task-solving processes is neither guaranteed nor
consistent, suggesting reliance on internalized representations in many cases.
Models often default to their internal representations, particularly in general
tasks, whereas domain-specific tasks benefit more from explicit definitions.
These findings underscore the need for a deeper understanding of how LLMs
process external knowledge alongside their pre-existing capabilities.
Ссылки и действия
Дополнительные ресурсы: