Do LLMs Adhere to Label Definitions? Examining Their Receptivity to External Label Definitions

2509.02452v1 cs.CL, cs.AI, cs.LG 2025-09-05

Авторы:

Seyedali Mohammadi, Bhaskara Hanuma Vedula, Hemank Lamba, Edward Raff, Ponnurangam Kumaraguru, Francis Ferraro, Manas Gaur

Резюме на русском

## Контекст Сложные нейронные сети, такие как генеративные модели и семантические локальные модели (LLM), достигли впечатляющих результатов в области обработки естественного языка. Однако поведение этих моделей часто остается непредсказуемым, особенно когда им предлагаются внешние данные или определения. Это становится критически важной проблемой при использовании таких моделей в критически важных задачах, таких как генерация медицинских отчетов или юридических документов. Насколько хорошо LLM прислушиваются к внешним определениям, а не доверяют своим внутренним представлениям? Этот вопрос приобретает ключевое значение при поиске решений, которые могут обеспечить более транспарентное и предсказуемое взаимодействие с моделями. Мотивирует эти рассмотрения актуальность задачи глубокого понимания и контроля поведения моделей в различных условиях. ## Метод Для изучения влияния внешних определений на модели LLM проводятся контролируемые эксперименты с использованием нескольких тестовых наборов данных, охватывающих общие и домен-специфические задачи. Модели подвергаются тестированию в условиях различных определений ярлыков (labels), включая экспертно-подготовленные, генерируемые LLM, подложенные (perturbed) и замененные ярлыки. Это позволяет оценивать, насколько эффективно модели интегрируют внешние определения в свое решающее процесс, и тщательно рассматриваются результаты с точки зрения точности и понятности. Далее, проводятся аналитические процедуры для изучения относительного вклада внешних определений в работу модели, а также для выявления мотивов, по которым модели могут прибегать к их внутренним представлениям вместо внешних определений. ## Результаты Эксперименты показали, что LLM могут существенно повысить точность и понятность решений при использовании внешних определений, но это не гарантируется во всех случаях. На общих задачах модели часто прибегают к внутренним представлениям, в то время как в домен-специфических задачах внешние определения демонстрируют более выраженный эффект. Однако, даже в случае домен-специфических задач, LLM могут придерживаться внутренних представлений, если они считают, что внешние определения недостаточно точные или неполные. Это подтверждает, что модели, несмотря на внешние вклады, часто остаются зависимыми от своих предварительно обученных структур. ## Значимость Полученные результаты имеют большое значение в сфере глубокого обучения и применений моделей в критически важных областях, таких как медицина, право и финансы. Исследование показывает, что внешние определения могут не только улуч

Abstract

Do LLMs genuinely incorporate external definitions, or do they primarily rely on their parametric knowledge? To address these questions, we conduct controlled experiments across multiple explanation benchmark datasets (general and domain-specific) and label definition conditions, including expert-curated, LLM-generated, perturbed, and swapped definitions. Our results reveal that while explicit label definitions can enhance accuracy and explainability, their integration into an LLM's task-solving processes is neither guaranteed nor consistent, suggesting reliance on internalized representations in many cases. Models often default to their internal representations, particularly in general tasks, whereas domain-specific tasks benefit more from explicit definitions. These findings underscore the need for a deeper understanding of how LLMs process external knowledge alongside their pre-existing capabilities.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Do LLMs Adhere to Label Definitions? Examining Their Receptivity to External Label Definitions

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация