Provable In-Context Vector Arithmetic via Retrieving Task Concepts

2508.09820v1 cs.LG, cs.AI 2025-08-15
Авторы:

Dake Bu, Wei Huang, Andi Han, Atsushi Nitanda, Qingfu Zhang, Hau-San Wong, Taiji Suzuki

Резюме на русском

#### Контекст In-context learning (ICL) — эффективный метод обучения в целях адаптации л LLM к новым задачам с помощью примеров. Несмотря на выдающиеся результаты, существуют ограничения: недостаточная ясность по поводу физических процессов, которые делают ICL эффективным. Основной вопрос: как LLM усваивает новые понятия и выполняет такие задачи как Word2Vec-like vector arithmetic? Этот вопрос становится важным, если считать, что внутри LLM лежит некий latent task/function vector. Недавние исследования Merullo et al. (2024) демонстрируют, что LLM успешно решает задачи с векторным арифметикой, используя latent vector и residual stream. Тем не менее, теоретическая обоснование этих наблюдений недостаточно. Наша цель — развить теоретическую модель, которая будет опираться на данные о задачах и показать, как LLM решает задачи с использованием этого latent vector. #### Метод Мы привлекаем к исследованию теоретическую модель, основанную на hierarchical concept modeling. Основное внимание уделяется nonlinear residual transformers, которые обучаются с помощью gradient descent на cross-entropy loss. Мы определяем, как эта модель выполняет ICL задачи, опираясь на latent task/function vector. Наша модель акцентируется на nonlinearities в residual stream и включает в себя теорему о сходимости 0-1 loss. Мы также приводим доказательство strong generalization и robustness в случае recombination concepts и distribution shifts. Эти результаты позволяют понять, почему nonlinear residual transformers выигрывают над статичными embedding-based predecessors. #### Результаты Мы проводим эксперименты, используя данные с включенным latent vector, и показываем, что LLM может выполнять Word2Vec-like vector arithmetic задачи с помощью latent task/function vector. Мы проверяем нашу теоретическую модель, изучая ситуации с концепт-recombination и distribution shifts. Оказывается, что nonlinear residual transformers обеспечивают высокую robustness и высокое generalization. Эти результаты подтверждают теоретические выводы, демонстрируя преимущества transformers над статичными embedding-based approaches. #### Значимость Наши результаты имеют большое значение в нескольких областях. В первую очередь, они показывают, как LLM может выполнять ICL задачи, опираясь на latent vector и residual stream. Это открывает новые возможности в области обучения с примерами. Также, наша модель показывает, как LLM может generalize и быть robust в случае сложных задач, включая recombination concepts и distribution shifts. Эти достижения имеют перспективы в приложениях, таких как NLP, NLU и другие области, где ICL играет ключевую роль. #### Выводы Мы доказали, что nonlinear residual transformers могут выполнять ICL задачи с помощью latent task/function vector. Этот подход позволяет выполнять Word2Vec-like vector arithmetic задачи с высокой точностью и гибкостью. Мы также показали, что наша модель обеспечивает strong generalization и robustness в сложных ситуациях. Основными направлениями будущих исследований является расширение теории для других типов задач, а также изучение динамики обучения в целях улучшения модели.

Abstract

In-context learning (ICL) has garnered significant attention for its ability to grasp functions/tasks from demonstrations. Recent studies suggest the presence of a latent task/function vector in LLMs during ICL. Merullo et al. (2024) showed that LLMs leverage this vector alongside the residual stream for Word2Vec-like vector arithmetic, solving factual-recall ICL tasks. Additionally, recent work empirically highlighted the key role of Question-Answer data in enhancing factual-recall capabilities. Despite these insights, a theoretical explanation remains elusive. To move one step forward, we propose a theoretical framework building on empirically grounded hierarchical concept modeling. We develop an optimization theory, showing how nonlinear residual transformers trained via gradient descent on cross-entropy loss perform factual-recall ICL tasks via vector arithmetic. We prove 0-1 loss convergence and show the strong generalization, including robustness to concept recombination and distribution shifts. These results elucidate the advantages of transformers over static embedding predecessors. Empirical simulations corroborate our theoretical insights.

Ссылки и действия