AttnTrace: Attention-based Context Traceback for Long-Context LLMs

2508.03793v1 cs.CL, cs.CR 2025-08-09
Авторы:

Yanting Wang, Runpeng Geng, Ying Chen, Jinyuan Jia

Резюме на русском

Длинноконтекстные генеративные модели языка (LLM), такие как Gemini-2.5-Pro и Claude-Sonnet-4, востребованы в системах с использованием знаний, включая технологии RAG и автономные агенты. Их возможность обращаться к контексту для генерирования ответов делает их незаменимыми в различных приложениях, включая анализ после атак, улучшение надёжности и понимания результатов. Однако существующие методы быстрого отслеживания текстов, вдохновивших ответ, часто требуют высоких ресурсов и отнимают много времени. В статье представлен метод AttnTrace, основанный на взвешивании внимания модели LLM для конкретного запроса. AttnTrace использует два принципа улучшения точности и эффективности, обосновываясь теоретическими аргументами. Экспериментальные результаты показывают, что AttnTrace превосходит текущие методы по точности и скорости. Более того, он может улучшить другие методы в обнаружении внедренных инструкций в длинных контекстах, применяя атрибутивный подход до запуска детекции. Примеры реального применения демонстрируют, что AttnTrace может идентифицировать внедренные команды в текстах с целью подделки отзывов. Исходный код доступен на GitHub.

Abstract

Long-context large language models (LLMs), such as Gemini-2.5-Pro and Claude-Sonnet-4, are increasingly used to empower advanced AI systems, including retrieval-augmented generation (RAG) pipelines and autonomous agents. In these systems, an LLM receives an instruction along with a context--often consisting of texts retrieved from a knowledge database or memory--and generates a response that is contextually grounded by following the instruction. Recent studies have designed solutions to trace back to a subset of texts in the context that contributes most to the response generated by the LLM. These solutions have numerous real-world applications, including performing post-attack forensic analysis and improving the interpretability and trustworthiness of LLM outputs. While significant efforts have been made, state-of-the-art solutions such as TracLLM often lead to a high computation cost, e.g., it takes TracLLM hundreds of seconds to perform traceback for a single response-context pair. In this work, we propose AttnTrace, a new context traceback method based on the attention weights produced by an LLM for a prompt. To effectively utilize attention weights, we introduce two techniques designed to enhance the effectiveness of AttnTrace, and we provide theoretical insights for our design choice. We also perform a systematic evaluation for AttnTrace. The results demonstrate that AttnTrace is more accurate and efficient than existing state-of-the-art context traceback methods. We also show that AttnTrace can improve state-of-the-art methods in detecting prompt injection under long contexts through the attribution-before-detection paradigm. As a real-world application, we demonstrate that AttnTrace can effectively pinpoint injected instructions in a paper designed to manipulate LLM-generated reviews. The code is at https://github.com/Wang-Yanting/AttnTrace.

Ссылки и действия