DySK-Attn: A Framework for Efficient, Real-Time Knowledge Updating in Large Language Models via Dynamic Sparse Knowledge Attention
2508.07185v1
cs.CL, cs.AI, cs.LG, I.2.7; H.3.3; H.2.8
2025-08-13
Авторы:
Kabir Khan, Priya Sharma, Arjun Mehta, Neha Gupta, Ravi Narayanan
Резюме на русском
#################################
## Контекст
#################################
Large Language Models (LLMs) — это мощные инструменты для обработки текстов, но они имеют существенную проблему: их знания являются статичными и быстро устаревают. Например, при обновлении статистических данных или изменении событий в мире, LLMs не могут адаптироваться без дорогостоящей и время-затратной процедуры переучивания. Такие процессы требуют огромных вычислительных ресурсов и могут привести к задержкам в развертывании обновленных моделей. Кроме того, традиционные методы редактирования знаний могут привести к нежелательным побочным эффектам, таким как неточность или удаление ценной информации.
Данная статья рассматривает эту проблему и предлагает фреймворк DySK-Attn, который позволяет LLMs эффективно обновлять свои знания в реальном времени. Основной идеей является использование динамического знаний сграфа (Knowledge Graph, KG), который может быть мгновенно обновлен без необходимости переучивания модели.
#################################
## Метод
#################################
Фреймворк DySK-Attn основывается на синергии между LLM и динамическим KG. Главная инновация заключается в использовании динамической спарсед-аттенции (Sparse Knowledge Attention), которая исключает ненужную информацию за счёт выбора только наиболее связанных фактов с запросом.
В свою очередь, спарсед-аттенция работает примерно следующим образом: сначала выполняется поиск по базе знаний с использованием ключевых слов запроса. Затем, на основе полученных результатов, выбирается наиболее подходящий набор фактов, который после этого передаётся LLM для генерации ответа. Эта стратегия позволяет избежать вычислительной сложности десятичной аттенции к большой базе знаний, увеличивая вместо этого эффективность и точность полученных ответов.
Также, DySK-Attn включает гибкие механизмы для обновления KG без перестройки модели от начала до конца. Это достигается за счёт интеграции специальных модулей обновления, которые могут быть применены непосредственно во время работы модели.
#################################
## Результаты
#################################
Для оценки эффективности DySK-Attn проведено рядовое экспериментальное исследование на задачах время-зависимого реагирования (time-sensitive question-answering). Использовались три типа датасетов:
1. **Новости**: для тестирования модели в области новостных событий.
2. **Политические события**: для проверки точности в терминах политических данных.
3. **Нефтегазовые рынки**: для проверки работы модели в области финансовых данных.
В результате, DySK-Attn показала значительный выигрыш в точности ответов и вычислительной эффективности по сравнению с традиционными RAG-моделями и техниками моделирования. Например, в задаче обновления дан
Abstract
Large Language Models (LLMs) suffer from a critical limitation: their
knowledge is static and quickly becomes outdated. Retraining these massive
models is computationally prohibitive, while existing knowledge editing
techniques can be slow and may introduce unforeseen side effects. To address
this, we propose DySK-Attn, a novel framework that enables LLMs to efficiently
integrate real-time knowledge from a dynamic external source. Our approach
synergizes an LLM with a dynamic Knowledge Graph (KG) that can be updated
instantaneously. The core of our framework is a sparse knowledge attention
mechanism, which allows the LLM to perform a coarse-to-fine grained search,
efficiently identifying and focusing on a small, highly relevant subset of
facts from the vast KG. This mechanism avoids the high computational cost of
dense attention over the entire knowledge base and mitigates noise from
irrelevant information. We demonstrate through extensive experiments on
time-sensitive question-answering tasks that DySK-Attn significantly
outperforms strong baselines, including standard Retrieval-Augmented Generation
(RAG) and model editing techniques, in both factual accuracy for updated
knowledge and computational efficiency. Our framework offers a scalable and
effective solution for building LLMs that can stay current with the
ever-changing world.