Surgical Knowledge Rewrite in Compact LLMs: An 'Unlearn-then-Learn' Strategy with ($IA^3$) for Localized Factual Modulation and Catastrophic Forgetting Mitigation

2508.07075v1 cs.LG, cs.AI 2025-08-13
Авторы:

Stanley Ngugi

Резюме на русском

#### Контекст Проблема динамического обновления знаний в больших языковых моделях (LLMs) широко изучается в связи с их статичностью в отношении обученной информации. Новые факты часто конфликтуют со стабилизированными внутренними представлениями, что приводит к проблемам устойчивости к изменениям и экстремальному забыванию существующих знаний. Эти проблемы требуют эффективных методов локализованного модифицирования знаний, чтобы сохранить преимущества модели и обеспечить безопасность при использовании. Наша исследовательская цель состоит в разработке и экспериментальной оценке стратегии "отказ от знаний — повторное обучение" с целью разграничения конфликтующих фактов и минимизации забывания непосредственно связанных знаний. #### Метод Мы предлагаем инновационную методологию, основанную на механистически направленном подходе к локализации внутренних структур модели, ответственных за кодирование конфликтующих фактов. Это реализовано с помощью подхода $IA^3$ ($Infused Adapter by Inhibiting and Amplifying Inner Activations$), построенного на технологии parameter-efficient fine-tuning (PEFT). Метод работает на двух этапах: 1) локализация конфликтующих фактов внутри модели; 2) повторное обучение специфических слоёв модели с целью заменить старый факт на новый. Эта локализованная методика выступает в качестве инструмента безопасного и контролируемого обновления знаний в LLMs. #### Результаты Мы проводили эксперименты на модели microsoft/Phi-3-mini-4k-instruct. Результаты показали, что новая стратегия достигла близкого к идеальному успеха в замене конфликтующих фактов (98.50% точности нового факта), при этом эффективно признаковая модель старые факты (96.00% forget rate). Отметим, что наш подход обеспечил неоднозначную интерпретируемость, позволяющую безопасно и контролируемо обновлять знания. Это продемонстрировано через увеличение аккуратности (F_control accuracy) до 72.00%, что значительно превосходит другие подходы (которые, например, останавливаются на ~20%). Таким образом, мы устанавливаем новый стандарт в области локализованного модифицирования знаний в LLMs. #### Значимость Наш подход открывает новые возможности для безопасного и эффективного обновления знаний в прикладных сценариях, таких как боты с чат-поддержкой, системы поддержки решений, интеллектуальные системы управления, где необходимо надежный и безопасный механизм обновления знаний. Особенно важно это для работ с конфиденциальными или защищёнными данными, где забывание посторонних фактов — критический аспект. Мы также отмечаем потенциал нашей стратеги

Abstract

Large Language Models (LLMs) struggle with dynamic knowledge updates, especially when new information conflicts with deeply embedded facts. Such conflicting factual edits often lead to two critical issues: resistance to adopting the new fact and severe catastrophic forgetting of unrelated knowledge. This paper introduces and evaluates a novel "unlearn-then-learn" strategy for precise knowledge editing in LLMs, leveraging the parameter-efficient fine-tuning (PEFT) technique, Infused Adapter by Inhibiting and Amplifying Inner Activations ($IA^3$). Crucially, this two-stage approach is powered by an initial circuit localization phase that identifies and targets the specific internal components responsible for encoding the conflicting fact. Through a rigorous experimental methodology on microsoft/Phi-3-mini-4k-instruct, we demonstrate that this mechanistically informed two-stage approach achieves near-perfect accuracy (98.50%) for the new, modulated fact while simultaneously effectively suppressing the original conflicting fact (96.00% forget rate). Critically, our strategy exhibits unprecedented localization (72.00% F_control accuracy), dramatically mitigating catastrophic forgetting observed in direct fine-tuning approaches (which showed as low as ~20% F_control accuracy), a direct benefit of our targeted interpretability-guided intervention. Furthermore, qualitative analysis reveals a nuanced mechanism of "soft forgetting," where original knowledge is suppressed from default retrieval but remains latent and conditionally accessible, enhancing model safety and control. These findings represent a significant advancement towards precise, localized, and safe knowledge management in compact LLMs.

Ссылки и действия