Guess or Recall? Training CNNs to Classify and Localize Memorization in LLMs
2508.02573v1
cs.CL
2025-08-09
Авторы:
Jérémie Dentan, Davide Buscaldi, Sonia Vanier
Резюме на русском
Задача определения и разбора вербатим-меморизации в больших лингвистических моделях (LLM) остается вызовом из-за неточности используемых категорий в существующих методиках. Авторы предлагают новую методику, основанную на обучении сверточных нейронных сетей (CNN) на весах атенции LLM. Эта методика разделяет меморизацию на три вида: использование модельных способностей в говорении (guessed), вытекающую из частых повторов в обучающем корпусе (recalled), и немеморизированные образцы. Исследование показало, что существующая категоризация плохо отражает реальные механизмы внимательных блоков модели. Также выяснилось, что многие "extractable" примеры являются просто угаданными моделью и не являются подтверждением вербатим-меморизации. Новый подход также включает в себя технику визуализации, позволяющую локализовать внимательные регионы, ответственные за различные виды меморизации. Вывод: новая категоризация дает более точное понимание процессов внутри модели и позволяет эффективнее интерпретировать её поведение.
Abstract
Verbatim memorization in Large Language Models (LLMs) is a multifaceted
phenomenon involving distinct underlying mechanisms. We introduce a novel
method to analyze the different forms of memorization described by the existing
taxonomy. Specifically, we train Convolutional Neural Networks (CNNs) on the
attention weights of the LLM and evaluate the alignment between this taxonomy
and the attention weights involved in decoding.
We find that the existing taxonomy performs poorly and fails to reflect
distinct mechanisms within the attention blocks. We propose a new taxonomy that
maximizes alignment with the attention weights, consisting of three categories:
memorized samples that are guessed using language modeling abilities, memorized
samples that are recalled due to high duplication in the training set, and
non-memorized samples. Our results reveal that few-shot verbatim memorization
does not correspond to a distinct attention mechanism. We also show that a
significant proportion of extractable samples are in fact guessed by the model
and should therefore be studied separately. Finally, we develop a custom visual
interpretability technique to localize the regions of the attention weights
involved in each form of memorization.
Ссылки и действия
Дополнительные ресурсы: