ISACL: Internal State Analyzer for Copyrighted Training Data Leakage

2508.17767v1 cs.CL, cs.LG 2025-08-27
Авторы:

Guangwei Zhang, Qisheng Su, Jiateng Liu, Cheng Qian, Yanzhou Pan, Yanjie Fu, Denghui Zhang

Резюме на русском

#### Контекст Одной из основных проблем в области глубокого обучения, особенно в зрелой области технологий текстового понимания, является защита собственных данных и безопасности авторских прав. Локализованные области задач, такие как текстовое понимание, используются в системах с большими лингвистическими моделями (LLMs). Однако эти модели могут нечаянно раскрыть конфиденциальные данные, включая авторские материалы, в процессе генерации. Это создает риск, что данные, не предназначенные для публикации, могут быть легко получены сторонними пользователями. Традиционные подходы направлены на возможность анализа и выявления утечек после того, как текст уже был сгенерирован. Однако это часто происходит слишком поздно, а уже раскрытые данные могут вызвать значительные проблемы. Данная работа предлагает более проактивный и быстрый подход, основанный на анализе внутренних состояний модели перед выводом текста, для выявления потенциальных утечек. #### Метод Методология, предлагаемая в данной работе, заключается в анализе внутренних состояний текстовых моделей, которые участвуют в процессе генерации. Этот подход включает в себя обучение новых моделей классификации, которые могут определять риски утечек конфиденциальной информации на основе внутренних состояний модели. Был разработан специальный набор данных, содержащий авторские материалы для обучения. Метод состоит в том, что модель принимает входные данные, анализирует их внутренние состояния, и в том случае, если находит опасность утечки, может предотвратить дальнейшую генерацию или изменить выходной результат. Также предлагается интеграция модели с системой Retrieval-Augmented Generation (RAG), которая улучшает ответы модели, связав их с контекстом внешних источников. Это приводит к улучшению качества выходных данных, соблюдению юридических норм и повышению безопасности. #### Результаты На основе исследований, проведенных на специально подготовленном наборе данных, показано, что модель может эффективно определять потенциальные утечки внутренних состояний, даже перед генерацией текста. Было проведено несколько экспериментов, в которых была показана способность модели преварично оценивать риски утечки и предотвращать раскрытие конфиденциальных данных. Набор данных, использованный в экспериментах, включал авторские материалы, подвергшиеся риску, и показал, что модель имеет возможность останавливать генерацию или изменять выходные данные в случае возникновения опасности. Таким образом, модель не только предотвращает утечку конфиденциальных данных, но и улучшает целостность и качество ре

Abstract

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP) but pose risks of inadvertently exposing copyrighted or proprietary data, especially when such data is used for training but not intended for distribution. Traditional methods address these leaks only after content is generated, which can lead to the exposure of sensitive information. This study introduces a proactive approach: examining LLMs' internal states before text generation to detect potential leaks. By using a curated dataset of copyrighted materials, we trained a neural network classifier to identify risks, allowing for early intervention by stopping the generation process or altering outputs to prevent disclosure. Integrated with a Retrieval-Augmented Generation (RAG) system, this framework ensures adherence to copyright and licensing requirements while enhancing data privacy and ethical standards. Our results show that analyzing internal states effectively mitigates the risk of copyrighted data leakage, offering a scalable solution that fits smoothly into AI workflows, ensuring compliance with copyright regulations while maintaining high-quality text generation. The implementation is available on GitHub.\footnote{https://github.com/changhu73/Internal_states_leakage}

Ссылки и действия