#### Контекст
Одной из основных проблем в области глубокого обучения, особенно в зрелой области технологий текстового понимания, является защита собственных данных и безопасности авторских прав. Локализованные области задач, такие как текстовое понимание, используются в системах с большими лингвистическими моделями (LLMs). Однако эти модели могут нечаянно раскрыть конфиденциальные данные, включая авторские материалы, в процессе генерации. Это создает риск, что данные, не предназначенные для публикации, могут быть легко получены сторонними пользователями. Традиционные подходы направлены на возможность анализа и выявления утечек после того, как текст уже был сгенерирован. Однако это часто происходит слишком поздно, а уже раскрытые данные могут вызвать значительные проблемы. Данная работа предлагает более проактивный и быстрый подход, основанный на анализе внутренних состояний модели перед выводом текста, для выявления потенциальных утечек.
#### Метод
Методология, предлагаемая в данной работе, заключается в анализе внутренних состояний текстовых моделей, которые участвуют в процессе генерации. Этот подход включает в себя обучение новых моделей классификации, которые могут определять риски утечек конфиденциальной информации на основе внутренних состояний модели. Был разработан специальный набор данных, содержащий авторские материалы для обучения. Метод состоит в том, что модель принимает входные данные, анализирует их внутренние состояния, и в том случае, если находит опасность утечки, может предотвратить дальнейшую генерацию или изменить выходной результат. Также предлагается интеграция модели с системой Retrieval-Augmented Generation (RAG), которая улучшает ответы модели, связав их с контекстом внешних источников. Это приводит к улучшению качества выходных данных, соблюдению юридических норм и повышению безопасности.
#### Результаты
На основе исследований, проведенных на специально подготовленном наборе данных, показано, что модель может эффективно определять потенциальные утечки внутренних состояний, даже перед генерацией текста. Было проведено несколько экспериментов, в которых была показана способность модели преварично оценивать риски утечки и предотвращать раскрытие конфиденциальных данных. Набор данных, использованный в экспериментах, включал авторские материалы, подвергшиеся риску, и показал, что модель имеет возможность останавливать генерацию или изменять выходные данные в случае возникновения опасности. Таким образом, модель не только предотвращает утечку конфиденциальных данных, но и улучшает целостность и качество ре