Optimizing Token Choice for Code Watermarking: A RL Approach

2508.11925v1 cs.CR, cs.CL, cs.LG 2025-08-19
Авторы:

Zhimeng Guo, Huaisheng Zhu, Siyuan Xu, Hangfan Zhang, Teng Xiao, Minhao Cheng

Резюме на русском

## Контекст Современное развитие глубокого обучения, особенно в области генерации текстов, привело к появлению моделей типа Large Language Models (LLM), способных генерировать высококачественный код. Однако возникла необходимость в прозрачном и уникальном привязывании авторства к такому коду. Традиционные методы watermarking часто не учитывают специфику синтаксически ограниченных языков программирования, что может привести к неэффективности или уязвимости. Это создает мотивацию для разработки более устойчивых и эффективных систем watermarking, способных корректно функционировать в таких ограниченных средах. ## Метод **CodeTracer** — это инновационная система watermarking, основанная на reinforcement learning. Ее основная черта — adaptive policy-driven approach, который использует parameterized model для управления token choice во время next-token prediction. Этот подход обеспечивает сохранение функциональности кода, при этом внедрение watermark незаметно для пользователя. Решения по максимизации результата включают: 1. **Gumbel Top-k reparameterization**, позволяющую оптимизировать дискретные решения. 2. **Comprehensive reward system**, который учитывает как процесс-level, так и outcome-level rewards. Подход CodeTracer позволяет идентифицировать подходящие token с помощью reinforcement learning, обеспечивая гибкость и точность в watermarking. ## Результаты Исследователи провели ряд экспериментов для оценки CodeTracer. Он был сравнивался с state-of-the-art baselines в тестовых средах. Основные результаты: - **Watermark detectability**: CodeTracer показал значительное улучшение в подсчете водяных знаков. - **Code functionality preservation**: Система смогла сохранить грамматическую и функциональную корректность в большинстве случаев. - **Evaluation metrics**: Результаты CodeTracer были выше на несколько процентов по отношению к baseline, что демонстрирует его преимущество. ## Значимость CodeTracer может применяться в различных сферах, где необходимо защитить авторство или контролировать применение LLM-generated code. Она позволяет: - **Повысить доверие пользователей** к коду, установив связь между кодом и его автором. - **Защитить от несанкционированного использования**, упростив возможность определения владельца. - **Применяться в коммерческих и академических сферах**, где защита прав и уникальность кода критичны. ## Выводы CodeTracer достигает высокой точности и эффективности в watermarking LLM-generated code. Он устанавливает новый стандарт в области adaptive code watermarking. Будущие исследования будут фокусироваться на улучшении scalability и упрощении механизмов reward system, чтобы совершенствовать систему CodeTracer и расширять ее возможности.

Abstract

The need for detecting LLM-generated code necessitates watermarking systems capable of operating within its highly structured and syntactically constrained environment. To address this, we introduce CodeTracer, an innovative adaptive code watermarking framework underpinned by a novel reinforcement learning training paradigm. At its core, CodeTracer features a policy-driven approach that utilizes a parameterized model to intelligently bias token choices during next-token prediction. This strategy ensures that embedded watermarks maintain code functionality while exhibiting subtle yet statistically detectable deviations from typical token distributions. To facilitate policy learning, we devise a comprehensive reward system that seamlessly integrates execution feedback with watermark embedding signals, balancing process-level and outcome-level rewards. Additionally, we employ Gumbel Top-k reparameterization to enable gradient-based optimization of discrete watermarking decisions. Extensive comparative evaluations demonstrate CodeTracer's significant superiority over state-of-the-art baselines in both watermark detectability and the preservation of generated code's functionality.

Ссылки и действия