DynaMark: A Reinforcement Learning Framework for Dynamic Watermarking in Industrial Machine Tool Controllers
2508.21797v1
eess.SY, cs.AI, cs.CR, cs.LG, cs.SY, stat.AP
2025-09-02
Авторы:
Navid Aftabi, Abhishek Hanchate, Satish Bukkapatnam, Dan Li
Резюме на русском
## Контекст
Industry 4.0 позволяет интегрировать машины, системы управления и производственные процессы в одну систему, обеспечивая более высокую производительность и автоматизацию. Однако такая интеграция сопряжена с риском атак, таких как реплей-атаки, когда несанкционированные пользователи используют устаревшую сенсорную информацию для манипуляции с актоуаторами. Это может привести к серьезным последствиям, включая повреждение оборудования и потерю качества продукции. Динамическая водяная метка (dynamic watermarking) представляет собой метод, который может открыть такие манипуляции, отображая искажения в данных. Однако существующие схемы динамической водяней метки предполагают линейно-Гауссовые динамики и постоянные статистические параметры водяных меток, что делает их неэффективными для использования на MTCs (machine tool controllers) с временно меняющимися динамиками и частично закрытыми моделями. Таким образом, требуется развитие более универсального подхода.
## Метод
Мы предлагаем DynaMark, фреймворк на основе усиления обучения (reinforcement learning), который использует Марковский процесс решений (Markov decision process, MDP) для моделирования динамической водяной метки. DynaMark обучает адаптивный политический механизм (policy), который динамически меняет ковариацию нулевого-среднего Гауссового водяного знака с использованием доступных измерений и обратной связи детектора. Он не требует предварительного знания о системе. Для реализации этого фреймворка мы разработали механизм байесовского обновления уверенности (Bayesian belief updating) для реального времени, который работает в системах с линейными динамиками. Этот метод основывается на универсальной структуре MDP, которая не зависит от конкретных системных предположений, и позволяет DynaMark эффективно работать на MTCs.
## Результаты
Мы проводили эксперименты с использованием цифровой модели Siemens Sinumerik 828D и физического тестбеда на основе шагового мотора. На цифровой модели DynaMark снизил энергозатраты на водяную метку на 70% в сравнении с базовым подходом постоянной вариации, при этом сохранив назначенный траектории. Он также поддерживает среднюю задержку обнаружения (detection delay), равную одному интервалу выбора. Физический тестбед показал, что DynaMark сразу же вызывает аварийные сигналы при меньшем ущербе для производительности контроллера, превосходя существующие бенчмарки. Эти результаты подтверждают эффективность DynaMark в раскрытии реплей-атак и сохранении производительности системы.
## Значимость
DynaMark может применяться в различных производственных системах, включая цифровые системы управления, где требуется обнаружение
Abstract
Industry 4.0's highly networked Machine Tool Controllers (MTCs) are prime
targets for replay attacks that use outdated sensor data to manipulate
actuators. Dynamic watermarking can reveal such tampering, but current schemes
assume linear-Gaussian dynamics and use constant watermark statistics, making
them vulnerable to the time-varying, partly proprietary behavior of MTCs. We
close this gap with DynaMark, a reinforcement learning framework that models
dynamic watermarking as a Markov decision process (MDP). It learns an adaptive
policy online that dynamically adapts the covariance of a zero-mean Gaussian
watermark using available measurements and detector feedback, without needing
system knowledge. DynaMark maximizes a unique reward function balancing control
performance, energy consumption, and detection confidence dynamically. We
develop a Bayesian belief updating mechanism for real-time detection confidence
in linear systems. This approach, independent of specific system assumptions,
underpins the MDP for systems with linear dynamics. On a Siemens Sinumerik 828D
controller digital twin, DynaMark achieves a reduction in watermark energy by
70% while preserving the nominal trajectory, compared to constant variance
baselines. It also maintains an average detection delay equivalent to one
sampling interval. A physical stepper-motor testbed validates these findings,
rapidly triggering alarms with less control performance decline and exceeding
existing benchmarks.