DynaMark: A Reinforcement Learning Framework for Dynamic Watermarking in Industrial Machine Tool Controllers

2508.21797v1 eess.SY, cs.AI, cs.CR, cs.LG, cs.SY, stat.AP 2025-09-02

Авторы:

Navid Aftabi, Abhishek Hanchate, Satish Bukkapatnam, Dan Li

Резюме на русском

## Контекст Industry 4.0 позволяет интегрировать машины, системы управления и производственные процессы в одну систему, обеспечивая более высокую производительность и автоматизацию. Однако такая интеграция сопряжена с риском атак, таких как реплей-атаки, когда несанкционированные пользователи используют устаревшую сенсорную информацию для манипуляции с актоуаторами. Это может привести к серьезным последствиям, включая повреждение оборудования и потерю качества продукции. Динамическая водяная метка (dynamic watermarking) представляет собой метод, который может открыть такие манипуляции, отображая искажения в данных. Однако существующие схемы динамической водяней метки предполагают линейно-Гауссовые динамики и постоянные статистические параметры водяных меток, что делает их неэффективными для использования на MTCs (machine tool controllers) с временно меняющимися динамиками и частично закрытыми моделями. Таким образом, требуется развитие более универсального подхода. ## Метод Мы предлагаем DynaMark, фреймворк на основе усиления обучения (reinforcement learning), который использует Марковский процесс решений (Markov decision process, MDP) для моделирования динамической водяной метки. DynaMark обучает адаптивный политический механизм (policy), который динамически меняет ковариацию нулевого-среднего Гауссового водяного знака с использованием доступных измерений и обратной связи детектора. Он не требует предварительного знания о системе. Для реализации этого фреймворка мы разработали механизм байесовского обновления уверенности (Bayesian belief updating) для реального времени, который работает в системах с линейными динамиками. Этот метод основывается на универсальной структуре MDP, которая не зависит от конкретных системных предположений, и позволяет DynaMark эффективно работать на MTCs. ## Результаты Мы проводили эксперименты с использованием цифровой модели Siemens Sinumerik 828D и физического тестбеда на основе шагового мотора. На цифровой модели DynaMark снизил энергозатраты на водяную метку на 70% в сравнении с базовым подходом постоянной вариации, при этом сохранив назначенный траектории. Он также поддерживает среднюю задержку обнаружения (detection delay), равную одному интервалу выбора. Физический тестбед показал, что DynaMark сразу же вызывает аварийные сигналы при меньшем ущербе для производительности контроллера, превосходя существующие бенчмарки. Эти результаты подтверждают эффективность DynaMark в раскрытии реплей-атак и сохранении производительности системы. ## Значимость DynaMark может применяться в различных производственных системах, включая цифровые системы управления, где требуется обнаружение

Abstract

Industry 4.0's highly networked Machine Tool Controllers (MTCs) are prime targets for replay attacks that use outdated sensor data to manipulate actuators. Dynamic watermarking can reveal such tampering, but current schemes assume linear-Gaussian dynamics and use constant watermark statistics, making them vulnerable to the time-varying, partly proprietary behavior of MTCs. We close this gap with DynaMark, a reinforcement learning framework that models dynamic watermarking as a Markov decision process (MDP). It learns an adaptive policy online that dynamically adapts the covariance of a zero-mean Gaussian watermark using available measurements and detector feedback, without needing system knowledge. DynaMark maximizes a unique reward function balancing control performance, energy consumption, and detection confidence dynamically. We develop a Bayesian belief updating mechanism for real-time detection confidence in linear systems. This approach, independent of specific system assumptions, underpins the MDP for systems with linear dynamics. On a Siemens Sinumerik 828D controller digital twin, DynaMark achieves a reduction in watermark energy by 70% while preserving the nominal trajectory, compared to constant variance baselines. It also maintains an average detection delay equivalent to one sampling interval. A physical stepper-motor testbed validates these findings, rapidly triggering alarms with less control performance decline and exceeding existing benchmarks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация