InfraMind: A Novel Exploration-based GUI Agentic Framework for Mission-critical Industrial Management

2509.13704v1 cs.AI, cs.SE 2025-09-19
Авторы:

Liangtao Lin, Zhaomeng Zhu, Tianwei Zhang, Yonggang Wen

Резюме на русском

## Контекст Industrial management систем, таких как Data Centers, требуют высокоточного и надежного управления, чтобы обеспечить стабильную работу. Однако, сложность этих систем растет взаимосвязь с многопроизводительностью, высокими требованиями к надежности и ограниченным ресурсам экспертного персонала. Роботизированная процессная автоматизация (RPA), основанная на ручной настройке скриптов, часто ограничена в своей гибкости и требует высоких затрат на обслуживание. Новые технологии, основанные на Large Language Models (LLM), предлагают более гибкие решения для автоматизации, но сталкиваются с проблемами, такими как неопознаваемость элементов интерфейса, неточность выполнения задач, сложности с локализацией состояний и безопасностью приложений. Мы предлагаем InfraMind, расширенную платформу, которая адаптируется к этим вызовам и предлагает мощные методы для управления промышленными системами. ## Метод InfraMind является исследовательским фреймворком, основанным на exploration-based GUI, который сочетает в себе новые подходы для решения проблем в агентном управлении. Он включает 5 основных модулей: (1) систематический поиск-основанный exploration с виртуальными машинами для понимания интерфейса и автоматизированного определения элементов; (2) планирование на основе мемори-дривен, которое обеспечивает высокую точность и эффективность выполнения задач; (3) улучшенная идентификация состояний, позволяющая лучше локализоваться в сложных иерархических интерфейсах; (4) значительное уменьшение размера модели и увеличение эффективности в работе, используя structured knowledge distillation; (5) многоуровневые механизмы безопасности для защиты от ошибок и рисков в критичных операциях. ## Результаты Мы провели эксперименты с использованием open-source и commercial Data Center Infrastructure Management (DCIM) платформ. Наши результаты показывают, что InfraMind постоянно превышает существующие фреймворки по коэффициенту успешного выполнения задач и эффективностью работы. Это мощное и стабильное решение для автоматизации управления промышленными системами, которое позволяет повысить точность и эффективность в работе, а также уменьшить затраты на обслуживание. ## Значимость InfraMind предлагает широкие возможности в применении в различных сферах, таких как cloud computing, industrial IoT, и другие mission-critical operations. Его особенностью является гибкость, точность и безопасность в автоматизации, что делает его привлекательным для крупных компаний, использующих сложные системы управления. InfraMind может уменьшить количество ошибок, повысить эффективность и снизить трудозатраты на рутинные операции. Это дает возможность компаниям сосредоточиться на сложных задачах, а не на операцион

Abstract

Mission-critical industrial infrastructure, such as data centers, increasingly depends on complex management software. Its operations, however, pose significant challenges due to the escalating system complexity, multi-vendor integration, and a shortage of expert operators. While Robotic Process Automation (RPA) offers partial automation through handcrafted scripts, it suffers from limited flexibility and high maintenance costs. Recent advances in Large Language Model (LLM)-based graphical user interface (GUI) agents have enabled more flexible automation, yet these general-purpose agents face five critical challenges when applied to industrial management, including unfamiliar element understanding, precision and efficiency, state localization, deployment constraints, and safety requirements. To address these issues, we propose InfraMind, a novel exploration-based GUI agentic framework specifically tailored for industrial management systems. InfraMind integrates five innovative modules to systematically resolve different challenges in industrial management: (1) systematic search-based exploration with virtual machine snapshots for autonomous understanding of complex GUIs; (2) memory-driven planning to ensure high-precision and efficient task execution; (3) advanced state identification for robust localization in hierarchical interfaces; (4) structured knowledge distillation for efficient deployment with lightweight models; and (5) comprehensive, multi-layered safety mechanisms to safeguard sensitive operations. Extensive experiments on both open-source and commercial DCIM platforms demonstrate that our approach consistently outperforms existing frameworks in terms of task success rate and operational efficiency, providing a rigorous and scalable solution for industrial management automation.

Ссылки и действия