Towards Agentic OS: An LLM Agent Framework for Linux Schedulers
2509.01245v2
cs.AI, cs.MA, cs.OS
2025-09-05
Авторы:
Yusheng Zheng, Yanpeng Hu, Wei Zhang, Andi Quinn
Резюме на русском
## Контекст
Операционные системы (ОС) широко используются в различных областях, где ключевым аспектом является эффективное распределение ресурсов между приложениями. Однако существует существенная проблема: операционные системы часто не могут безусловно понять и учесть прикладные запросы в процессе распределения ресурсов. Это приводит к потерям в производительности и энергоэффективности. Например, Linux-субсистемы, такие как CFS (Completely Fair Scheduler), оптимизируются для общих сценариев, но не всегда соответствуют конкретным потребностям конкретных приложений. Такая ситуация создает запрос на разработку систем, которые могут автоматически анализировать задачи и адаптировать свои политики распределения ресурсов. Мы предлагаем SchedCP, первый фреймворк, который позволяет использовать Large Language Model (LLM) для самостоятельного оптимизации Linux-субсистемы распределения ресурсов без постоянного участия человека.
## Метод
Фреймворк SchedCP основывается на трех основных компонентах: Механизм анализа рабочей нагрузки (Workload Analysis Engine), Репозиторий политик распределения ресурсов (Scheduler Policy Repository) и Механизм проверки исполнения (Execution Verifier). Механизм анализа рабочей нагрузки анализирует текущую нагрузку, создавая подробные модели задач и их характеристик. Эти модели передаются в репозиторий политик распределения ресурсов, где LLM-агент строит подходящие политики оптимизации. Затем, перед развертыванием, все AI-генерируемые политики проходят статический и динамический анализ в механизме проверки исполнения. Это гарантирует безопасность и эффективность автоматических изменений. Для реализации протокола мы используем Model Context Protocol (MCP), что позволяет SchedCP обеспечить разделение ролей между ЛЛМ-агентом (только размышлениями) и самой ОС (только исполнением).
## Результаты
Мы проводили эксперименты с SchedCP на основе многоагентной системы sched-agent, которая автоматически оптимизирует Linux-субсистемы распределения ресурсов. В ходе экспериментов мы сравнили SchedCP с различными типичными подходами, включая статические политики и простые адаптивные LLM-подходы. Эксперименты показали, что SchedCP демонстрирует до 1.79x улучшения производительности и 13x сокращение затрат по сравнению с базовыми подходами. Это достигается благодаря точному пониманию потребностей приложений и точно распределению ресурсов. Благодаря тому, что мы разделили роли между ЛЛМ-агентом и ОС, SchedCP обеспечивает высокую стабильность и безопасность в процессе внедрения.
## Значимость
SchedCP открывает новые возможности для автоматической оптимизации операционных систем, что может
Abstract
Operating system schedulers suffer from a fundamental semantic gap, where
kernel policies fail to understand application-specific needs, leading to
suboptimal performance. We introduce SchedCP, the first framework that enables
fully autonomous Large Language Model (LLM) agents to safely and efficiently
optimize Linux schedulers without human involvement. Our core insight is that
the challenge is not merely to apply a better LLM, but to architect a decoupled
control plane that separates the AI's role of semantic reasoning ("what to
optimize") from the system's role of execution ("how to observe and act").
Implemented as Model Context Protocol(MCP) server, SchedCP provides a stable
interface with three key services: a Workload Analysis Engine, an evolving
Scheduler Policy Repository, and an Execution Verifier that validates all
AI-generated code and configure before deployment with static and dynamic
analysis.
We demonstrate this architecture's power with sched-agent, a multi-agent
system that autonomously analyzes workloads, synthesizes custom eBPF scheduling
policies, and deploys them via the sched\_ext infrastructure. Our evaluation
shows that SchedCP achieves up to an 1.79x performance improvement, and a 13x
cost reduction compared to naive agentic approaches, all while maintaining high
success rate. By bridging the semantic gap, SchedCP democratizes expert-level
system optimization and represents a step towards creating truly
self-optimizing, application-aware operating systems. The code is open-sourced
in https://github.com/eunomia-bpf/schedcp
Ссылки и действия
Дополнительные ресурсы: