ArGen: Auto-Regulation of Generative AI via GRPO and Policy-as-Code

2509.07006v1 cs.CY, cs.AI, cs.CL, cs.LG, 68T07, 68T50, I.2.6; I.2.7; K.4.1 2025-09-11
Авторы:

Kapil Madan

Резюме на русском

## Контекст В последние годы статус генерирующихся систем AI, таких как Large Language Models (LLMs), поднимает вопросы о их справедливости, безопасности и соответствии нормам. Особенно сложно становится применять эти системы в культурно разнообразных и регулируемых сферах, таких как медицина и финансы. Существующие подходы к выравниванию генерирующихся систем AI, такие как предпочтение-скорсть, ограничиваются в области социально-этичных норм и законодательных требований. Это ставит под угрозу безопасность и этическое воздействие систем. "ArGen" (Auto-Regulation of Generative AI) представляет собой рамформу для глубокого выравнивания LLMs с подробными системами норм, включающими этические принципы, безопасность и законодательные нормы. Он призван преодолеть ограничения существующих подходов, обеспечивая адаптивный и прозрачный подход к выравниванию LLM. ## Метод "ArGen" основывается на трех ключевых компонентах: 1. **Principle-Based Automated Reward Scoring (PBARS):** Этот подход использует машинно-чтение правил, чтобы генерировать автоматические оценки, соответствующие нормам. 2. **Group Relative Policy Optimisation (GRPO):** Это метод, где политики групп жизненно важных норм и принципов учитываются в оптимизации поведения LLM. 3. **Open Policy Agent (OPA) Inspired Governance Layer:** Этот уровень, использующий Open Policy Agent, предоставляет прозрачность и контроль, обеспечивая возможность адаптации к уникальным требованиям каждого контекста. "ArGen" имеет гибкую архитектуру, которая позволяет ему сочетать эти элементы для создания "Governable Al" систем. ## Результаты В экспериментах "ArGen" был применен для выравнивания LLM в сложной медицинской сфере, ориентированной на принципы Dharmic ethics, такие как Ahimsa (нежестокость) и Dharma (порядок). Использовались тренировочные данные из медицинской практики, включая кейсы, где требуется соблюдение этических и законодательных норм. Результаты показали, что "ArGen" улучшил соответствие домена на 70.9% по сравнению с базовым подходом, при этом повысив прозрачность и управляемость LLM. Также были показаны снижение риска и улучшение соблюдения норм в тестировании. ## Значимость "ArGen" имеет широкое применение в области генерирующихся систем AI, где необходимо выравнивание с политиками, этическими принципами и законами. Он может быть полезен в сферах, таких как медицина, финансы и образование, где требуется высокий уровень управляемости и соответствия. Преимущества "ArGen" включают в себя повышенную прозрачность, предсказуемость и эффективность в управлении LLM. Это может привести к безопасному и этичному развертыванию AI в глобальных конте

Abstract

This paper introduces ArGen (Auto-Regulation of Generative AI systems), a framework for aligning Large Language Models (LLMs) with complex sets of configurable, machine-readable rules spanning ethical principles, operational safety protocols, and regulatory compliance standards. Moving beyond just preference-based alignment, ArGen is designed to ensure LLMs adhere to these multifaceted policies through a novel synthesis of principle-based automated reward scoring, Group Relative Policy Optimisation (GRPO), and an Open Policy Agent (OPA) inspired governance layer. This approach provides the technical foundation for achieving and demonstrating compliance with diverse and nuanced governance requirements. To showcase the framework's capability to operationalize a deeply nuanced and culturally-specific value system, we present an in-depth case study: the development of a medical AI assistant guided by principles from Dharmic ethics (such as Ahimsa and Dharma), as derived from texts like the Bhagavad Gita. This challenging application demonstrates ArGen's adaptability, achieving a 70.9% improvement in domain-scope adherence over the baseline. Through our open-source repository, we show that ArGen's methodology offers a path to 'Governable Al' systems that are technically proficient, ethically robust, and verifiably compliant for safe deployment in diverse global contexts.

Ссылки и действия