📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Kapil Madan
## Контекст
В последние годы статус генерирующихся систем AI, таких как Large Language Models (LLMs), поднимает вопросы о их справедливости, безопасности и соответствии нормам. Особенно сложно становится применять эти системы в культурно разнообразных и регулируемых сферах, таких как медицина и финансы. Существующие подходы к выравниванию генерирующихся систем AI, такие как предпочтение-скорсть, ограничиваются в области социально-этичных норм и законодательных требований. Это ставит под угрозу безопасность и этическое воздействие систем.
"ArGen" (Auto-Regulation of Generative AI) представляет собой рамформу для глубокого выравнивания LLMs с подробными системами норм, включающими этические принципы, безопасность и законодательные нормы. Он призван преодолеть ограничения существующих подходов, обеспечивая адаптивный и прозрачный подход к выравниванию LLM.
## Метод
"ArGen" основывается на трех ключевых компонентах:
1. **Principle-Based Automated Reward Scoring (PBARS):** Этот подход использует машинно-чтение правил, чтобы генерировать автоматические оценки, соответствующие нормам.
2. **Group Relative Policy Optimisation (GRPO):** Это метод, где политики групп жизненно важных норм и принципов учитываются в оптимизации поведения LLM.
3. **Open Policy Agent (OPA) Inspired Governance Layer:** Этот уровень, использующий Open Policy Agent, предоставляет прозрачность и контроль, обеспечивая возможность адаптации к уникальным требованиям каждого контекста.
"ArGen" имеет гибкую архитектуру, которая позволяет ему сочетать эти элементы для создания "Governable Al" систем.
## Результаты
В экспериментах "ArGen" был применен для выравнивания LLM в сложной медицинской сфере, ориентированной на принципы Dharmic ethics, такие как Ahimsa (нежестокость) и Dharma (порядок). Использовались тренировочные данные из медицинской практики, включая кейсы, где требуется соблюдение этических и законодательных норм.
Результаты показали, что "ArGen" улучшил соответствие домена на 70.9% по сравнению с базовым подходом, при этом повысив прозрачность и управляемость LLM. Также были показаны снижение риска и улучшение соблюдения норм в тестировании.
## Значимость
"ArGen" имеет широкое применение в области генерирующихся систем AI, где необходимо выравнивание с политиками, этическими принципами и законами. Он может быть полезен в сферах, таких как медицина, финансы и образование, где требуется высокий уровень управляемости и соответствия.
Преимущества "ArGen" включают в себя повышенную прозрачность, предсказуемость и эффективность в управлении LLM. Это может привести к безопасному и этичному развертыванию AI в глобальных конте
Annotation:
This paper introduces ArGen (Auto-Regulation of Generative AI systems), a
framework for aligning Large Language Models (LLMs) with complex sets of
configurable, machine-readable rules spanning ethical principles, operational
safety protocols, and regulatory compliance standards. Moving beyond just
preference-based alignment, ArGen is designed to ensure LLMs adhere to these
multifaceted policies through a novel synthesis of principle-based automated
reward scoring, Group Relative Policy Optimisat...