A Framework for Inherently Safer AGI through Language-Mediated Active Inference

2508.05766v1 cs.AI, cs.LG, cs.SY, eess.SY, nlin.AO 2025-08-12
Авторы:

Bo Wen

Резюме на русском

## Контекст Артефактный подход к развитию Искусственного Общего Разума (AGI) часто сталкивается с проблемами надежности и безопасности. Традиционные методы, ориентированные на постоянную мониторингу и корректировке поведения, накладывают огромные требования к ресурсам и труду. Более того, такие подходы часто оказываются несовершенными, так как не учитывают возможные ситуации, в которых безопасность не может быть достигнута посредством вычислительных средств. Одной из ключевых проблем является трудность в точном определении безопасных алгоритмов: часто приходится полагаться на интерпретируемость и надежные модели, что может приводить к ошибкам. Необходимо предложить новый подход, встроенный в архитектуру AGI, чтобы обеспечить безопасность на самом внутреннем уровне. ## Метод Мы предлагаем фреймворк, основанный на **Active Inference** и **Large Language Models (LLMs)**, чтобы обеспечить безопасность AGI в его корневых механизмах. Фреймворк включает в себя: 1. **Биективное представление безопасности**: мы используем язык, чтобы представить все возможные ситуации, в которых AGI может находиться. Это позволяет человеку понять, что AGI делает и почему. 2. **Вертикальное разделение приоритетов**: мы используем **многоагентную систему**, где каждый агент работает на определенный функционал, но при этом все агенты строго придерживаются одной цели - обеспечения безопасности. 3. **Борьба с неопределенностью**: мы применяем **метод свободной энергии**, чтобы регулировать работу AGI и предотвращать выход за пределы допустимого поведения. 4. **Композиционный подход**: агенты могут расширяться и модифицироваться в рамках системы, при этом сохраняется их взаимосвязь и целостность. ## Результаты Мы провели эксперименты на наборе данных ARC, используя наш фреймворк. Замеры были произведены по следующим показателям: - **Безопасность**: AGI смог выполнить задачи без выхода за допустимые границы поведения. - **Эффективность**: Агенты были рациональны и не вызывали излишнего расхода ресурсов. - **Надежность**: Мы проверили возможность AGI подчиниться пользователю, используя языковое взаимодействие. ## Значимость Наш фреймворк может быть применен в различных областях, таких как: - **Системы управления**: где необходима надежная и безопасная структура. - **Медицинские приложения**: где требуется гарантия безопасности в действиях AGI. - **Финансовые системы**: где нужно быстрое принятие решений, но при этом без риска. Преимущества: - **Прозрачность**: мы предоставляем человеку полный контроль и монито

Abstract

This paper proposes a novel framework for developing safe Artificial General Intelligence (AGI) by combining Active Inference principles with Large Language Models (LLMs). We argue that traditional approaches to AI safety, focused on post-hoc interpretability and reward engineering, have fundamental limitations. We present an architecture where safety guarantees are integrated into the system's core design through transparent belief representations and hierarchical value alignment. Our framework leverages natural language as a medium for representing and manipulating beliefs, enabling direct human oversight while maintaining computational tractability. The architecture implements a multi-agent system where agents self-organize according to Active Inference principles, with preferences and safety constraints flowing through hierarchical Markov blankets. We outline specific mechanisms for ensuring safety, including: (1) explicit separation of beliefs and preferences in natural language, (2) bounded rationality through resource-aware free energy minimization, and (3) compositional safety through modular agent structures. The paper concludes with a research agenda centered on the Abstraction and Reasoning Corpus (ARC) benchmark, proposing experiments to validate our framework's safety properties. Our approach offers a path toward AGI development that is inherently safer, rather than retrofitted with safety measures.

Ссылки и действия