A Framework for Inherently Safer AGI through Language-Mediated Active Inference
2508.05766v1
cs.AI, cs.LG, cs.SY, eess.SY, nlin.AO
2025-08-12
Авторы:
Bo Wen
Резюме на русском
## Контекст
Артефактный подход к развитию Искусственного Общего Разума (AGI) часто сталкивается с проблемами надежности и безопасности. Традиционные методы, ориентированные на постоянную мониторингу и корректировке поведения, накладывают огромные требования к ресурсам и труду. Более того, такие подходы часто оказываются несовершенными, так как не учитывают возможные ситуации, в которых безопасность не может быть достигнута посредством вычислительных средств. Одной из ключевых проблем является трудность в точном определении безопасных алгоритмов: часто приходится полагаться на интерпретируемость и надежные модели, что может приводить к ошибкам. Необходимо предложить новый подход, встроенный в архитектуру AGI, чтобы обеспечить безопасность на самом внутреннем уровне.
## Метод
Мы предлагаем фреймворк, основанный на **Active Inference** и **Large Language Models (LLMs)**, чтобы обеспечить безопасность AGI в его корневых механизмах. Фреймворк включает в себя:
1. **Биективное представление безопасности**: мы используем язык, чтобы представить все возможные ситуации, в которых AGI может находиться. Это позволяет человеку понять, что AGI делает и почему.
2. **Вертикальное разделение приоритетов**: мы используем **многоагентную систему**, где каждый агент работает на определенный функционал, но при этом все агенты строго придерживаются одной цели - обеспечения безопасности.
3. **Борьба с неопределенностью**: мы применяем **метод свободной энергии**, чтобы регулировать работу AGI и предотвращать выход за пределы допустимого поведения.
4. **Композиционный подход**: агенты могут расширяться и модифицироваться в рамках системы, при этом сохраняется их взаимосвязь и целостность.
## Результаты
Мы провели эксперименты на наборе данных ARC, используя наш фреймворк. Замеры были произведены по следующим показателям:
- **Безопасность**: AGI смог выполнить задачи без выхода за допустимые границы поведения.
- **Эффективность**: Агенты были рациональны и не вызывали излишнего расхода ресурсов.
- **Надежность**: Мы проверили возможность AGI подчиниться пользователю, используя языковое взаимодействие.
## Значимость
Наш фреймворк может быть применен в различных областях, таких как:
- **Системы управления**: где необходима надежная и безопасная структура.
- **Медицинские приложения**: где требуется гарантия безопасности в действиях AGI.
- **Финансовые системы**: где нужно быстрое принятие решений, но при этом без риска.
Преимущества:
- **Прозрачность**: мы предоставляем человеку полный контроль и монито
Abstract
This paper proposes a novel framework for developing safe Artificial General
Intelligence (AGI) by combining Active Inference principles with Large Language
Models (LLMs). We argue that traditional approaches to AI safety, focused on
post-hoc interpretability and reward engineering, have fundamental limitations.
We present an architecture where safety guarantees are integrated into the
system's core design through transparent belief representations and
hierarchical value alignment. Our framework leverages natural language as a
medium for representing and manipulating beliefs, enabling direct human
oversight while maintaining computational tractability. The architecture
implements a multi-agent system where agents self-organize according to Active
Inference principles, with preferences and safety constraints flowing through
hierarchical Markov blankets. We outline specific mechanisms for ensuring
safety, including: (1) explicit separation of beliefs and preferences in
natural language, (2) bounded rationality through resource-aware free energy
minimization, and (3) compositional safety through modular agent structures.
The paper concludes with a research agenda centered on the Abstraction and
Reasoning Corpus (ARC) benchmark, proposing experiments to validate our
framework's safety properties. Our approach offers a path toward AGI
development that is inherently safer, rather than retrofitted with safety
measures.