📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Framework for Inherently Safer AGI through Language-Mediated Active Inference

2025-08-12

Авторы:

Bo Wen

## Контекст Артефактный подход к развитию Искусственного Общего Разума (AGI) часто сталкивается с проблемами надежности и безопасности. Традиционные методы, ориентированные на постоянную мониторингу и корректировке поведения, накладывают огромные требования к ресурсам и труду. Более того, такие подходы часто оказываются несовершенными, так как не учитывают возможные ситуации, в которых безопасность не может быть достигнута посредством вычислительных средств. Одной из ключевых проблем является трудность в точном определении безопасных алгоритмов: часто приходится полагаться на интерпретируемость и надежные модели, что может приводить к ошибкам. Необходимо предложить новый подход, встроенный в архитектуру AGI, чтобы обеспечить безопасность на самом внутреннем уровне. ## Метод Мы предлагаем фреймворк, основанный на **Active Inference** и **Large Language Models (LLMs)**, чтобы обеспечить безопасность AGI в его корневых механизмах. Фреймворк включает в себя: 1. **Биективное представление безопасности**: мы используем язык, чтобы представить все возможные ситуации, в которых AGI может находиться. Это позволяет человеку понять, что AGI делает и почему. 2. **Вертикальное разделение приоритетов**: мы используем **многоагентную систему**, где каждый агент работает на определенный функционал, но при этом все агенты строго придерживаются одной цели - обеспечения безопасности. 3. **Борьба с неопределенностью**: мы применяем **метод свободной энергии**, чтобы регулировать работу AGI и предотвращать выход за пределы допустимого поведения. 4. **Композиционный подход**: агенты могут расширяться и модифицироваться в рамках системы, при этом сохраняется их взаимосвязь и целостность. ## Результаты Мы провели эксперименты на наборе данных ARC, используя наш фреймворк. Замеры были произведены по следующим показателям: - **Безопасность**: AGI смог выполнить задачи без выхода за допустимые границы поведения. - **Эффективность**: Агенты были рациональны и не вызывали излишнего расхода ресурсов. - **Надежность**: Мы проверили возможность AGI подчиниться пользователю, используя языковое взаимодействие. ## Значимость Наш фреймворк может быть применен в различных областях, таких как: - **Системы управления**: где необходима надежная и безопасная структура. - **Медицинские приложения**: где требуется гарантия безопасности в действиях AGI. - **Финансовые системы**: где нужно быстрое принятие решений, но при этом без риска. Преимущества: - **Прозрачность**: мы предоставляем человеку полный контроль и монито

Annotation:

This paper proposes a novel framework for developing safe Artificial General Intelligence (AGI) by combining Active Inference principles with Large Language Models (LLMs). We argue that traditional approaches to AI safety, focused on post-hoc interpretability and reward engineering, have fundamental limitations. We present an architecture where safety guarantees are integrated into the system's core design through transparent belief representations and hierarchical value alignment. Our framework...

ID: 2508.05766v1 cs.AI, cs.LG, cs.SY, eess.SY, nlin.AO

arXiv PDF