CogniAlign: Survivability-Grounded Multi-Agent Moral Reasoning for Safe and Transparent AI

2509.13356v1 cs.CY, cs.CL 2025-09-19
Авторы:

Hasin Jawad Ali, Ilhamul Azam, Ajwad Abrar, Md. Kamrul Hasan, Hasan Mahmud

Резюме на русском

## Контекст В современном мире развитие искусственного интеллекта (ИИ) стало одной из ключевых областей научных исследований. Однако существуют значительные проблемы в систематизации и моральной нормативности ИИ. Одна из основных проблем заключается в том, что человеческие ценности и моральные принципы часто неясны и конфликтуют друг с другом. Это приводит к сложностям в аккуратном внедрении значимости и морали в AI. Другая проблема — непрозрачность и непонятность многих существующих подходов к ИИ. Эти проблемы могут привести к нежелательным последствиям, таким как неучтенные моральные конфликты и нежелательные побочные эффекты. Из-за этого возникает необходимость в разработке более универсальных и прозрачных систем, которые могут более эффективно и транспарентно учитывать моральные принципы. ## Метод CogniAlign представляет собой многоагентную систему, основанную на принципах натуралистической моральной реальности. Основной принцип этой модели — **survivability**, который определяется как индивидуальное и коллективное выживание. Этот подход включает в себя структурированные делиберации, в которых агенты, представляющие различные научные дисциплины (например, нейробиологию, психологию, социологию и эволюционную биологию), обмениваются аргументами и критикой. Эти аргументы обрабатываются арбитром, который синтезирует их в прозрачные и научно обоснованные решения. Эта модель использует многоуровневую конструктивную архитектуру, где каждый агент обладает специализированным знанием в своей области. Такой подход позволяет глубоко и аналитически рассматривать моральные вопросы, учитывая различные аспекты человеческой природы и социальных систем. ## Результаты Для оценки эффективности CogniAlign проведены ряд экспериментов, включающих обработку классических и новых моральных вопросов. Данные для этих экспериментов были получены из различных источников, включая научные статьи, этические диалоги и сценарии морально-этического противоречия. Результаты показали, что CogniAlign существенно превосходит GPT-4o по нескольким критериям: **аналитической точности** (+16.2%), **широтой рассмотрения вопросов** (+14.3%) и **глубине объяснения** (+28.4%). Например, в Heinz Dilemma, CogniAlign показал результат 89.2, в то время как GPT-4o — 69.2, что свидетельствует о значительной превосходстве в обработке сложных моральных ситуаций. Этот подход демонстрирует значительные позитивные изменения в обработке моральных вопросов, уменьшая неопределенность и моральные конфликты. ## Значимость CogniAlign может применяться в различных сферах

Abstract

The challenge of aligning artificial intelligence (AI) with human values persists due to the abstract and often conflicting nature of moral principles and the opacity of existing approaches. This paper introduces CogniAlign, a multi-agent deliberation framework based on naturalistic moral realism, that grounds moral reasoning in survivability, defined across individual and collective dimensions, and operationalizes it through structured deliberations among discipline-specific scientist agents. Each agent, representing neuroscience, psychology, sociology, and evolutionary biology, provides arguments and rebuttals that are synthesized by an arbiter into transparent and empirically anchored judgments. We evaluate CogniAlign on classic and novel moral questions and compare its outputs against GPT-4o using a five-part ethical audit framework. Results show that CogniAlign consistently outperforms the baseline across more than sixty moral questions, with average performance gains of 16.2 points in analytic quality, 14.3 points in breadth, and 28.4 points in depth of explanation. In the Heinz dilemma, for example, CogniAlign achieved an overall score of 89.2 compared to GPT-4o's 69.2, demonstrating a decisive advantage in handling moral reasoning. By reducing black-box reasoning and avoiding deceptive alignment, CogniAlign highlights the potential of interdisciplinary deliberation as a scalable pathway for safe and transparent AI alignment.

Ссылки и действия