Co-Alignment: Rethinking Alignment as Bidirectional Human-AI Cognitive Adaptation

2509.12179v2 cs.AI, cs.MA 2025-09-17

Авторы:

Yubo Li, Weiyi Song

Резюме на русском

#### Контекст Существующие подходы к алгоритмическому взаимодействию человека с искусственным интеллектом через Reinforcement Learning from Human Feedback (RLHF) опираются на однонаправленное восприятие, где ИИ приспосабливается к человеческим предпочтениям, принимая человеческий разум как неизменный фактор. Такой подход не учитывает потенциал бизертического взаимодействия, где обе стороны — люди и ИИ — могут совместно адаптироваться друг к другу. Это ограничение вносит существенные ограничения в области безопасности, эффективности и удовлетворения пользователей. В статье предлагается концепция **Bidirectional Cognitive Alignment (BiCA)**, которая предполагает бизертическую модель взаимодействия, где как люди, так и ИИ развиваются вместе. #### Метод Методология **BiCA** основывается на трех ключевых компонентах: **learnable protocols**, **representation mapping** и **KL-budget constraints**. **Learnable protocols** позволяют динамически меняться в зависимости от ситуации, **representation mapping** обеспечивает гармоничное взаимопонимание между человеком и ИИ, а **KL-budget constraints** регулируют изменения, избегая переобучения и снижения производительности. Эти компоненты были реализованы в системе с использованием нейронных сетей и алгоритмов управления. Архитектура поддерживает синергетическую корреляцию между человеческими и искусственными системами, стимулируя интеллектуальный рост как у ИИ, так и у свободного человека. #### Результаты Эксперименты проводились в среде **collaborative navigation**, где использовались различные данные для оценки производительности BiCA. Результаты показали, что система достигла **85.5% успешности** в задаче, в то время как базовый подход без BiCA показал только **70.3%**. Бизертическое взаимодействие повысило **mutual adaptation** на **230%** и **protocol convergence** на **332%**. Написанные заранее протоколы были превзойдены **84%**, а бизертический подход демонстрировал улучшение **safety (+23%)** в условиях выхода за пределы обучающих данных. Это указывает на то, что значительная синергия (синергия увеличилась на **46%**) достигается не в объединении, но в **интерфейсе взаимодействия** человека и ИИ. #### Значимость Предлагаемый подход имеет широкие применения в области **human-AI collaboration** в таких сферах, как командная работа, робототехника, медицина и образование. **Преимущества** BiCA включают: высокую эффективность, улучшенную безопасность и гибкость в работе в неизвестных условиях. Изучение данного подхода может сыграть ключевую роль в развитии **AI-driven ecosystems**, где человеческие и искусственные системы не только сотрудничают, но и учится друг от друга. **Потенциальное влияние** заключается в том, что BiCA может дать новый уровень взаимодействия между люд

Abstract

Current AI alignment through RLHF follows a single directional paradigm that AI conforms to human preferences while treating human cognition as fixed. We propose a shift to co-alignment through Bidirectional Cognitive Alignment (BiCA), where humans and AI mutually adapt. BiCA uses learnable protocols, representation mapping, and KL-budget constraints for controlled co-evolution. In collaborative navigation, BiCA achieved 85.5% success versus 70.3% baseline, with 230% better mutual adaptation and 332% better protocol convergence. Emergent protocols outperformed handcrafted ones by 84%, while bidirectional adaptation unexpectedly improved safety (+23% out-of-distribution robustness). The 46% synergy improvement demonstrates optimal collaboration exists at the intersection, not union, of human and AI capabilities, validating the shift from single-directional to co-alignment paradigms.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Co-Alignment: Rethinking Alignment as Bidirectional Human-AI Cognitive Adaptation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Chameleon: Adaptive Adversarial Agents for Scaling-Based Visual Prompt Injection...

Multi-Agent Reinforcement Learning with Communication-Constrained Priors

Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex E...

Solving Context Window Overflow in AI Agents

Agentic AI Framework for Cloudburst Prediction and Coordinated Response

Навигация