Co-Alignment: Rethinking Alignment as Bidirectional Human-AI Cognitive Adaptation
2509.12179v2
cs.AI, cs.MA
2025-09-17
Авторы:
Yubo Li, Weiyi Song
Резюме на русском
#### Контекст
Существующие подходы к алгоритмическому взаимодействию человека с искусственным интеллектом через Reinforcement Learning from Human Feedback (RLHF) опираются на однонаправленное восприятие, где ИИ приспосабливается к человеческим предпочтениям, принимая человеческий разум как неизменный фактор. Такой подход не учитывает потенциал бизертического взаимодействия, где обе стороны — люди и ИИ — могут совместно адаптироваться друг к другу. Это ограничение вносит существенные ограничения в области безопасности, эффективности и удовлетворения пользователей. В статье предлагается концепция **Bidirectional Cognitive Alignment (BiCA)**, которая предполагает бизертическую модель взаимодействия, где как люди, так и ИИ развиваются вместе.
#### Метод
Методология **BiCA** основывается на трех ключевых компонентах: **learnable protocols**, **representation mapping** и **KL-budget constraints**. **Learnable protocols** позволяют динамически меняться в зависимости от ситуации, **representation mapping** обеспечивает гармоничное взаимопонимание между человеком и ИИ, а **KL-budget constraints** регулируют изменения, избегая переобучения и снижения производительности. Эти компоненты были реализованы в системе с использованием нейронных сетей и алгоритмов управления. Архитектура поддерживает синергетическую корреляцию между человеческими и искусственными системами, стимулируя интеллектуальный рост как у ИИ, так и у свободного человека.
#### Результаты
Эксперименты проводились в среде **collaborative navigation**, где использовались различные данные для оценки производительности BiCA. Результаты показали, что система достигла **85.5% успешности** в задаче, в то время как базовый подход без BiCA показал только **70.3%**. Бизертическое взаимодействие повысило **mutual adaptation** на **230%** и **protocol convergence** на **332%**. Написанные заранее протоколы были превзойдены **84%**, а бизертический подход демонстрировал улучшение **safety (+23%)** в условиях выхода за пределы обучающих данных. Это указывает на то, что значительная синергия (синергия увеличилась на **46%**) достигается не в объединении, но в **интерфейсе взаимодействия** человека и ИИ.
#### Значимость
Предлагаемый подход имеет широкие применения в области **human-AI collaboration** в таких сферах, как командная работа, робототехника, медицина и образование. **Преимущества** BiCA включают: высокую эффективность, улучшенную безопасность и гибкость в работе в неизвестных условиях. Изучение данного подхода может сыграть ключевую роль в развитии **AI-driven ecosystems**, где человеческие и искусственные системы не только сотрудничают, но и учится друг от друга. **Потенциальное влияние** заключается в том, что BiCA может дать новый уровень взаимодействия между люд
Abstract
Current AI alignment through RLHF follows a single directional paradigm that
AI conforms to human preferences while treating human cognition as fixed. We
propose a shift to co-alignment through Bidirectional Cognitive Alignment
(BiCA), where humans and AI mutually adapt. BiCA uses learnable protocols,
representation mapping, and KL-budget constraints for controlled co-evolution.
In collaborative navigation, BiCA achieved 85.5% success versus 70.3% baseline,
with 230% better mutual adaptation and 332% better protocol convergence.
Emergent protocols outperformed handcrafted ones by 84%, while bidirectional
adaptation unexpectedly improved safety (+23% out-of-distribution robustness).
The 46% synergy improvement demonstrates optimal collaboration exists at the
intersection, not union, of human and AI capabilities, validating the shift
from single-directional to co-alignment paradigms.
Ссылки и действия
Дополнительные ресурсы: