Emergent Alignment via Competition

2509.15090v1 cs.LG, cs.GT, econ.TH 2025-09-20
Авторы:

Natalie Collina, Surbhi Goel, Aaron Roth, Emily Ryu, Mirah Shi

Резюме на русском

Актуальной проблемой в AI является неудачная попытка создания систем, идеально соответствующих человеческим ценностям. В статье "Emergent Alignment via Competition" авторы предлагают исследовать стратегический подход, в котором пользователь взаимодействует с несколькими агентами AI, ни один из которых не является идеально сбалансированным. Основным открытием является то, что при достаточной разнообразности моделей и их конкуренции пользователь может получить результаты, близкие к идеальной альянсной модели. Авторы моделируют это в виде многолидерской игры типа Stackelberg с расширенной теорией Bayesian persuasion. Они доказывают, что при определенных условиях пользователь может достичь приближенно оптимального результата в зависимости от уровня знаний и выбора моделей. Экспериментальные исследования подтверждают эффективность предлагаемого подхода, демонстрируя его применимость в теоретических и практических сценариях AI.

Abstract

Aligning AI systems with human values remains a fundamental challenge, but does our inability to create perfectly aligned models preclude obtaining the benefits of alignment? We study a strategic setting where a human user interacts with multiple differently misaligned AI agents, none of which are individually well-aligned. Our key insight is that when the users utility lies approximately within the convex hull of the agents utilities, a condition that becomes easier to satisfy as model diversity increases, strategic competition can yield outcomes comparable to interacting with a perfectly aligned model. We model this as a multi-leader Stackelberg game, extending Bayesian persuasion to multi-round conversations between differently informed parties, and prove three results: (1) when perfect alignment would allow the user to learn her Bayes-optimal action, she can also do so in all equilibria under the convex hull condition (2) under weaker assumptions requiring only approximate utility learning, a non-strategic user employing quantal response achieves near-optimal utility in all equilibria and (3) when the user selects the best single AI after an evaluation period, equilibrium guarantees remain near-optimal without further distributional assumptions. We complement the theory with two sets of experiments.

Ссылки и действия