Emergent Alignment via Competition
2509.15090v1
cs.LG, cs.GT, econ.TH
2025-09-20
Авторы:
Natalie Collina, Surbhi Goel, Aaron Roth, Emily Ryu, Mirah Shi
Резюме на русском
Актуальной проблемой в AI является неудачная попытка создания систем, идеально соответствующих человеческим ценностям. В статье "Emergent Alignment via Competition" авторы предлагают исследовать стратегический подход, в котором пользователь взаимодействует с несколькими агентами AI, ни один из которых не является идеально сбалансированным. Основным открытием является то, что при достаточной разнообразности моделей и их конкуренции пользователь может получить результаты, близкие к идеальной альянсной модели. Авторы моделируют это в виде многолидерской игры типа Stackelberg с расширенной теорией Bayesian persuasion. Они доказывают, что при определенных условиях пользователь может достичь приближенно оптимального результата в зависимости от уровня знаний и выбора моделей. Экспериментальные исследования подтверждают эффективность предлагаемого подхода, демонстрируя его применимость в теоретических и практических сценариях AI.
Abstract
Aligning AI systems with human values remains a fundamental challenge, but
does our inability to create perfectly aligned models preclude obtaining the
benefits of alignment? We study a strategic setting where a human user
interacts with multiple differently misaligned AI agents, none of which are
individually well-aligned. Our key insight is that when the users utility lies
approximately within the convex hull of the agents utilities, a condition that
becomes easier to satisfy as model diversity increases, strategic competition
can yield outcomes comparable to interacting with a perfectly aligned model. We
model this as a multi-leader Stackelberg game, extending Bayesian persuasion to
multi-round conversations between differently informed parties, and prove three
results: (1) when perfect alignment would allow the user to learn her
Bayes-optimal action, she can also do so in all equilibria under the convex
hull condition (2) under weaker assumptions requiring only approximate utility
learning, a non-strategic user employing quantal response achieves near-optimal
utility in all equilibria and (3) when the user selects the best single AI
after an evaluation period, equilibrium guarantees remain near-optimal without
further distributional assumptions. We complement the theory with two sets of
experiments.
Ссылки и действия
Дополнительные ресурсы: