📊 Статистика дайджестов
Всего дайджестов: 34607 Добавлено сегодня: 484
Последнее обновление: сегодня
📄 Emergent Alignment via Competition
2025-09-20Авторы:
Natalie Collina, Surbhi Goel, Aaron Roth, Emily Ryu, Mirah Shi
Актуальной проблемой в AI является неудачная попытка создания систем, идеально соответствующих человеческим ценностям. В статье "Emergent Alignment via Competition" авторы предлагают исследовать стратегический подход, в котором пользователь взаимодействует с несколькими агентами AI, ни один из которых не является идеально сбалансированным. Основным открытием является то, что при достаточной разнообразности моделей и их конкуренции пользователь может получить результаты, близкие к идеальной альянсной модели. Авторы моделируют это в виде многолидерской игры типа Stackelberg с расширенной теорией Bayesian persuasion. Они доказывают, что при определенных условиях пользователь может достичь приближенно оптимального результата в зависимости от уровня знаний и выбора моделей. Экспериментальные исследования подтверждают эффективность предлагаемого подхода, демонстрируя его применимость в теоретических и практических сценариях AI.
Annotation:
Aligning AI systems with human values remains a fundamental challenge, but
does our inability to create perfectly aligned models preclude obtaining the
benefits of alignment? We study a strategic setting where a human user
interacts with multiple differently misaligned AI agents, none of which are
individually well-aligned. Our key insight is that when the users utility lies
approximately within the convex hull of the agents utilities, a condition that
becomes easier to satisfy as model diversit...