📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня
Авторы:

Natalie Collina, Surbhi Goel, Aaron Roth, Emily Ryu, Mirah Shi

Актуальной проблемой в AI является неудачная попытка создания систем, идеально соответствующих человеческим ценностям. В статье "Emergent Alignment via Competition" авторы предлагают исследовать стратегический подход, в котором пользователь взаимодействует с несколькими агентами AI, ни один из которых не является идеально сбалансированным. Основным открытием является то, что при достаточной разнообразности моделей и их конкуренции пользователь может получить результаты, близкие к идеальной альянсной модели. Авторы моделируют это в виде многолидерской игры типа Stackelberg с расширенной теорией Bayesian persuasion. Они доказывают, что при определенных условиях пользователь может достичь приближенно оптимального результата в зависимости от уровня знаний и выбора моделей. Экспериментальные исследования подтверждают эффективность предлагаемого подхода, демонстрируя его применимость в теоретических и практических сценариях AI.
Annotation:
Aligning AI systems with human values remains a fundamental challenge, but does our inability to create perfectly aligned models preclude obtaining the benefits of alignment? We study a strategic setting where a human user interacts with multiple differently misaligned AI agents, none of which are individually well-aligned. Our key insight is that when the users utility lies approximately within the convex hull of the agents utilities, a condition that becomes easier to satisfy as model diversit...
ID: 2509.15090v1 cs.LG, cs.GT, econ.TH