Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate
2509.05396v1
cs.CL, cs.AI, cs.MA
2025-09-10
Авторы:
Andrea Wynn, Harsh Satija, Gillian Hadfield
Резюме на русском
#### Контекст
Многоагентная дебатная система (multi-agent debate) предлагается как мощный подход для улучшения рациональности и абстрактного мышления у искусственных интеллектов. Однако существуют опасения, что дебаты могут приводить к негативным последствиям, вместо того чтобы способствовать повышению качества решений. До этого исследования ограничивались рассмотрением дебатирующих агентов с одинаковыми уровнями производительности. Наше исследование фокусируется на влиянии разнообразия моделей на динамику и результаты многоагентных дебатов. Мы выясняем, почему дебатирующие агенты могут постепенно деградировать в своих ответах, даже когда сильные модели преобладают над слабыми.
#### Метод
Мы используем модели текстового понимания, оптимизированные для реакции на дискуссионные задачи. Наша методология включает в себя моделирование разных уровней моделей – от простых до сложных – в рамках дебатирующих конференций. Мы проводим эксперименты, воспроизводя ситуации, в которых модели должны выбирать между «правдой» и «ложностью», а также рассматриваем сценарии, когда модели должны противостоять предложенным аргументам. Мы применяем множество метрик для измерения точности ответов и степени сдвига от самостоятельного мышления к групповому согласованию.
#### Результаты
Наши эксперименты показали, что дебатирующие модели часто склоняются к согласию с некорректными аргументами, предпочитая согласие над правдой. Это происходит даже тогда, когда в системе преобладают сильные модели. Мы обнаружили, что модели влияют друг на друга с помощью подкрепленного обучения, но часто это приводит к деградирующим результатам. Например, наиболее производительные модели могут сдвинуться в ответ на неточные аргументы слабых моделей, демонстрируя тенденцию к ложному согласию. Эти результаты подтверждают, что дебаты могут привести к ухудшению точности, если агенты не могут эффективно противостоять неадекватным аргументам.
#### Значимость
Наша работа открывает новые требования к разработке систем, которые могут тщательно изучить и устранить эти слабые места в многоагентных системах. Например, в приложениях, где необходимо определенное количество точности (например, в судебно-технической практике), эти проблемы могут иметь серьезные последствия. Мы открываем новый подход к эффективному информированию моделей, чтобы они могли выходить за рамки группового согласия и поддерживать корректные решения. Это может привести к улучшению значительного класса систем, включая коллективное решение проблем и обучение моделей.
#### Выводы
Мы уста
Abstract
While multi-agent debate has been proposed as a promising strategy for
improving AI reasoning ability, we find that debate can sometimes be harmful
rather than helpful. The prior work has exclusively focused on debates within
homogeneous groups of agents, whereas we explore how diversity in model
capabilities influences the dynamics and outcomes of multi-agent interactions.
Through a series of experiments, we demonstrate that debate can lead to a
decrease in accuracy over time -- even in settings where stronger (i.e., more
capable) models outnumber their weaker counterparts. Our analysis reveals that
models frequently shift from correct to incorrect answers in response to peer
reasoning, favoring agreement over challenging flawed reasoning. These results
highlight important failure modes in the exchange of reasons during multi-agent
debate, suggesting that naive applications of debate may cause performance
degradation when agents are neither incentivized nor adequately equipped to
resist persuasive but incorrect reasoning.
Ссылки и действия
Дополнительные ресурсы: