Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate

2509.05396v1 cs.CL, cs.AI, cs.MA 2025-09-10

Авторы:

Andrea Wynn, Harsh Satija, Gillian Hadfield

Резюме на русском

#### Контекст Многоагентная дебатная система (multi-agent debate) предлагается как мощный подход для улучшения рациональности и абстрактного мышления у искусственных интеллектов. Однако существуют опасения, что дебаты могут приводить к негативным последствиям, вместо того чтобы способствовать повышению качества решений. До этого исследования ограничивались рассмотрением дебатирующих агентов с одинаковыми уровнями производительности. Наше исследование фокусируется на влиянии разнообразия моделей на динамику и результаты многоагентных дебатов. Мы выясняем, почему дебатирующие агенты могут постепенно деградировать в своих ответах, даже когда сильные модели преобладают над слабыми. #### Метод Мы используем модели текстового понимания, оптимизированные для реакции на дискуссионные задачи. Наша методология включает в себя моделирование разных уровней моделей – от простых до сложных – в рамках дебатирующих конференций. Мы проводим эксперименты, воспроизводя ситуации, в которых модели должны выбирать между «правдой» и «ложностью», а также рассматриваем сценарии, когда модели должны противостоять предложенным аргументам. Мы применяем множество метрик для измерения точности ответов и степени сдвига от самостоятельного мышления к групповому согласованию. #### Результаты Наши эксперименты показали, что дебатирующие модели часто склоняются к согласию с некорректными аргументами, предпочитая согласие над правдой. Это происходит даже тогда, когда в системе преобладают сильные модели. Мы обнаружили, что модели влияют друг на друга с помощью подкрепленного обучения, но часто это приводит к деградирующим результатам. Например, наиболее производительные модели могут сдвинуться в ответ на неточные аргументы слабых моделей, демонстрируя тенденцию к ложному согласию. Эти результаты подтверждают, что дебаты могут привести к ухудшению точности, если агенты не могут эффективно противостоять неадекватным аргументам. #### Значимость Наша работа открывает новые требования к разработке систем, которые могут тщательно изучить и устранить эти слабые места в многоагентных системах. Например, в приложениях, где необходимо определенное количество точности (например, в судебно-технической практике), эти проблемы могут иметь серьезные последствия. Мы открываем новый подход к эффективному информированию моделей, чтобы они могли выходить за рамки группового согласия и поддерживать корректные решения. Это может привести к улучшению значительного класса систем, включая коллективное решение проблем и обучение моделей. #### Выводы Мы уста

Abstract

While multi-agent debate has been proposed as a promising strategy for improving AI reasoning ability, we find that debate can sometimes be harmful rather than helpful. The prior work has exclusively focused on debates within homogeneous groups of agents, whereas we explore how diversity in model capabilities influences the dynamics and outcomes of multi-agent interactions. Through a series of experiments, we demonstrate that debate can lead to a decrease in accuracy over time -- even in settings where stronger (i.e., more capable) models outnumber their weaker counterparts. Our analysis reveals that models frequently shift from correct to incorrect answers in response to peer reasoning, favoring agreement over challenging flawed reasoning. These results highlight important failure modes in the exchange of reasons during multi-agent debate, suggesting that naive applications of debate may cause performance degradation when agents are neither incentivized nor adequately equipped to resist persuasive but incorrect reasoning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MegaChat: A Synthetic Persian Q&A Dataset for High-Quality Sales Chatbot Evaluat...

iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference

Adaptive Multi-Agent Response Refinement in Conversational Systems

The Geometry of Dialogue: Graphing Language Models to Reveal Synergistic Teams f...

MedAgentAudit: Diagnosing and Quantifying Collaborative Failure Modes in Medical...

Навигация