MALLM: Multi-Agent Large Language Models Framework
2509.11656v1
cs.MA, cs.AI, cs.CL, A.1; I.2.7
2025-09-17
Авторы:
Jonas Becker, Lars Benedikt Kaesberg, Niklas Bauer, Jan Philip Wahle, Terry Ruas, Bela Gipp
Резюме на русском
#### Контекст
Многоагентные дебаты (MAD) являются мощным инструментом для повышения коллективного интеллекта, основанного на масштабировании вычислительного ресурса во время выполнения тестов и использовании экспертного знания. Однако существующие системы MAD часто ограничены в гибкости интегрированной оценки, конфигурировании личностей агентов, генераторов ответов, парадигм дебатов и протоколов принятия решений. Таким образом, необходимо создать более гибкую и настраиваемую платформу для исследований в области многоагентных дебатов.
#### Метод
MALLM (Multi-Agent Large Language Models) — это открытая платформа, разработанная для систематического анализа компонентов многоагентных дебатов. Она предоставляет более 144 уникальных конфигураций дебатов, включая (1) личности агентов (например, эксперт, личности), (2) генераторы ответов (например, критический, разумный), (3) парадигмы дебатов (например, память, передача) и (4) протоколы принятия решений (например, голосование, консенсус). MALLM позволяет определять дебаты с помощью простых файлов конфигураций. Кроме того, она поддерживает загрузку текстовых датасетов (например, MMLU-Pro, WinoGrande) и предоставляет полный пайплайн для оценки и сравнения конфигураций MAD.
#### Результаты
Проведенные эксперименты позволили протестировать различные конфигурации MAD. MALLM эффективно сталкивает агентов в конфликтных ситуациях, используя различные личности, генераторы ответов и протоколы принятия решений. Оценка результатов показала, что MALLM обеспечивает гибкость и надежность в анализе многоагентных дебатов, что демонстрирует мощь предложенного фреймворка.
#### Значимость
MALLM может быть применен в области моделирования разума, взаимодействия агентов и решения проблем с использованием многоагентных дебатов. Он предоставляет широкий спектр конфигураций, что позволяет лучше понять взаимодействие различных компонентов MAD. Помимо этого, MALLM может использоваться для проведения конкретных исследований и сравнения новых идей в области многоагентных дебатов.
#### Выводы
MALLM представляет собой инновационный подход к исследованию многоагентных дебатов. Он открывает новые возможности для изучения интеллектуальных процессов в многоагентных системах. Будущие исследования будут нацелены на расширение функциональности MALLM, улучшение его методов оценки и расширение применений в различных областях.
Abstract
Multi-agent debate (MAD) has demonstrated the ability to augment collective
intelligence by scaling test-time compute and leveraging expertise. Current
frameworks for multi-agent debate are often designed towards tool use, lack
integrated evaluation, or provide limited configurability of agent personas,
response generators, discussion paradigms, and decision protocols. We introduce
MALLM (Multi-Agent Large Language Models), an open-source framework that
enables systematic analysis of MAD components. MALLM offers more than 144
unique configurations of MAD, including (1) agent personas (e.g., Expert,
Personality), (2) response generators (e.g., Critical, Reasoning), (3)
discussion paradigms (e.g., Memory, Relay), and (4) decision protocols (e.g.,
Voting, Consensus). MALLM uses simple configuration files to define a debate.
Furthermore, MALLM can load any textual Huggingface dataset (e.g., MMLU-Pro,
WinoGrande) and provides an evaluation pipeline for easy comparison of MAD
configurations. MALLM is tailored towards researchers and provides a window
into the heart of multi-agent debate, facilitating the understanding of its
components and their interplay.