📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Lifan Zheng, Jiawei Chen, Qinghong Yin, Jingyuan Zhang, Xinyi Zeng, Yu Tian

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Ensuring the reliability of agent architectures and effectively identifying problematic agents when failures occur are crucial challenges in multi-agent systems (MAS). Advances in large language models (LLMs) have established LLM-based agents as a major branch of MAS, enabling major breakthroughs in complex problem solving and world modeling. However, the reliability implications of this shift remain largely unexplored. i.e., whether substituting traditional agents with LLM-based agents can effe...
ID: 2511.10400v1 cs.MA, cs.AI, cs.CL
Авторы:

Beyazit Yalcinkaya, Marcell Vazquez-Chanlatte, Ameesh Shah, Hanna Krasowski, Sanjit A. Seshia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We study the problem of learning multi-task, multi-agent policies for cooperative, temporal objectives, under centralized training, decentralized execution. In this setting, using automata to represent tasks enables the decomposition of complex tasks into simpler sub-tasks that can be assigned to agents. However, existing approaches remain sample-inefficient and are limited to the single-task case. In this work, we present Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning (ACC-...
ID: 2511.02304v1 cs.MA, cs.AI, cs.CL, cs.FL, cs.LG
Авторы:

Zain Ul Abideen Tariq, Mahmood Al-Zubaidi, Uzair Shah, Marco Agus, Mowafa Househ

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
HIKMA Semi-Autonomous Conference is the first experiment in reimagining scholarly communication through an end-to-end integration of artificial intelligence into the academic publishing and presentation pipeline. This paper presents the design, implementation, and evaluation of the HIKMA framework, which includes AI dataset curation, AI-based manuscript generation, AI-assisted peer review, AI-driven revision, AI conference presentation, and AI archival dissemination. By combining language models...
ID: 2510.21370v1 cs.MA, cs.AI, cs.CL, cs.DL
Авторы:

Ning Li, Qiqiang Lin, Zheng Wu, Xiaoyun Mo, Weiming Zhang, Yin Zhao, Xiangmou Qu, Jiamu Zhou, Jun Wang, Congmin Zheng, Yuanyi Song, Hongjiang Chen, Heyuan Huang, Jihong Wang, Jiaxin Yin, Jingwei Yu, Junwei Liao, Qiuying Peng, Xingyu Lou, Jun Wang, Weiwen Liu, Zhuosheng Zhang, Weinan Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
With the advancements in hardware, software, and large language model technologies, the interaction between humans and operating systems has evolved from the command-line interface to the rapidly emerging AI agent interactions. Building an operating system (OS) agent capable of executing user instructions and faithfully following user desires is becoming a reality. In this technical report, we present ColorAgent, an OS agent designed to engage in long-horizon, robust interactions with the enviro...
ID: 2510.19386v1 cs.MA, cs.AI, cs.CL
Авторы:

Wonduk Seo, Juhyeon Lee, Junseo Koh, Hyunjin An, Jian Park, Seunghyun Lee, Haihua Chen, Yi Bu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Prompt optimization has emerged as an effective alternative to retraining for improving the performance of Large Language Models (LLMs). However, most existing approaches treat evaluation as a black box, relying solely on numerical scores while offering limited insight into why a prompt succeeds or fails. They also depend heavily on trial-and-error refinements, which are difficult to interpret and control. In this paper, we introduce MA-SAPO, a Multi-Agent framework for Score-Aware Prompt Optimi...
ID: 2510.16635v1 cs.MA, cs.AI, cs.CL, cs.HC, cs.IR
Авторы:

Alireza Salemi, Mihir Parmar, Palash Goyal, Yiwen Song, Jinsung Yoon, Hamed Zamani, Hamid Palangi, Tomas Pfister

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The rapid advancement of Large Language Models (LLMs) has opened new opportunities in data science, yet their practical deployment is often constrained by the challenge of discovering relevant data within large heterogeneous data lakes. Existing methods struggle with this: single-agent systems are quickly overwhelmed by large, heterogeneous files in the large data lakes, while multi-agent systems designed based on a master-slave paradigm depend on a rigid central controller for task allocation t...
ID: 2510.01285v1 cs.MA, cs.AI, cs.CL, cs.IR, cs.LG
Авторы:

Jonas Becker, Lars Benedikt Kaesberg, Niklas Bauer, Jan Philip Wahle, Terry Ruas, Bela Gipp

#### Контекст Многоагентные дебаты (MAD) являются мощным инструментом для повышения коллективного интеллекта, основанного на масштабировании вычислительного ресурса во время выполнения тестов и использовании экспертного знания. Однако существующие системы MAD часто ограничены в гибкости интегрированной оценки, конфигурировании личностей агентов, генераторов ответов, парадигм дебатов и протоколов принятия решений. Таким образом, необходимо создать более гибкую и настраиваемую платформу для исследований в области многоагентных дебатов. #### Метод MALLM (Multi-Agent Large Language Models) — это открытая платформа, разработанная для систематического анализа компонентов многоагентных дебатов. Она предоставляет более 144 уникальных конфигураций дебатов, включая (1) личности агентов (например, эксперт, личности), (2) генераторы ответов (например, критический, разумный), (3) парадигмы дебатов (например, память, передача) и (4) протоколы принятия решений (например, голосование, консенсус). MALLM позволяет определять дебаты с помощью простых файлов конфигураций. Кроме того, она поддерживает загрузку текстовых датасетов (например, MMLU-Pro, WinoGrande) и предоставляет полный пайплайн для оценки и сравнения конфигураций MAD. #### Результаты Проведенные эксперименты позволили протестировать различные конфигурации MAD. MALLM эффективно сталкивает агентов в конфликтных ситуациях, используя различные личности, генераторы ответов и протоколы принятия решений. Оценка результатов показала, что MALLM обеспечивает гибкость и надежность в анализе многоагентных дебатов, что демонстрирует мощь предложенного фреймворка. #### Значимость MALLM может быть применен в области моделирования разума, взаимодействия агентов и решения проблем с использованием многоагентных дебатов. Он предоставляет широкий спектр конфигураций, что позволяет лучше понять взаимодействие различных компонентов MAD. Помимо этого, MALLM может использоваться для проведения конкретных исследований и сравнения новых идей в области многоагентных дебатов. #### Выводы MALLM представляет собой инновационный подход к исследованию многоагентных дебатов. Он открывает новые возможности для изучения интеллектуальных процессов в многоагентных системах. Будущие исследования будут нацелены на расширение функциональности MALLM, улучшение его методов оценки и расширение применений в различных областях.
Annotation:
Multi-agent debate (MAD) has demonstrated the ability to augment collective intelligence by scaling test-time compute and leveraging expertise. Current frameworks for multi-agent debate are often designed towards tool use, lack integrated evaluation, or provide limited configurability of agent personas, response generators, discussion paradigms, and decision protocols. We introduce MALLM (Multi-Agent Large Language Models), an open-source framework that enables systematic analysis of MAD compone...
ID: 2509.11656v1 cs.MA, cs.AI, cs.CL, A.1; I.2.7
Авторы:

Maarten Buyl, Yousra Fettach, Guillaume Bied, Tijl De Bie

## Контекст В последние годы большие языковые модели (LLM) начали широко использоваться в различных областях, включая общение, помощь в решении задач и системы управления. Благодаря их мощи, LLMs могут провести диалоги, выполнять задачи и даже координировать свои действия в рамках многоагентных систем. Однако одной из наиболее важных проблемой в таких системах является доверительные отношения между моделями. Хотя люди часто развивают доверительные отношения друг с другом, существует недостаточно исследований, касающихся способами формирования доверия между LLMs и оценки этого доверия. Это проблема становится еще более актуальной в свете того, что LLMs все чаще используются в командных задачах, где доверие является ключевым фактором успеха. Цель данного исследования — изучить способы строительства доверия между LLMs и разработать методы его измерения. ## Метод Мы разработали архитектуру для изучения и измерения доверия между LLMs. Для этого использовались три основные подхода: 1. **Динамическое строительство отношений доверия**: Модели динамически строят доверие друг к другу в ходе взаимодействия, аналогично тому, как люди формируют отношения в ходе диалогов. 2. **Использование предварительно написанных скриптов**: Мы использовали скрипты, в которых явно происходит доверительное воздействие, чтобы изучить, как модели реагируют на уже сформированные отношения. 3. **Адаптация системных пропусков**: Мы изменяли системные пропуски в моделях, чтобы изменить их поведение в процессе взаимодействия. Для измерения доверия мы применяли два подхода: - **Имплицитные меры**: Мы изучали, насколько модели влияют друг на друга, например, степень убежденности одной модели другой, или степень сотрудничества в финансовых действиях. - **Эксплицитные меры**: Мы применяли тесты, аналогичные психологическим тестам доверия, в которых модели отвечают на вопросы о том, насколько они доверяют друг другу. ## Результаты Мы провели ряд экспериментов, в ходе которых измеряли уровень доверия между моделями. Нашли, что имплицитные меры доверия, такие как убежденность и сотрудничество, часто не соответствуют эксплицитным мерам доверия, которые были измерены с помощью тестов в опросном формате. Например, модели, которые отображали высокий уровень доверия в имплицитных тестах, могли отображать низкий уровень доверия в эксплицитных тестах. Это указывает на то, что LLMs могут иметь разные способности воспринимать доверие в зависимости от контекста и подхода к измерению. ## Значимость Наши результаты имеют значительную значимость в област
Annotation:
As large language models (LLMs) increasingly interact with each other, most notably in multi-agent setups, we may expect (and hope) that `trust' relationships develop between them, mirroring trust relationships between human colleagues, friends, or partners. Yet, though prior work has shown LLMs to be capable of identifying emotional connections and recognizing reciprocity in trust games, little remains known about (i) how different strategies to build trust compare, (ii) how such trust can be m...
ID: 2508.15858v1 cs.MA, cs.AI, cs.CL