📚 Саммари научных статей из arXiv

Найдено 161 результатов по запросу 'cs.AI, cs.MA' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 HeDA: An Intelligent Agent System for Heatwave Risk Discovery through Automated Knowledge Graph Construction and Multi-layer Risk Propagation Analysis

2025-10-01

Авторы:

Yiquan Wang, Tin-Yeh Huang, Qingyun Gao, Jialin Zhang

## Контекст Ограниченный вид на то, как говорят, что жара может приводить к отклонениям в работе индустрии. Довольно много работ посвящено различным аспектам жарких лет, но подробное понимание того, как они могут влиять на разные системы, остается недостаточно развитым. Одной из причин этому является отсутствие полного и интеллектуального анализа знаний, которые распределены по многочисленным источникам. Таким образом, целью данной работы является развитие интеллектуальной системы, которая может автоматически построить знаний и выявить угрозы, связанные с жаровыми погодными условиями. Это касается не только проблем, которые хорошо изучены, но и незначительных, но важных рисков, которые могут быть упущены при ручном анализе больших объемов данных. ## Метод Для решения этой задачи, разработано HeDA (Heatwave Discovery Agent) — интеллектуальная система, построенная на многоагентной модели. Основные этапы работы HeDA: 1) автоматическое построение знаний в виде графа, 2) идентификация рисков с помощью многоуровневого анализа распространения рисков. HeDA анализирует набор 10,247 научных статей, создавая граф с 23,156 узлов и 89,472 связями, что позволяет выявлять сложные взаимосвязи между разными факторами. Многоуровневый анализ рисков позволяет выделить не только видимые, но и незаметные риски, которые могут привести к серьезным последствиям. ## Результаты Используя HeDA, было выявлено несколько новых, но важных рисков, которые были пропущены в предыдущих исследованиях. Например, одна из найденных цепочек включает: жара –> повышение потребления воды –> ограничения на использование воды в промышленности –> прекращение работы малого бизнеса. Эти результаты были проверены с помощью исторических данных и консультаций экспертов. Для оценки того, насколько хорошо система справляется с задачей, проведены эксперименты на вопросно-ответной задаче, где HeDA показал 78.9% точности, превосходя самые современные базы, такие как GPT-4, на 13.7%. ## Значимость Разработанная система открывает новый подход к автоматизированному исследованию рисков, связанных с жаровыми погодными условиями. Она может применяться в различных областях, включая адаптацию к климатическим изменениям, планирование ресурсов и развитие инфраструктуры. Из-за того, что HeDA может выявлять не только явные, но и скрытые риски, она дает более полное и точное представление о потенциальных угрозах. Это может помочь в разработке эффективных стратегий для повышения устойчивости к жаровым условиям. ## Выводы HeDA доказала свою эффекти

Annotation:

Heatwaves pose complex cascading risks across interconnected climate, social, and economic systems, but knowledge fragmentation in scientific literature hinders comprehensive understanding of these risk pathways. We introduce HeDA (Heatwave Discovery Agent), an intelligent multi-agent system designed for automated scientific discovery through knowledge graph construction and multi-layer risk propagation analysis. HeDA processes over 10,247 academic papers to construct a comprehensive knowledge g...

ID: 2509.25112v1 cs.AI, cs.MA

arXiv PDF

📄 ToMPO: Training LLM Strategic Decision Making from a Multi-Agent Perspective

2025-09-27

Авторы:

Yiwen Zhang, Ziang Chen, Fanqi Kong, Yizhe Huang, Xue Feng

## Контекст Стратегическое принятие решений требует логического рассуждения, осознания различных субъектов и их стратегий. Однако существующие решения, основанные на глубоком познании, часто не учитывают взаимодействия с другими агентами. Это приводит к несоответствию решений и неэффективности взаимодействия. Большинство исследований сосредоточены на учебных средах или эмулируемых задачах, где нет глубокого взаимодействия. Мы призваны разработать метод, который бы учитывал взаимодействие в целом, включая рассуждения о стратегиях других субъектов и их влияние на решения. ## Метод Мы предлагаем ToMPO (Training LLM Strategic Decision Making from a Multi-Agent Perspective) — метод, оптимизирующий стратегии моделей, рассуждая о стратегиях других. ToMPO включает два ключевых элемента: 1) генерируя роллауты на основе стратегий других агентов, 2) вычисляя преимущества на уровне графа и отдельных примеров. Мы также предлагаем балансировку между глобальным и частным вознаграждением. Этот подход учитывает взаимосвязи и отдает предпочтение совместным решениям. Результаты показывают, что ToMPO улучшает соответствие модели критериям взаимодействия, увеличивая коэффициент кооперативности на 35% по сравнению с GRPO. ## Результаты Мы проводили эксперименты на симулируемых задачах, где необходимо учитывать стратегии других агентов. Мы сравнили ToMPO со стандартным GRPO и увидели, что ToMPO повышает уровень кооперативности и соответствия решений. Например, в задаче управления ресурсами, где необходимо понять стратегии других игроков, ToMPO показал лучшие результаты. Мы также проводили эксперименты с моделями различных размеров, демонстрируя, что ToMPO эффективен даже при меньшем размере параметров, показывая улучшение на 18% по сравнению с моделями, имеющими размер 100 раз больше. ## Значимость Предложенный подход может быть применен в различных сферах, где требуется умение работать с несколькими агентами и рассуждать о своих стратегиях. Он может использоваться в системах, которым требуется оценивать риски и принимать решения в условиях неопределенности. Это демонстрирует значительный прогресс в области стратегического принятия решений, позволяя моделям более эффективно учитывать взаимодействие с другими субъектами. ## Выводы Мы представили ToMPO, метод, который улучшает стратегическое принятие решений с помощью глубокого рассуждения о стратегиях других агентов. Мы продемонстрировали эффективность этого подхода в симулируемых задачах и сравнили его с GRPO, показав значительное улучшение. Наша работа открывает новые

Annotation:

Large Language Models (LLMs) have been used to make decisions in complex scenarios, where they need models to think deeply, reason logically, and decide wisely. Many existing studies focus solely on multi-round conversations in social tasks or simulated environments, neglecting the various types of decisions and their interdependence. Current reinforcement learning methods struggle to consider the strategies of others during training. To address these issues, we first define a strategic decision...

ID: 2509.21134v1 cs.AI, cs.MA

arXiv PDF

📄 Adaptive Event-Triggered Policy Gradient for Multi-Agent Reinforcement Learning

2025-09-26

Авторы:

Umer Siddique, Abhinav Sinha, Yongcan Cao

#### Контекст Многоагентные системы решают задачи, где несколько агентов должны одновременно решать задачи, взаимодействуя друг с другом. Несмотря на успех многоагентного машинного обучения (MARL) в таких приложениях, существуют проблемы, связанные с высокой стоимостью вычислений и передачи данных. Эти ограничения ограничивают масштабируемость и эффективность таких систем. Многие существующие методы разделяют оптимизацию контрольных политик и механизмов коммуникации, что приводит к неэффективности в использовании ресурсов. #### Метод Мы предлагаем Event-Triggered Multi-Agent Policy Gradient (ET-MAPG), рамформу, где обучение контрольных политик и механизмов коммуникации объединяется в единое решение. Уровень коммуникации становится частью обучения, то есть, агенты не только выбирают действия, но и решают, когда и с кем делиться информацией. В АET-MAPG, мы добавляем самоп paттерны, используя самоаттенцию. Таким образом, агенты могут выбирать, когда и с кем обмениваться информацией. Метод может быть интегрирован с любыми методами политики по градиенту в MARL. #### Результаты Мы проводили эксперименты на нескольких многоагентных бенчмарках. Наши методы ET-MAPG и AET-MAPG показали схожую эффективность с лучшими методами временной схемы выполнения, но с значительной экономией ресурсов. Таким образом, мы показали, что модели могут оптимизировать контрольные политики и механизмы коммуникации, уменьшая затраты вычислений и обмена данными. #### Значимость Наши результаты показывают, что ET-MAPG и AET-MAPG могут применяться в многоагентных системах, таких как системы для управления трафиком, робототехники и системы мониторинга. Эти методы позволяют уменьшить вычислительные затраты и объем передаваемых данных, что делает их эффективными для реализации в реальных системах. #### Выводы Мы предложили ET-MAPG и AET-MAPG для улучшения многоагентных методов подхода градиентного политики. Наши решения позволяют сочетать политику контроля и коммуникации, уменьшая накладные расходы. Будущие исследования будут сфокусированы на расширении данных методов для более сложных задач и приложений.

Annotation:

Conventional multi-agent reinforcement learning (MARL) methods rely on time-triggered execution, where agents sample and communicate actions at fixed intervals. This approach is often computationally expensive and communication-intensive. To address this limitation, we propose ET-MAPG (Event-Triggered Multi-Agent Policy Gradient reinforcement learning), a framework that jointly learns an agent's control policy and its event-triggering policy. Unlike prior work that decouples these mechanisms, ET...

ID: 2509.20338v1 eess.SY, cs.AI, cs.MA, cs.SY, math.DS

arXiv PDF

📄 Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute

2025-09-24

Авторы:

Chung-En, Yu, Brian Jalaian, Nathaniel D. Bastian

########################## ## Контекст ########################## В последние годы интеллектуальные системы визуального восприятия нашли применение во многих высокорисковых областях, включая удаленное сенсорное обследование и медицинскую диагностику. Однако достижение высокой надежности и устойчивости таких систем остается вызовом. Несмотря на развитие сложных моделей, таких как vision-language models (VLM) и pure vision systems, они часто страдают от недостатка устойчивости к нестандартным входным данным и непредсказуемости результатов. Эти проблемы напряженно влияют на реальности, где ответственность и надежность критически важны. Более того, текущие методы часто требуют значительных ресурсов для повторного обучения или тюнинга моделей, что повышает затраты и сложность их применения в быстро меняющихся условиях. Из-за этого требуется разработка более простых, гибких и надёжных подходов, которые могут усилить надежность таких систем без изменения основного обучения. ########################## ## Метод ########################## Мы предлагаем **Visual Reasoning Agent (VRA)**, новый гибкий фреймворк, который способен усилить надежность искусственных визуальных систем без необходимости повторного обучения. Фреймворк VRA оперирует существующими vision-language и pure vision моделями, включая их в цикл решения задач по шагам **Think--Critique--Act**. Цикл работает следующим образом: 1. **Think**: Система визуального восприятия выполняет первичное распознавание и оценку входных данных. 2. **Critique**: На основе результатов первого шага, VRA применяет дополнительные агентские модели для критического анализа и корректировки вывода. 3. **Act**: Базируясь на результатах анализа, система принимает окончательное решение. Этот процесс позволяет использовать тестирующую вычислительную мощность для оптимизации решений во время выполнения, без изменения моделей подготовки. ########################## ## Результаты ########################## Мы проверили VRA на нескольких стандартных бенчмарках визуального разума, включая ObjectNet и Visual Reasoning for Real Life (VRR). Наши эксперименты показали, что VRA увеличивает точность на 20-40% в зависимости от задачи и сложности набора данных. Это достигается благодаря критическому анализу и улучшенной интеграции входных данных в момент выполнения. Данные результаты были получены с использованием внедрения дополнительного тестирующего вычислительного мощности. Однако, несмотря на повышенный overhead, результаты показывают, что VRA может значительно повысить надёжность искусственных визуальных систем в высокорисковых областях. ########################## ## Значимость ########################## Предложенный подход может быть применён в различных высокорисковых сферах, включая медицинское визуальное восприятие, системы безопасности, автомобильные технологии и даже сектор

Annotation:

Developing trustworthy intelligent vision systems for high-stakes domains, \emph{e.g.}, remote sensing and medical diagnosis, demands broad robustness without costly retraining. We propose \textbf{Visual Reasoning Agent (VRA)}, a training-free, agentic reasoning framework that wraps off-the-shelf vision-language models \emph{and} pure vision systems in a \emph{Think--Critique--Act} loop. While VRA incurs significant additional test-time computation, it achieves up to 40\% absolute accuracy gains...

ID: 2509.16343v1 cs.CV, cs.AI, cs.MA

arXiv PDF

📄 Diversity of Structured Domains via k-Kemeny Scores

2025-09-23

Авторы:

Piotr Faliszewski, Krzysztof Sornat, Stanisław Szufa, Tomasz Wąs

## Контекст Область исследования связана с анализом голосований и поиском оптимальных стратегий для определения минимального числа перестановок, необходимых для сглаживания разнообразия в голосовании. Изучаются структурированные домены, такие как single-peaked, single-crossing, group-separable и Euclidean, которые часто встречаются в реальных ситуациях. Задача состоит в том, чтобы оптимизировать критерий Kemeny, предназначенный для оценки разнообразия результатов. Недостаток универсальных методов в этой области создает мотивацию для разработки более точных алгоритмов, которые могут обеспечить более четкую оценку разнообразия в голосованиях. ## Метод Алгоритм k-Kemeny используется для оптимизации разнообразия голосования, определяя минимальное число перестановок, необходимых для сглаживания результатов. Методология основывается на изучении голосований в различных структурированных доменах. Архитектура решения заключается в применении математических моделей для вычисления Kemeny-скорости и определения минимального числа необходимых перестановок. Эта архитектура включает в себя сложные вычисления голосований в разных структурах и оптимизацию поиска наилучших решений. ## Результаты Для разных структурированных доменов было проведено ряд экспериментов, включая single-peaked, single-crossing, group-separable и Euclidean. На этих тестовых наборах был проведен анализ разнообразия результатов, определяя минимальное число перестановок, необходимых для оптимизации Kemeny-скорости. Результаты показали, что для большинства доменов k-Kemeny остается нетривиальным даже при k=2, что говорит о сложности этой задачи в разных структурах. Также был выполнен сравнительный анализ разнообразия в разных структурах. ## Значимость Результаты этого исследования имеют широкое применение в области анализа голосований и оптимизации результатов в различных структурах. Изучение разнообразия в структурированных доменах позволяет понять не только степень сглаживания результатов, но и определить характеристики каждого домена. Полученные результаты могут быть использованы для оптимизации голосований в реальных условиях, где требуется максимально точное определение разнообразия. Кроме того, данные результаты могут быть применены в других областях, где требуется анализ структурных особенностей голосований. ## Выводы Изучение разнообразия в структурированных доменах позволило выявить характеристики каждого домена и сформулировать рекомендации для оптимизации результатов голосований. Однако, несмотря на достижения, остаются неразрешимые проблемы, которые требуют более подробного исследования, такие как улучшение точно

Annotation:

In the k-Kemeny problem, we are given an ordinal election, i.e., a collection of votes ranking the candidates from best to worst, and we seek the smallest number of swaps of adjacent candidates that ensure that the election has at most k different rankings. We study this problem for a number of structured domains, including the single-peaked, single-crossing, group-separable, and Euclidean ones. We obtain two kinds of results: (1) We show that k-Kemeny remains intractable under most of these dom...

ID: 2509.15812v1 cs.GT, cs.AI, cs.MA

arXiv PDF

📄 ORCA: Agentic Reasoning For Hallucination and Adversarial Robustness in Vision-Language Models

2025-09-22

Авторы:

Chung-En Johnny Yu, Hsuan-Chih, Chen, Brian Jalaian, Nathaniel D. Bastian

## Контекст Огромные языково-визуальные модели (Large Vision-Language Models, LVLMs) обладают выдающимися возможностями в области обработки многомодальных данных, но остаются уязвимыми к ошибкам внутреннего происхождения (hallucinations) и адверсарным атакам. Эти проблемы снижают надежность таких моделей в реальном мире, особенно в критически важных задачах, где точность и достоверность ключевые. Ограничения, связанные с этими проблемами, проявляются в задачах, таких как оценка точности текстовых описаний изображений и сопротивление атакам. Развитие методов, способных улучшить точность и устойчивость таких моделей, является актуальным и востребованным заданием. ## Метод Мы предлагаем ORCA, рамочное решение, основанное на агентском логическом рассуждении, для улучшения точности и устойчивости LVLMs. ORCA работает через цикл Observe--Reason--Critique--Act (Обследовать--Рассуждать--Критиковать--Действовать). Он запрашивает визуальные модели малого размера (менее 3 миллиардов параметров) с помощью информационных вопросов, проверяет консистентность ответов, анализирует потенциальные несоответствия и совершает итеративные корректировки. Этот процесс не требует доступа к внутренним работам моделей или их переобучению. Более того, ORCA регистрирует все промежуточные логические шаги, обеспечивая прозрачность и аудитность решений. Алгоритм ORCA ориентирован прежде всего на устранение ошибок в узлах объектов, но способен за счет своего многопроцессорного подхода эффективно справляться с внешними атаками. ## Результаты Мы проверили ORCA на трех сценариях: (1) работе с чистыми изображениями, (2) атаках адверсарными помехами без защитных методов, и (3) атаках с применением защитных методов. На POPE hallucination benchmark, ORCA показал разность до +40.67% в точности для различных подмножеств. В условиях адверсарных нападений на POPE, ORCA повысил среднюю точность моделей LVLM на +20.11%. Кроме того, при использовании защитных методов на AMBER изображениях, ORCA повысил точность LVLM от +1.20% до +48.00%, зависимо от выбранных метрик. Эти результаты демонстрируют эффективность ORCA в улучшении надежности и сопротивляемости языково-визуальных моделей. ## Значимость ORCA может быть применено в многообразных областях, где важна надежность лингвистических выводов на основе визуальных данных, в том числе в области медицины, юриспруденции, автоматизации производственных процессов и безопасности. ORCA значительно повышает точность и сопротивляемость существующих LVLMs, уменьшая риск ошибок и повышая доверие пользователей. Его потенциальное влияние заключается в том, что он может стать основой для развити

Annotation:

Large Vision-Language Models (LVLMs) exhibit strong multimodal capabilities but remain vulnerable to hallucinations from intrinsic errors and adversarial attacks from external exploitations, limiting their reliability in real-world applications. We present ORCA, an agentic reasoning framework that improves the factual accuracy and adversarial robustness of pretrained LVLMs through test-time structured inference reasoning with a suite of small vision models (less than 3B parameters). ORCA operate...

ID: 2509.15435v1 cs.CV, cs.AI, cs.MA

arXiv PDF

📄 Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents

2025-09-20

Авторы:

Weiting Tan, Xinghua Qu, Ming Tu, Meng Ge, Andy T. Liu, Philipp Koehn, Lu Lu

## Контекст Проблема обучения интерактивных агентов к инструментальному использованию, которое требует многократного планирования и управления многообразными многослойными диалогами, остается актуальной в современных искусственных интеллектах. Агенты должны решать трудные задачи, в которых необходимо оптимизировать многошаговые цепочки действий, а также использовать разнообразные сигналы, такие как текст и речь, для эффективного взаимодействия. Несмотря на развитие методов подкрепления, создание таких агентов остается сложной задачей из-за сложности выбора приёмных методов и структуры обучения. Мы предлагаем исследовать этот вопрос с применением метода подкрепления, учитывающего процесс решения задач и интегрирующего несколько модальностей взаимодействия. ## Метод Предлагаемая методология, Turn-level Adjudicated Reinforcement Learning (TARL), предполагает использование Large Language Model (LLM) для оценки каждого шага обучения. LLM действует как "судья", анализируя результаты каждого шага и предоставляя видео-роллаут с различными вариантами действий в течение многократных циклов. Это позволяет агенту учитывать множество возможных комбинаций при выборе следующего шага. Для улучшения эксплорейшена внедрено множество задач, включая математические задачи, которые обеспечивают накопление опыта и развитие логического мышления. Архитектура обучения включает в себя не только интеграцию текстовых и речевых сигналов, но и смешанные задачи, которые усиливают обучение с подкреплением, повышая устойчивость и эффективность. ## Результаты Использовались данные из текстового бенчмарка $\tau$-bench, где была проводимая сравнительная оценка предлагаемого подхода с другими методами RL. Тестирование показало, что предложенный метод увеличивает проходимость задач на 6% по сравнению с конкурирующими решениями. Этот результат достигнут благодаря глубокой интеграции методов подкрепления и многомодального анализа. Также был проведён эксперимент на fine-tuning многомодальной фондаментальной модели, которая была успешно настроена для проведения инструментальных задач. Это указывает на возможность создания системы, которая может эффективно взаимодействовать с пользователем через речь и текст. ## Значимость Предложенный подход имеет широкие перспективы в области интеллектуальных интерактивных систем. Он может использоваться в сферах, требующих многошагового планирования и интеллектуального взаимодействия с пользователем. Например, в сфере управления домашними устройствами, сервисах поддержки или робототехнике. Одним из основных преимуществ является улучшение производительности

Annotation:

Effective interactive tool use requires agents to master Tool Integrated Reasoning (TIR): a complex process involving multi-turn planning and long-context dialogue management. To train agents for this dynamic process, particularly in multi-modal contexts, we introduce a sandbox environment for reinforcement learning (RL) that supports interleaved speech-text rollouts. Our core strategy, Turn-level Adjudicated Reinforcement Learning (TARL), addresses the challenge of credit assignment in long-hor...

ID: 2509.14480v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 OpenLens AI: Fully Autonomous Research Agent for Health Infomatics

2025-09-20

Авторы:

Yuxiao Cheng, Jinli Suo

## Контекст Область исследований в сфере **health informatics** столкнулась с значительными вызовами в связи с характеристиками этой области, включая разнообразные модальности данных, быстрое расширение знаний и необходимость интеграции полученных показателей из различных сфер, включая биомедицинские науки, анализ данных и клиническую практику. Эти характеристики делают область **health informatics** особенно подходящей для применения агентных подходов, которые могут автоматизировать поиск и обработку знаний, управлять сложными рабочими процессами и генерировать клинически значимые результаты. Несмотря на то, что недавние достижения в области **large language models (LLM)**, таких как генерация текста, синтез литературы и даже выполнение исследований, демонстрируют захватывающий потенциал, они все же имеют ограничения в сфере **health informatics**. Известные системы не в состоянии корректно интерпретировать медицинские визуализации и не учитывают доменные специфические требования к качеству. Для решения этой проблемы, в настоящем исследовании представлена **OpenLens AI** — полностью автоматизированная система, разработанная специально для **health informatics**. ## Метод **OpenLens AI** является инновационным фреймворком, объединяющим в себе несколько специализированных агентов, которые работают вместе для решения задач в области **health informatics**. Эти агенты управляют процессами **литературного обзора**, **дата-анализа**, **генерирования кода** и **подготовки манифестов**. Особенно значительным является включение **визуально-языковых фидбеков** для интерпретации медицинских визуализаций, что позволяет гарантировать точность и понятность результатов. Также есть встроенные механизмы квалитиметрического контроля, чтобы обеспечить **репродуцируемость исследований** и **репрезентативность**. Основной архитектурой является интегрированная система, которая автоматизирует весь рабочий процесс, начиная от сбора данных и заканчивая подготовкой готовых к публикации манипуляций в формате **LaTeX**. Это гарантирует прозрачность и трассируемость во всех стадиях исследований. ## Результаты **OpenLens AI** протестирована на различных наборах данных в области **health informatics**. Она демонстрирует высокую точность в **взаимодействии с медицинскими визуализациями**, помогая правильно интерпретировать данные и генерировать манипуляции высокого качества. Эксперименты показывают, что **OpenLens AI** существенно сокращает время, необходимое для выполнения исследований, а также улучшает качество и точность полученных результатов. Благодаря встроенной возможности **визуально-языкового анализа**, **OpenLens AI** обеспечивает точную

Annotation:

Health informatics research is characterized by diverse data modalities, rapid knowledge expansion, and the need to integrate insights across biomedical science, data analytics, and clinical practice. These characteristics make it particularly well-suited for agent-based approaches that can automate knowledge exploration, manage complex workflows, and generate clinically meaningful outputs. Recent progress in large language model (LLM)-based agents has demonstrated promising capabilities in lite...

ID: 2509.14778v1 cs.AI, cs.MA

arXiv PDF

📄 Sentinel Agents for Secure and Trustworthy Agentic AI in Multi-Agent Systems

2025-09-20

Авторы:

Diego Gosmar, Deborah A. Dahl

#### Контекст Многоагентные системы (MAS) представляют собой системы, в которых несколько автономных агентов сотрудничают для достижения целей, часто в сложных и динамически изменяющихся средах. Несмотря на их потенциал, MAS чувствительны к различным угрозам, таким как обманные запросы (prompt injection), коллаборативные атаки, генерирование ложных данных (hallucinations) и нарушения конфиденциальности. Такие угрозы могут привести к негативным последствиям, включая потерю конфиденциальности, утечку данных и небезопасное поведение агентов. Необходимость в безопасности и доверии в MAS делает ключевыми задачи, такие как мониторинг и анализ поведения агентов, определение аномалий и принятие мер по изоляции рисков. #### Метод Основой фреймворка является Sentinel Agents, распределенная система мониторинга, которая включает в себя несколько компонентов. Эти агенты используют техники, такие как семантический анализ с помощью бо LLM, бихевиоральный анализ, верификация с использованием обнаружения контекста (retrieval-augmented verification) и сравнительный анализ (cross-agent anomaly detection). Sentinel Agents могут отслеживать интерагентные коммуникации, определять потенциальные угрозы, применять контроли доступа и поддерживать регистры аудита. Особенностью фреймворка является Coordinator Agent, который управляет политиками, управляет участием агентов и обрабатывает сигналы от Sentinel Agents. Coordinator Agent может адаптировать политики, изолировать небрежно действующие агентов и содержать угрозы, поддерживая целостность MAS. Данная двухуровневая модель обеспечивает динамические и адаптивные механизмы защиты. #### Результаты Мы провели эксперименты с использованием синтетических атак, включая prompt injection, hallucination и высвобождение данных. Sentinel Agents успешно обнаружили все попытки атаки, подтвердив эффективность их методов. Была проанализирована их способность отслеживать интерагентные коммуникации, определять аномалии и применять адаптивные меры защиты. Также мы проинспектировали то, как Coordinator Agent может адаптировать политики и содержать угрозы, что демонстрирует его важность в обеспечении целостности и надежности MAS. #### Значимость Предложенный фреймворк может быть применен в различных областях, таких как цифровые экосистемы, системы управления, живые сервисы и экономические системы. Он обеспечивает не только мониторинг и защиту, но также поддерживает выполнение политик, обеспечивает высокую степень наблюдаемости и поддерживает эволюцию политик в ходе использования. Этот фреймворк позволяет улучшить безопасность, доверие и надежность MAS, делая его привлекательным для решения реальных задач в сложных средах. #### Выводы Мы представили Sentinel Agents, распределенную модель за

Annotation:

This paper proposes a novel architectural framework aimed at enhancing security and reliability in multi-agent systems (MAS). A central component of this framework is a network of Sentinel Agents, functioning as a distributed security layer that integrates techniques such as semantic analysis via large language models (LLMs), behavioral analytics, retrieval-augmented verification, and cross-agent anomaly detection. Such agents can potentially oversee inter-agent communications, identify potentia...

ID: 2509.14956v1 cs.AI, cs.MA

arXiv PDF

📄 Who is Introducing the Failure? Automatically Attributing Failures of Multi-Agent Systems via Spectrum Analysis

2025-09-19

Авторы:

Yu Ge, Linna Xie, Zhong Li, Yu Pei, Tian Zhang

#### Контекст Large Language Model Powered Multi-Agent Systems (MASs) широко используются для решения сложных реальных задач, таких как программирование и научные открытия. Несмотря на их перспективные возможности, они не являются идеальными и часто сталкиваются с ошибками. Одной из основных проблем при использовании MASs является необходимость быстро и точно определить, какая агентская деятельность привела к неполадке. Этот процесс, известный как атрибуция неполадок, требует значительных усилий и является затратным в терминах времени и ресурсов. Большинство существующих подходов к атрибуции неполадок требуют ручного анализа или нетранспарентных методов, что порождает затруднения в диагностике и моделировании MASs. #### Метод Мы предлагаем FAMAS (Failure Attribution in Multi-Agent Systems) — первый spectrum-based подход к атрибуции неполадок в MASs. Работа FAMAS основывается на двух основных компонентах: траектории реплея и абстракции, а также spectrum analysis. Метод FAMAS использует периодические выполнения MASs для вычисления вероятности того, что каждая конкретная действие агента стало причиной неполадки. Основной инновацией является специально разработанная формула, которая агрегирует два ключевых фактора: агентские поведенческие характеристики и поведенческие характеристики действий. Эта формула позволяет учитывать активации агентов и действий в траекториях MASs, чтобы определить самое вероятное источником неполадки действие. #### Результаты Мы провели эксперименты с FAMAS на 12 существующих baseline-методах, используя бенчмарк Who and When. Результаты показали, что FAMAS превосходит все существующие подходы в точности и транспарентности при атрибуции неполадок. Мы также показали, что FAMAS может эффективно идентифицировать ответственных агентов в сложных сценариях, включающих множественные агентов и действия. FAMAS подтвердил свою эффективность в реальных условиях, где он выделяет ответственных агентов за неполадки в меньшем количестве выполнений MASs по сравнению с другими методами. #### Значимость Предлагаемый подход FAMAS имеет широкие применения в области автоматизации диагностики и мониторинга MASs. Он позволяет сократить время и усилия, необходимые для атрибуции неполадок, и улучшает прозрачность и надежность MASs. Благодаря ему можно быстрее выявлять и устранять ошибки, что повышает эффективность систем. Мы также выявили, что FAMAS может быть применен в различных областях, таких как программирование, научные открытия и другие сложные задачи, где MASs используются для управления процессами. #### Выводы Результаты наших экспериментов показали, что FAMAS является эффективным инструментом для атри

Annotation:

Large Language Model Powered Multi-Agent Systems (MASs) are increasingly employed to automate complex real-world problems, such as programming and scientific discovery. Despite their promising, MASs are not without their flaws. However, failure attribution in MASs - pinpointing the specific agent actions responsible for failures - remains underexplored and labor-intensive, posing significant challenges for debugging and system improvement. To bridge this gap, we propose FAMAS, the first spectrum...

ID: 2509.13782v1 cs.SE, cs.AI, cs.MA, D.2.2; I.2.1

arXiv PDF

1
2
9
10
11
12
13
16
17

Показано 101 - 110 из 161 записей