📚 Саммари научных статей из arXiv

Найдено 161 результатов по запросу 'cs.AI, cs.MA' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CLAPP: The CLASS LLM Agent for Pair Programming

2025-08-12

Авторы:

Santiago Casas, Christian Fidler, Boris Bolliet, Francisco Villaescusa-Navarro, Julien Lesgourgues

#### Контекст Глобальное увеличение использования искусственного интеллекта в научных исследованиях приводит к появлению специализированных систем, предназначенных для упрощения процессов разработки и анализа. В области космологии, в частности, работа с моделями и алгоритмами требует высокой степени точности и эффективности. Существуют проблемы, связанные с необходимостью быстрого интерактивного доступа к документации и кодам, а также с трудностями в диагностике ошибок. Мотивация заключается в создании системы, которая обеспечивает удобный доступ к сложной космологической модели CLASS (Cosmic Linear Anisotropy Solving System) с помощью технологий трансформационного ИИ. #### Метод CLAPP (CLASS LLM Agent for Pair Programming) — это система, основанная на технологии трансформационного ИИ, которая обеспечивает интерактивную поддержку в области компьютерных вопросов. Основные компоненты методологии: 1) многоагентная оркестрация ИИ, которая позволяет системе выполнять различные задачи; 2) семантический поиск, использующий данные из документации CLASS; 3) среда выполнения Python в реальном времени, для моделирования и визуализации данных. Архитектура CLAPP представляет собой веб-приложение, разработанное на платформе Streamlit, которое обеспечивает удобство в использовании и интерактивность. #### Результаты Система была протестирована на нескольких сценариях, включая запросы вопросов-ответов, генерацию кода, диагностику ошибок и генерацию визуализаций. Эксперименты показали, что CLAPP успешно решает задачи, демонстрируя высокую точность и надежность в области конкретных задач космологии. Данные были собраны из реальных сценариев работы с CLASS, что позволило проверить систему на реальных данных. #### Значимость CLAPP предлагает новый подход к поддержке работы с космологическими моделями, создавая более легкий доступ для неподготовленных пользователей. Он позволяет увеличить производительность, уменьшать время, потраченное на разработку и ошибки, а также обеспечить более эффективное сотрудничество человека и искусственного интеллекта в области компьютерных вопросов. Планируется расширить применение CLAPP на другие крупные модели и системы в области науки и техники. #### Выводы CLAPP достигает важных результатов в поле интеллектуальных помощников для работы с космологическими моделями. Он показывает высокую полезность для улучшения работы с компьютерными моделями и визуализациями. Будущие исследования будут стремиться улучшить его возможности, увеличить доступность и расширить область применения для других дисциплин.

Annotation:

We introduce CLAPP (CLASS LLM Agent for Pair Programming), an interactive AI assistant designed to support researchers working with the Einstein-Boltzmann solver CLASS. CLAPP leverages large language models (LLMs) and domain-specific retrieval to provide conversational coding support for CLASS-answering questions, generating code, debugging errors, and producing plots. Its architecture combines multi-agent LLM orchestration, semantic search across CLASS documentation, and a live Python execution...

ID: 2508.05728v1 astro-ph.IM, astro-ph.CO, cs.AI, cs.MA

arXiv PDF

📄 PanelTR: Zero-Shot Table Reasoning Framework Through Multi-Agent Scientific Discussion

2025-08-12

Авторы:

Yiran Rex Ma

## Контекст Table reasoning, включая табулярные запросы и проверку фактов, часто опирается на аннотированные данные или сложные методы аугментации, что ограничивает гибкость и общий потенциал. Логические модели языка (LLMs), несмотря на их универсальность, часто не достигают равноценного эффекта по сравнению с простыми моделями супервизированного обучения. Эти ограничения вдохновили создание PanelTR, рамфреймворка, воспользовавшегося ЛЛМ-агентами-учеными для укрепления логического моделирования таблиц. Эта модель применяет структурированную научную методологию, включающую индивидуальные исследования, самопроверку и коллективные переобсуждения, чтобы обеспечить трансфер семантического содержания без потребности в аугментации данных или параметрической оптимизации. ## Метод PanelTR разделяет задачи на четыре ключевых этапа: индивидуальное исследование, самопроверка, переобсуждение и внедрение предложений. Для этого используются пять ЛЛМ-агентов-ученых, каждый с определенным специальным вниманием (например, агент-исследователь, агент-рецензент). Агенты взаимодействуют в системе стимулирующей дискуссии, позволяя им улучшать свои доказательства и понимание задачи. Эта архитектура требует только начального набора данных и не зависит от дополнительных аугментаций, обеспечивая гибкость и устойчивость в нулевом слое обучения. ## Результаты На тестах TabFact, WikiTableQuestions, TabMC, и WTQ, PanelTR показывает значительные достижения. Он превосходит vanilla LLMs и в некоторых случаях даже супервизированные модели, не имея доступа к обучающим данным. Это достигается благодаря уникальной структуре дискуссии и самостоятельной самопроверке, которая усиливает семантическое обобщение и достигает высокой точности в задачах табулярного логического моделирования. ## Значимость PanelTR может применяться в различных сферах, таких как распознавание таблиц и фактовая верификация, обеспечивая прочное понимание данных без дополнительных данных для обучения. Его гибкость и способность создавать обобщаемые модели позволяют решать широкий спектр задач, включая не только табличные задачи, но и другие задачи, требующие семантического понимания. Это решение может повлиять на развитие ИИ в области естественного языка, обеспечив эффективность и гибкость. ## Выводы Результаты PanelTR указывают на эффективность структурированной научной методологии в решении сложных задач, включая табулярное логическое моделирование. Будущие исследования могут сосредоточиться на расширении фреймворка на другие типы задач и оптимизации его интеграции с другими технологиями, чтобы

Annotation:

Table reasoning, including tabular QA and fact verification, often depends on annotated data or complex data augmentation, limiting flexibility and generalization. LLMs, despite their versatility, often underperform compared to simple supervised models. To approach these issues, we introduce PanelTR, a framework utilizing LLM agent scientists for robust table reasoning through a structured scientific approach. PanelTR's workflow involves agent scientists conducting individual investigations, eng...

ID: 2508.06110v1 cs.AI, cs.MA

arXiv PDF

📄 A Survey of AI Agent Registry Solutions

2025-08-09

Авторы:

Aditi Singh, Abul Ehtesham, Ramesh Raskar, Mahesh Lambe, Pradyumna Chari, Jared James Grogan, Abhishek Singh, Saket Kumar

Накопление AI-агентов в различных средах — облачных, предприятийных и децентрализованных — создает необходимость в стандартизированных системах реестров для обеспечения обнаружения, удостоверений и обмена возможностями. В статье представлен обзор трех различных подходов к реестрам AI-агентов: MCP с единой метареестройкой на основе GitHub, A2A с децентрализованными Agent Cards и NANDA с AgentFacts, построенным на криптографической проверке и приватности. Обзор охватывает три ключевых аспекта: безопасность, масштабируемость, аутентификация и поддерживаемость. Оказалось, что каждый подход имеет свои сильные и слабые стороны, что позволяет выделить тренды для развития реестров AI-агентов в будущем. Авторы дают рекомендации для улучшения эффективности и интеграции таких систем в рамках Интернета AI-агентов.

Annotation:

As As autonomous AI agents scale across cloud, enterprise, and decentralized environments, the need for standardized registry systems to support discovery, identity, and capability sharing has become essential. This paper surveys three prominent registry approaches each defined by a unique metadata model: MCP's mcp.json, A2A's Agent Card, and NANDA's AgentFacts. MCP uses a centralized metaregistry with GitHub authenticated publishing and structured metadata for server discovery. A2A enables dece...

ID: 2508.03095v1 cs.NI, cs.AI, cs.MA

arXiv PDF

📄 Using the NANDA Index Architecture in Practice: An Enterprise Perspective

2025-08-09

Авторы:

Sichao Wang, Ramesh Raskar, Mahesh Lambe, Pradyumna Chari, Rekha Singhal, Shailja Gupta, Rajesh Ranjan, Ken Huang

Заголовок: Using the NANDA Index Architecture in Practice: An Enterprise Perspective Аннотация: Распространение автономных AI-агентов вызывает значительные изменения в архитектуре интернета, переходящую от традиционных систем к коллаборативным интеллектуальным системам. Это требует эффективных механизмов для обнаружения, аутентификации, проверки способностей и безопасного взаимодействия в различных протокольных окружениях. В статье представлен NANDA (Networked AI Agents in a Decentralized Architecture) — рамперфаркет для создания безопасных, доверительных и интерактивных систем AI-агентов. Он предлагает механизмы глобального обнаружения агентов, криптографически верифицированной проверки способностей через AgentFacts и кросс-протокольной совместимости между Anthropic’s Modal Context Protocol (MCP), Google’s Agent-to-Agent (A2A), Microsoft’s NLWeb и HTTPS. Рамерфаркет реализует принципы Zero Trust Agentic Access (ZTAA), расширяя Zero Trust Network Access (ZTNA) для решения проблем со способностью, подделкой и утечкой данных. Он также вводит Agent Visibility and Control (AVC) для организационного управления, сочетая это с автономной работой и соблюдением нормативных требований. NANDA превращает агентов из изолированных систем в интерактивный экосистему, обеспечивая надежную инфраструктуру для масштабных систем автономных агентов в корпоративных и потребительских средах.

Annotation:

The proliferation of autonomous AI agents represents a paradigmatic shift from traditional web architectures toward collaborative intelligent systems requiring sophisticated mechanisms for discovery, authentication, capability verification, and secure collaboration across heterogeneous protocol environments. This paper presents a comprehensive framework addressing the fundamental infrastructure requirements for secure, trustworthy, and interoperable AI agent ecosystems. We introduce the NANDA (N...

ID: 2508.03101v1 cs.NI, cs.AI, cs.MA

arXiv PDF

📄 NANDA Adaptive Resolver: Architecture for Dynamic Resolution of AI Agent Names

2025-08-09

Авторы:

John Zinky, Hema Seshadri, Mahesh Lambe, Pradyumna Chari, Ramesh Raskar

**Резюме** В условиях распределенных и многообразных систем машинного обучения, где AI-агенты должны эффективно взаимодействовать, статическая настройка конечных точек ограничивает гибкость и производительность. Традиционные механизмы, такие как DNS или статические URL, не могут адаптироваться к изменяющимся условиям среды, таким как географическая расположение, нагрузка на систему, спецификации агентов и ситуации угрозы безопасности. **AdaptiveResolver** представляет собой динамическую архитектуру микросервисов, разработанную для решения этих проблем. Она позволяет агентам регистрировать свои имена и контекстные требования в реестре агентов, а затем выбирать целевой агент в реальном времени на основе факторов, таких как местоположение, нагрузка, возможности и уровень безопасности. Этот подход позволяет агентам легко обмениваться данными, учитывая контекст взаимодействия. **Основные выводы**: AdaptiveResolver обеспечивает более гибкую, безопасную и эффективную систему взаимодействия AI-агентов, устраняя ограничения статических механизмов. Его динамическая природа подходит для современных распределенных сред, обеспечивая надёжные и эволюционирующие взаимодействия между агентами.

Annotation:

AdaptiveResolver is a dynamic microservice architecture designed to address the limitations of static endpoint resolution for AI agent communication in distributed, heterogeneous environments. Unlike traditional DNS or static URLs, AdaptiveResolver enables context-aware, real-time selection of communication endpoints based on factors such as geographic location, system load, agent capabilities, and security threats. Agents advertise their Agent Name and context requirements through Agent Fact ca...

ID: 2508.03113v1 cs.NI, cs.AI, cs.MA

arXiv PDF

📄 Attack the Messages, Not the Agents: A Multi-round Adaptive Stealthy Tampering Framework for LLM-MAS

2025-08-09

Авторы:

Bingyu Yan, Ziyi Zhou, Xiaoming Zhang, Chaozhuo Li, Ruilin Zeng, Yirui Qi, Tianbo Wang, Litian Zhang

**Резюме** В данной работе рассматривается проблема уязвимости коммуникационных каналов в Large Language Model-based Multi-Agent Systems (LLM-MAS), которые эффективно решают сложные и динамические задачи через интерактивное взаимодействие между агентами. Однако эти системы чрезвычайно восприимчивы к атакам, направленным на токсичность сообщений или напрямую направленные подделки, которые либо проявляются слишком очевидно, либо ограничиваются локальным воздействием. Мы предлагаем Multi-round Adaptive Stealthy Tampering (MAST), фреймворк, основанный на Monte Carlo Tree Search с использованием Direct Preference Optimization для обучения адаптивной политики атак, которая эффективно и легко заметно меняет логику коммуникации. Для сохранения стелсности применяются ограничения на семантическую и векторно-семантическую близость сообщений. Эксперименты показали, что MAST обеспечивает высокую эффективность атак с увеличенной стелсностью по сравнению с базовыми методами. Эти результаты подчеркивают важность создания эффективных механизмов безопасности коммуникаций в LLM-MAS.

Annotation:

Large language model-based multi-agent systems (LLM-MAS) effectively accomplish complex and dynamic tasks through inter-agent communication, but this reliance introduces substantial safety vulnerabilities. Existing attack methods targeting LLM-MAS either compromise agent internals or rely on direct and overt persuasion, which limit their effectiveness, adaptability, and stealthiness. In this paper, we propose MAST, a Multi-round Adaptive Stealthy Tampering framework designed to exploit communica...

ID: 2508.03125v1 cs.CR, cs.AI, cs.MA

arXiv PDF

📄 RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory

2025-08-09

Авторы:

Jun Liu, Zhenglun Kong, Changdi Yang, Fan Yang, Tianqi Li, Peiyan Dong, Joannah Nanjekye, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Multi-agent large language model (LLM) systems представляют собой мощное средство для решения сложных задач резонуирования и коллаборативного принятия решений. Однако существующие подходы к координации таких систем характеризуются рядом недостатков. Традиционные схемы маршрутизации контекста, такие как статические или полнотекстовые стратегии, часто приводят к избыточному потреблению токенов, излишнему обращению к памяти и ограниченной адаптивности в рамках различных этапов взаимодействия. Эти проблемы усугубляются тем, что современные LLMs требовательны к вычислительным ресурсам, а неэффективное использование контекста может привести к существенным накладным расходам. Дополнительной проблемой является отсутствие механизмов динамической адаптации контекста к конкретной роли или задаче, что может приводить к потере релевантности информации в процессе взаимодействия агентов. Также, существующие метрики оценки качества ответов часто ограничиваются простыми мерами точности (QA accuracy), не учитывая более глубокие аспекты генерируемых объяснений. Таким образом, необходим новый подход, который обеспечивал бы эффективную, адаптивную и ресурсоэкономичную координацию в мульти-агентных системах LLMs. ## ПРЕДЛОЖЕННЫЙ МЕТОД RCR-Router представляет собой инновационный модульный фреймворк для контекстной маршрутизации в мульти-агентных системах LLMs. Он основывается на концепции ролево-ориентированного контекстного роутинга, где для каждого агента динамически выбирается релевантный подмножество памяти в зависимости от его роли и текущего этапа задачи. Это позволяет сократить количество обрабатываемых токенов, сохраняя при этом высокое качество ответов. Ключевым элементом RCR-Router является легковесная скоринговая политика, которая определяет релевантность памяти для каждого агента. Помимо этого, выходные данные агентов интегрируются в общую память в процессе итеративного обращения, что позволяет достичь прогрессивного уточнения контекста. Этот подход не только сокращает избыточность, но также повышает адаптивность системы в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности RCR-Router проведены эксперименты на трех бенчмарках мульти-хоп QA: HotPotQA, MuSiQue и 2WikiMultihop. Результаты демонстрируют значительное сокращение потребления токенов (до 30%) без ухудшения, и в некоторых случаях даже с улучшением, качества ответов. Благодаря динамическому контекстному роутингу, система показывает высокую эффективность в использовании ресурсов, особенно в сравнении со статическими методами. Для более глубокого анализа была также предложена метрика Answer Quality Score, которая учитывает качество генерируемых объяснений в дополнение к стандартной мере точности. Это позволяет более полно оценить вклад системы в решение сложных задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RCR-Router открывает новые возможности для применения мульти-агентных LLMs в областях, требующих высокоэффективное использование вычислительных ресурсов. Он может быть использован в таких сферах, как сложные системы рекомендаций, интеллектуальные поисковые системы и автоматизированные системы поддержки принятия решений. Преимущества этого метода заключаются в его способности адаптироваться к конкретным задачам и ролям агентов, что повышает эффективность взаимодействия и сокращает излишние расходы. Также, предложенная метрика Answer Quality Score может стать важным инструментом для оценки качества решений в будущих системах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ RCR-Router является первым шагом к созданию более эффективных и адаптивных мульти-агентных систем на основе LLMs. Будущие исследования могут фокусироваться на дальнейшем улучшении механизмов контекстного роутинга, расширении области применения и интеграции с другими модулями для повышения общей производительности. Также, развитие метрик оценки качества, основанных на объяснениях, может стать ключевым направлением в будущем.

Annotation:

Multi-agent large language model (LLM) systems have shown strong potential in complex reasoning and collaborative decision-making tasks. However, most existing coordination schemes rely on static or full-context routing strategies, which lead to excessive token consumption, redundant memory exposure, and limited adaptability across interaction rounds. We introduce RCR-Router, a modular and role-aware context routing framework designed to enable efficient, adaptive collaboration in multi-agent LL...

ID: 2508.04903v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 Beyond Automation: Socratic AI, Epistemic Agency, and the Implications of the Emergence of Orchestrated Multi-Agent Learning Architectures

2025-08-09

Авторы:

Peer-Benedikt Degen, Igor Asanov

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие генеративного искусственного интеллекта (ГИИ) превращает его из периферийного инструмента в ключевую инфраструктуру высшего образования. ГИИ предоставляет новые возможности для генерации, медиации и проверки знаний, однако его включение в учебные процессы вызывает споры о воздействии на развитие критического и рефлексивного мышенья. Традиционные модели использования ИИ в образовании часто сводятся к автоматизации задач, что может ограничивать потенциал ИИ для стимулирования углубленного когнитивного и метакогнитивного развития. Данная проблематика становится особенно актуальной в контексте подготовки будущих преподавателей, для которых критическое и рефлексивное мышление является важной компетенцией. В свете этих задач, авторы предлагают рассмотреть потенциал диалогических моделей ИИ, основанных на конструктиivistской теории, для поддержки самостоятельного и критического мышления студентов. В этой статье рассматривается концепция Socratic AI Tutor — диалоговой системы, ориентированной на поддержку процесса формулирования исследовательских вопросов студентов. Исследование адресует вопрос о том, может ли такая модель ИИ стимулировать метакогнитивное развитие, противоположное тенденциям де-скиллинга, которые часто ассоциируются с широким использованием генеративных моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают модель Socratic AI Tutor, построенную на базе генеративной нейронной сети. Эта модель предназначена для формирования диалогов, основанных на конструктивистских принципах, для поддержки студентов в развитии исследовательских вопросов. Система использует структурированные диалоги, где ИИ выступает в роли собеседника, побуждающего студента к размышлениям и критическому анализу. Методика включает в себя контролируемые эксперименты, в которых студенты взаимодействуют с Socratic AI Tutor или неинструктурным AI-ботом. Цель этих экспериментов — оценить влияние диалогового взаимодействия на развитие критического и рефлексивного мышления. Техническая реализация Socratic AI Tutor включает в себя модули для генерации вопросов, анализа ответов студентов и обеспечения последовательности диалога. Эта архитектура позволяет создавать адаптивные сценарии обучения, которые могут быть настроены для конкретных учебных целей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось с участием 65 студентов-будущих преподавателей в Германии. Участники были разделены на две группы: одна работала с Socratic AI Tutor, другая с неинструктурным AI-ботом. Результаты показали, что студенты, взаимодействующие с Socratic AI Tutor, оценивали его как более эффективное средство для развития критического и рефлексивного мышления. Статистический анализ показал значимое преимущество Socratic AI Tutor в стимулировании метакогнитивных процессов. Студенты из этой группы отмечали высокую степень поддержки в развитии самостоятельного и критического мышления, что противопоставляется риску де-скиллинга, который часто связывается с использованием генеративных моделей ИИ. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты исследования показывают потенциал диалоговых моделей ИИ в образовании. Socratic AI Tutor может стать инструментом для поддержки развития критического и рефлексивного мышления, что является важной компетенцией для будущих преподавателей. Кроме того, концепция orchestrated multi-agent learning architectures (оркестрованных систем из специализированных ИИ-агентов) открывает новые перспективы для дифференцированного и персонализированного обучения. Такие системы могут быть интегрированы в куррикулумы высшего образования, обеспечивая поддержку различных учебных траекторий. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что диалоговые модели ИИ, основанные на конструктивистских принципах, могут стать эффективным средством для развития метакогнитивных способностей студентов. Кроме того, концепция оркестрованных систем из специализированных ИИ-агентов представляет собой перспективное направление для развития гибридных учебных экосистем, которые сочетают человеческое и ИИ-агентское взаимодействие. В будущем, исследования в этой области могут фокусироваться на разработке более сложных моделей координации между агентами, а также на исследовании вопросов этики и регулятивных аспектов использования ИИ в образовании.

Annotation:

Generative AI is no longer a peripheral tool in higher education. It is rapidly evolving into a general-purpose infrastructure that reshapes how knowledge is generated, mediated, and validated. This paper presents findings from a controlled experiment evaluating a Socratic AI Tutor, a large language model designed to scaffold student research question development through structured dialogue grounded in constructivist theory. Conducted with 65 pre-service teacher students in Germany, the study co...

ID: 2508.05116v1 cs.AI, cs.MA

arXiv PDF

📄 MoMA: A Mixture-of-Multimodal-Agents Architecture for Enhancing Clinical Prediction Modelling

2025-08-08

Авторы:

Jifan Gao, Mahmudur Rahman, John Caskey, Madeline Oguss, Ann O'Rourke, Randy Brown, Anne Stey, Anoop Mayampurath, Matthew M. Churpek, Guanhua Chen, Majid Afshar

## КОНТЕКСТ И ПРОБЛЕМАТИКА Электронные медицинские карты (Electronic Health Records, EHR) содержат многомодальные данные, включающие клинические заметки, медицинские изображения, лабораторные результаты и другие форматы информации о пациентах. Такие данные являются источником ценных и дополнительных сведений для оценки состояния здоровья пациентов. Однако, интеграция таких разнородных источников данных в единые модели прогнозирования представляет собой серьезную проблему. Традиционные подходы часто требуют больших объемов данных для обучения и имеют сложности в обработке и комбинации различных модальностей. Применение моделей основанных на технологиях языковых моделей (Large Language Models, LLM) в клинических задачах также сталкивается с ограничениями. Несмотря на то, что LLM хорошо справляются с обработкой текстовых данных, их применение к нетекстовым модальностям, таким как изображения и табличные данные, требует дополнительных преобразований. Также, создание моделей, способных эффективно обрабатывать и сочетать различные типы данных, требует новых подходов для обеспечения высокой точности и гибкости. Кроме того, существующие методы часто недостаточно гибкие для работы с различными комбинациями модальностей, что ограничивает их применение в реальных клинических условиях. Таким образом, необходим новый подход, который мог бы эффективно интегрировать различные модальности данных EHR и обеспечить точные клинические прогнозы. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается архитектура Mixture-of-Multimodal-Agents (MoMA), которая использует несколько LLM-агентов для решения задач клинического прогнозирования на основе многомодальных данных EHR. MoMA состоит из трех основных компонентов: "specialist agents", "aggregator agent", и "predictor agent". "Specialist agents" отвечают за преобразование нетекстовых модальностей, таких как медицинские изображения и лабораторные результаты, в структурированные текстовые описания. Эти описания позволяют преобразовать неструктурированные данные в формат, который может быть легко интегрирован с текстовыми данными. "Aggregator agent" занимается комбинацией текстовых описаний, полученных от "specialist agents", с клиническими заметками для создания единого многомодального результата. Этот шаг позволяет объединить информацию из различных источников в единый контекст, который может быть использован для прогнозирования. "Predictor agent" является конечной моделью, которая использует полученный многомодальный результат для выполнения клинических прогнозов. Эта модель основана на LLM и обеспечивает высокую точность прогнозов за счет интеграции информации из различных модальностей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы оценить эффективность MoMA, авторы провели эксперименты на трех клинических задачах прогнозирования, используя реальные наборы данных EHR с различными комбинациями модальностей. Эксперименты показали, что MoMA превосходит современные методы в терминах точности прогнозов. Авторы также продемонтрировали, что архитектура MoMA хорошо адаптируется к различным комбинациям модальностей данных, что делает ее более гибкой в реальных условиях. Модель показала значительное улучшение результатов в сравнении со стандартными подходами, особенно в случаях, когда использовались различные типы данных, такие как изображения и текстовые заметки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод MoMA имеет широкое применение в клинической практике, особенно в задачах прогнозирования результатов лечения, определения риска развития заболеваний и других клинических задачах. Его гибкость и способность обрабатывать различные типы данных делают его подходящим для использования в различных клинических сценариях. Преимущества MoMA включают в себя улучшенную точность прогнозов, гибкость в работе с различными комбинациями модальностей данных и возможность интеграции неструктурированных данных в единый контекст. Эти преимущества могут привести к значительному улучшению клинических решений и повышению эффективности лечения пациентов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Архитектура MoMA представляет собой значительный шаг вперед в интеграции многомодальных данных для клинических прогнозов. Она демонстрирует высокую точность и гибкость, что делает ее подходящей для реального применения в клинической практике. В будущем, авторы планируют расширить данную модель для работы с большими и более разнообразными наборами данных, а также исследовать возможности улучшения эффективности обработки нетекстовых модальностей. Также, предвидится исследование возможностей применения MoMA в других областях, таких как обработка данных из других сфер, где используются многомодальные данные.

Annotation:

Multimodal electronic health record (EHR) data provide richer, complementary insights into patient health compared to single-modality data. However, effectively integrating diverse data modalities for clinical prediction modeling remains challenging due to the substantial data requirements. We introduce a novel architecture, Mixture-of-Multimodal-Agents (MoMA), designed to leverage multiple large language model (LLM) agents for clinical prediction tasks using multimodal EHR data. MoMA employs sp...

ID: 2508.05492v1 cs.LG, cs.AI, cs.MA

arXiv PDF

📄 From MAS to MARS: Coordination Failures and Reasoning Trade-offs in Hierarchical Multi-Agent Robotic Systems within a Healthcare Scenario

2025-08-08

Авторы:

Yuanchen Bai, Zijian Ding, Shaoyue Wen, Xiang Chang, Angelique Taylor

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область многоагентных робототехнических систем (MARS) представляет собой естественное развитие традиционных многоагентных систем (MAS), дополненное физическими ограничениями и задачами реального мира. В отличие от чисто программных агентов, роботы-агенты должны учитывать пространственные ограничения, физические взаимодействия с окружающей средой и ограничения аппаратного обеспечения. Это значительно усложняет процесс координации и выполнения действий, превращая абстрактные алгоритмы в конкретные физические операции. Healthcare-сектор становится особенно перспективным для внедрения MARS, поскольку медицинские учреждения сталкиваются с растущими нагрузками и потребностью в автоматизации рутинных процессов. Однако несмотря на наличие продвинутых многоагентных фреймворков, их реальное развертывание на роботах остается ограниченным. Это создает значительный разрыв между теоретическими разработками и практическим применением. Ключевые проблемы, мешающие внедрению, включают: невозможность заранее предсказать все возможные сценарии взаимодействия агентов, сложность обработки реальных отказов оборудования, необходимость обеспечения безопасности пациентов и персонала, а также проблему масштабируемости при увеличении количества роботов. Традиционные подходы, основанные на предоставлении контекстных знаний, часто оказываются недостаточными для решения координационных сбоев, возникающих в динамичной реальной среде. Авторы статьи фокусируются на иерархических многоагентных фреймворках, которые обещают более эффективную координацию за счет структурирования взаимодействий между агентами. Особое внимание уделяется изучению компромиссов между различными уровнями автономности агентов и общей стабильностью системы, что критически важно для обеспечения надежности в медицинских приложениях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование проводится в два этапа с использованием двух различных фреймворков для многоагентных систем: CrewAI и AutoGen. Первый этап (Study 1) сосредоточен на систематическом выявлении и категоризации координационных сбоев с помощью CrewAI, в то время как второй этап (Study 2) оценивает переработанную структуру двунаправленной коммуникации с использованием AutoGen. В Study 1 применяется итеративный подход к уточнению базы знаний системы. Процесс включает многократные циклы тестирования, где после каждого обнаруженного сбоя в базу знаний добавляются новые контекстные данные. Это позволяет выявить типы координационных сбоев, которые не могут быть решены только путем предоставления дополнительного контекста. Основные категории сбоев включают: нарушения доступа к инструментам (tool access violations), несвоевременную обработку отчетов об ошибках, конфликты при доступе к общим ресурсам и проблемы с приоритизацией задач. Study 2 вводит переработанную архитектуру двунаправленной коммуникации между агентами, где каждый агент может инициировать коммуникацию и получать обратную связь от других агентов. Это противопоставляется традиционной иерархической модели, где коммуникация происходит преимущественно сверху вниз. Кроме того, исследуется влияние использования моделей с различными способностями к рассуждению: одни агенты оснащены продвинутыми возможностями логического вывода, в то время как другие опираются на более простые шаблонные реакции. Экспериментальная среда моделирует реальное медицинское учреждение с множеством роботов, выполняющих различные задачи: доставка медикаментов, сопровождение пациентов, уборка помещений и техническое обслуживание оборудования. Система включает в себя физические ограничения, такие как ограниченное пространство, приоритеты доступа к ресурсам и возможные отказы оборудования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках Study 1 было проведено более 200 итераций тестирования с CrewAI, что позволило выявить 47 уникальных сценариев координационных сбоев. Классификация этих сбоев выявила четыре основные категории: 38% сбоев связаны с нарушениями доступа к инструментам и оборудованию, 27% - с несвоевременной обработкой отчетов об ошибках, 21% - с

Annotation:

Multi-agent robotic systems (MARS) build upon multi-agent systems by integrating physical and task-related constraints, increasing the complexity of action execution and agent coordination. However, despite the availability of advanced multi-agent frameworks, their real-world deployment on robots remains limited, hindering the advancement of MARS research in practice. To bridge this gap, we conducted two studies to investigate performance trade-offs of hierarchical multi-agent frameworks in a si...

ID: 2508.04691v1 cs.RO, cs.AI, cs.MA

arXiv PDF

1
2
14
15
16
17

Показано 151 - 160 из 161 записей