📚 Саммари научных статей из arXiv

Найдено 72 результатов по запросу 'cs.AI, cs.SE' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Systematic Analysis of MCP Security

2025-08-20

Авторы:

Yongjian Guo, Puzhuo Liu, Wanlun Ma, Zehang Deng, Xiaogang Zhu, Peng Di, Xi Xiao, Sheng Wen

#### Контекст Модель Контекстного Протокола (MCP) представляет собой важный стандарт, позволяющий AI-агентам эффективно взаимодействовать с внешними инструментами, улучшая их функциональность. Однако, несмотря на преимущества, MCP также повлекла за собой серьезные угрозы безопасности. Одна из таких угроз — Tool Poisoning Attack (TPA), когда внедряются скрытые поддельные инструкции, которые могут изменять поведение AI-системы. Несмотря на важность этой проблемы, актуальные исследования по MCP сфокусированы на узком кругу вопросов или неконкретных оценках. Данные работы направлены на заполнение этой гапа, обеспечив полный анализ угроз и развитие эффективных защитных стратегий. #### Метод Мы представляем **MCP Attack Library (MCPLIB)** — универсальный метод, который содержит 31 различных методов атак, разделенных на четыре группы: 1) **Direct Tool Injection**, 2) **Indirect Tool Injection**, 3) **Malicious User Attacks**, и 4) **LLM Inherent Attacks**. Для каждого метода мы определяем условия, подходы и результаты. Наша методология включает в себя разработку моделей, симуляцию атак и методики для измерения их эффективности. Это позволяет получить широкий обзор различных атак и сформировать гибкий инструментарий для их анализа. #### Результаты Наши эксперименты проводились на различных наборах данных и системах, используя MCPLIB для оценки эффективности различных атак. Мы выявили ключевые уязвимости, такие как доверительное отношение агентов к описаниям инструментов, чувствительность к файловым атакам, цепочные атаки, которые используют общий контекст, и проблемы в различении внешних данных от исполняемых команд. Эти результаты показали, что основными угрозами являются недостаточная верификация внешних инструментов и недостаточное различение запросов от команд. #### Значимость Наша работа имеет значительную значимость в области безопасности AI. Она может быть применена в различных сферах, включая интеллектуальные системы управления, робототехнику и защиту данных. Благодаря полученным результатам, можно разработать более надежные защитные методы, улучшить MCP-системы и обеспечить безопасность взаимодействия с внешними инструментами. Это также может включить в себя развитие новых моделей, способных более точно определять и отсекать поддельные инструкции. #### Выводы Мы сформировали полный таксономический анализ угроз MCP, представили универсальный фреймворк для анализа атак MCPLIB и провели эмпирический анализ уязвимостей. Наши выводы подтверждают необходимость создания новых защитных методов, возможности усовершенствования существующих моделей и развития безопасных MCP-систем.

Annotation:

The Model Context Protocol (MCP) has emerged as a universal standard that enables AI agents to seamlessly connect with external tools, significantly enhancing their functionality. However, while MCP brings notable benefits, it also introduces significant vulnerabilities, such as Tool Poisoning Attacks (TPA), where hidden malicious instructions exploit the sycophancy of large language models (LLMs) to manipulate agent behavior. Despite these risks, current academic research on MCP security remain...

ID: 2508.12538v1 cs.CR, cs.AI, cs.SE

arXiv PDF

📄 Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks

2025-08-20

Авторы:

Ruofan Lu, Yichen Li, Yintong Huo

## Контекст Современные автономные агентные системы, основанные на Large Language Models (LLMs), показали свою способность автоматизировать сложные задачи. Однако существуют существенные проблемы в их эффективности и надёжности. Основной причиной этих проблем является недостаточное понимание причин неудач при выполнении задач. Недостаточное аналитическое внимание уделяется аспектам, таким как взаимодействие, связь между субъектами и последствия неудач. Большинство оценок агентных систем основываются только на измерении успешных результатов, не исследуя возможные причины этих неудач. Данная работа направлена на устранение этой проблемы, предлагая новый подход к анализу неудач в автономных системах. ## Метод Для повышения понимания причин неудач в автономных агентных системах был разработан новый метод. Основной методологией является разработка и использование бенчмарка, состоящего из 34 представительных задач. Эти задачи были специально разработаны для систематического тестирования агентных фреймворков. Для экспериментов были использованы два популярных LLMs (LLaMA и GPT-4) и три различных фреймворка (AgentGPT, AutoGPT и BabyAGI). Оценка производилась путём анализа взаимодействий и связи внутри системы, а также исследования поведения системы в разных стадиях выполнения задачи. ## Результаты Использование нового бенчмарка позволило получить результаты, указывающие на примерно 50% успешности выполнения задач агентными системами. Это значительно ниже ожидаемого результата. Анализ неудач выявил три основных причины: ошибки в планировании, недостаточность выполнения задач и некорректное генерирование ответов. Эти проблемы были систематизированы в трехуровневую таксономию, которая позволяет отслеживать и анализировать каждую стадию процесса выполнения задачи. ## Значимость Результаты имеют большое значение в качестве новых подходов в области разработки автономных агентных систем. Изучение причин неудач позволяет определить зоны улучшения в агентных фреймворках и LLM-системах. Выявленная таксономия может быть использована для разработки более надёжных и эффективных систем, которые будут способны анализировать и корректироваться в процессе выполнения задач. Также результаты могут быть применимы в областях, где необходима высокая надёжность и результативность агентных систем, такие как системы управления, работа с данными и автоматизация. ## Выводы На основе проведённых исследований были выделены три основных причины неудач в автономных системах. Был разработан новый метод, позволяющий выявлять эти проблемы и улучшать агентные системы. Оценка успеш

Annotation:

Autonomous agent systems powered by Large Language Models (LLMs) have demonstrated promising capabilities in automating complex tasks. However, current evaluations largely rely on success rates without systematically analyzing the interactions, communication mechanisms, and failure causes within these systems. To bridge this gap, we present a benchmark of 34 representative programmable tasks designed to rigorously assess autonomous agents. Using this benchmark, we evaluate three popular open-sou...

ID: 2508.13143v1 cs.AI, cs.SE

arXiv PDF

📄 Tabularis Formatus: Predictive Formatting for Tables

2025-08-19

Авторы:

Mukul Singh, José Cambronero, Sumit Gulwani, Vu Le, Gust Verbruggen

## Контекст Spreadsheet manipulation software, такие как Microsoft Excel и Google Sheets, широко используются для управления и анализа данных в табличной форме. Однако создание правил кондиционного форматирования (CF) в таких приложениях часто является задачей, требующей специального технического знания и опыта работы с конкретными платформами. Данная сложность может привести к неэффективному использованию программных возможностей для пользователей, не обладающих подходящим опытом. Поскольку пользователи часто сталкиваются с проблемами в создании CF-правил, включая неполное понимание того, какие правила необходимо создать, сложность их создания и недостаточность пользовательских интерфейсов, естественно возникает потребность в автоматизированных решениях, которые могут упростить процесс. В данной работе предлагается TaFo — нейро-символьная модель, которая адресует эти проблемы, предлагая прогностические правила CF для таблиц. ## Метод TaFo основывается на компонентной синтезирующей методологии, но расширяет ее с помощью знаний, взятых из языковых моделей и методов, позволяющих сохранять разнообразие в предлагаемых правилах. Основной идеей является автоматическое создание правил CF с расчетом на их визуальные свойства, не затрагивая исходные данные. TaFo модель учитывает не только структурные аспекты таблиц (такие как тип данных и соотношение значений), но и семантическое значение данных, чтобы создавать более точные и полезные правила. Архитектура TaFo включает несколько модулей, таких как: - **Feature Extraction Module**, который извлекает признаки из таблицы; - **Rule Synthesis Module**, который строит правила CF с учетом визуальных свойств; - **Diversity Preserving Module**, который гарантирует разнообразие предложенных правил. ## Результаты Для оценки TaFo был использован каталог из 1.8 миллиона публичных рабочих книг с установленными CF-правилами и манипуляциями с таблицами. Выполнен сравнительный эксперимент с другими системами, включая символьные и нейронные модели, которые также предлагают правила CF. Результаты показали, что TaFo значительно превосходит текущие системы по нескольким критериям: - **Precision**: TaFo показал более высокую точность в совпадении с пользовательскими правилами, достигая 15.6%--26.5% выигрыша по сравнению с другими системами; - **Diversity**: TaFo обеспечивает более широкий спектр разнообразных правил, что полезно для пользователей, искащих различные варианты представления таблицы; - **Coverage**: TaFo предлагает более полные правила, охватывая большую долю таблиц с CF-правилами. ## Значимость TaFo может быть применено во многих областях, включая управление дан

Annotation:

Spreadsheet manipulation software are widely used for data management and analysis of tabular data, yet the creation of conditional formatting (CF) rules remains a complex task requiring technical knowledge and experience with specific platforms. In this paper we present TaFo, a neuro-symbolic approach to generating CF suggestions for tables, addressing common challenges such as user unawareness, difficulty in rule creation, and inadequate user interfaces. TaFo takes inspiration from component b...

ID: 2508.11121v1 cs.DB, cs.AI, cs.SE

arXiv PDF

📄 Is General-Purpose AI Reasoning Sensitive to Data-Induced Cognitive Biases? Dynamic Benchmarking on Typical Software Engineering Dilemmas

2025-08-19

Авторы:

Francesco Sovrano, Gabriele Dominici, Rita Sevastjanova, Alessandra Stramiglio, Alberto Bacchelli

#### Контекст Область исследования — обнаружение и изучение возможности возникновения когнитивных биаз в общеприменных искусственных интеллектах (GPAI) в контексте программного обеспечения. Мотивация заключается в том, что человеческие когнитивные биаз могут привести к серьёзным ошибкам в программном обеспечении, а GPAI, как нечеловеческий актор, может способствовать их устранению. Однако тренировка GPAI на людских данных приводит к возможности возникновения имитации человеческих структур мышления, в том числе и биаз. Таким образом, возникает вопрос: являются ли GPAI системы сами подвержены когнитивным биазум и, если да, то в какой степени? Данная работа стремится оценить эту проблему в сфере программного обеспечения. #### Метод Для изучения этой проблемы был разработан динамический фреймворк, ориентированный на оценку уязвимости GPAI к когнитивным биазум в контексте реальных дилемм программного обеспечения. Основной эксперимент начинался с семинарного набора 16 ручной работы, каждая из которых содержала один из 8 разных биаз (например, привязка, фрейминг) и соответствующих неизбилих вариантов. Для увеличения масштаба была разработана методика генерации новых задач, основывающаяся на GPAI-системах. Эта методика позволяла сохранять биаз-индуцирующие лексические сигналы, в то же время изменяя лишь поверхностные детали задач. Для проверки того, что новые задачи сохраняют биаз, использовались методы проверки логики (Prolog) и валидации с помощью LLM-системы. Это позволило гарантировать, что биаз являются вредными и невосприимчивыми для безуклонного логического анализа. #### Результаты В результате было протестировано несколько ведущих GPAI-систем (GPT, LLaMA, DeepSeek). На ранних этапах оказалось, что все протестированные системы подвержены когнитивным биазум, возникающим из-за учёта лексических сигналов, не относящихся к логике задачи. Это привело к некорректным выводам, особенно при простых задачах, где часто использовались глубинные выводы. Однако с увеличением сложности задач системы становились все более чувствительными к биазум (до 49%), что указывает на существенный риск в реальных производственных условиях. #### Значимость Полученные результаты имеют применимость в разных областях, где GPAI используется для автоматизации решений или помощи в программной деятельности. Они показывают, что GPAI может представлять собой не только инструмент для устранения биаз, но и источник новых биаз, которые могут иметь влияние на решения. Изучение этой проблемы может привести к более безопасному и эффективно

Annotation:

Human cognitive biases in software engineering can lead to costly errors. While general-purpose AI (GPAI) systems may help mitigate these biases due to their non-human nature, their training on human-generated data raises a critical question: Do GPAI systems themselves exhibit cognitive biases? To investigate this, we present the first dynamic benchmarking framework to evaluate data-induced cognitive biases in GPAI within software engineering workflows. Starting with a seed set of 16 hand-craf...

ID: 2508.11278v1 cs.HC, cs.AI, cs.SE

arXiv PDF

📄 Chimera: Harnessing Multi-Agent LLMs for Automatic Insider Threat Simulation

2025-08-13

Авторы:

Jiongchi Yu, Xiaofei Xie, Qiang Hu, Yuhan Ma, Ziming Zhao

## Контекст Инсайдерские угрозы (insider threats) представляют опасность, которая может привести к серьезным потерям для организаций. Они могут принимать различные формы, такие как утечка конфиденциальной информации, системный саботаж или кража интеллектуальной собственности. Одним из главных задач для гарантии безопасности является развитие эффективных методов для идентификации и симуляции таких угроз. Изучение этих вопросов требует доступа к качественным данным, что часто оказывается сложным из-за конфиденциальности организационных данных и их недостаточного количества для полноценного исследования. Это способствует ограниченности в развитии методов внутриорганизационного мониторинга и симуляции угроз. ## Метод Чимера (Chimera) — первая платформа, основанная на многоагентной модели л LLM, которая автоматически симулирует поведение пользователей внутри организации, включая как благонамеренное, так и злонамеренное. Она учитывает ролевое поведение различных типов сотрудников, включая руководителей, разработчиков и администраторов. Используя модули для групповых встреч, парные взаимодействия и самостоятельное расписание, платформа генерирует подробные логи действий пользователей. Процесс симуляции включает 15 типов угроз, таких как кража интеллектуальной собственности и системный саботаж. Данные, генерируемые Chimera, хранятся в формате ChimeraLog, представляющем собой новый высококачественный датасет, предназначенный для исследований в области определения внутриорганизационных угроз. ## Результаты Данные ChimeraLog были протестированы в составе нескольких кейсов, включая технологическую компанию, финансовую корпорацию и медицинское учреждение. Эксперименты показали высокую реалистичность генерируемых данных и разнообразие угроз, включая обоснованные шаблоны моделирования вредоносного поведения. В частности, проведенный тест на F1-метрике показал, что уровень сложности ChimeraLog значительно выше, чем у других датасетов. Это позволяет использовать Chimera для достижения более точных и сложных моделей поддержки решений в области мониторинга и симуляции внутриорганизационных угроз. ## Значимость Предложенный подход имеет широкие возможности в области безопасности и мониторинга. Платформа Chimera может применяться для создания достоверных датасетов, которые позволят развивать модели мониторинга и обнаружения внутриорганизационных угроз. Это также может способствовать развитию методов для идентификации и предотвращения внутренних угроз, таких как кража данных или саботаж. Благодаря своей реалистичности и разнооб

Annotation:

Insider threats, which can lead to severe losses, remain a major security concern. While machine learning-based insider threat detection (ITD) methods have shown promising results, their progress is hindered by the scarcity of high-quality data. Enterprise data is sensitive and rarely accessible, while publicly available datasets, when limited in scale due to cost, lack sufficient real-world coverage; and when purely synthetic, they fail to capture rich semantics and realistic user behavior. To ...

ID: 2508.07745v2 cs.CR, cs.AI, cs.SE

arXiv PDF

📄 ChatGPT on the Road: Leveraging Large Language Model-Powered In-vehicle Conversational Agents for Safer and More Enjoyable Driving Experience

2025-08-13

Авторы:

Yeana Lee Bond, Mungyeong Choe, Baker Kasim Hasan, Arsh Siddiqui, Myounghoon Jeon

## Контекст В настоящее время технологии в сфере транспорта стремятся к созданию безопасных, удобных и эффективных систем взаимодействия для водителей. Одной из проблем в этой области является ограниченность набора функций и контекстной гибкости существующих систем голосового взаимодействия. Традиционные варианты реализации включают предварительно составленные скрипты или тестовые модели, которые не позволяют обеспечить натуральное и интерактивное взаимодействие водителя с системой. Таким образом, существует необходимость в разработке более гибких и интеллектуальных систем, которые могут обеспечивать более естественное взаимодействие водителя с автомобилем, улучшая как безопасность, так и удовольствие от процесса вождения. ## Метод Для изучения возможностей использования методов глубокого обучения в сфере транспорта была разработана модель взаимодействия, основанная на ChatGPT, которая позволяет водителям вести непрерывные, многократные диалоги с системой. В эксперименте приняли участие 40 водителей, протестировавших систему на базе движения в симуляторе. Участники проверяли три условия: без агента, с предварительно составленным скриптом и с ChatGPT-диалогом. Методы оценки включали сравнение показателей безопасности, удобства и эффективности взаимодействия, а также сбор данных для тематического анализа взаимодействия. ## Результаты Эксперименты показали, что ChatGPT-агент обеспечивает более стабильное вождение по нескольким метрикам. Водители, использовавшие ChatGPT-систему, показали меньшую внутритемпературную вариабельность в отношении дорожного поведения, в том числе уменьшение вариации ускорения, поворотов и отклонений вдоль полосы. Также, ChatGPT-система получила вышеоценки в плане компетентности, анаиматичности, эмоционального доверия и пользовательской приоритетности по сравнению с предварительно составленным скриптом. Тематический анализ говорит о том, что взаимодействия водителей и агентов касались разных тематик, включая помощь в вождении, запросы развлечений и антропоморфные обращения. ## Значимость Исследование показывает, что LLM-powered in-vehicle conversational agents могут стать мощным инструментом для улучшения безопасности и эффективности вождения, обеспечивая более естественное и интерактивное взаимодействие. Эти системы могут применяться в различных сферах, включая сервисы самостоятельного вождения, улучшение интерфейсов транспортных систем и создание более удобных средств для пользователей. Возможно, в будущем модели будут иметь более широкие возможности для взаимодействия с пользователями, включая рас

Annotation:

Studies on in-vehicle conversational agents have traditionally relied on pre-scripted prompts or limited voice commands, constraining natural driver-agent interaction. To resolve this issue, the present study explored the potential of a ChatGPT-based in-vehicle agent capable of carrying continuous, multi-turn dialogues. Forty drivers participated in our experiment using a motion-based driving simulator, comparing three conditions (No agent, Pre-scripted agent, and ChatGPT-based agent) as a withi...

ID: 2508.08101v1 cs.HC, cs.AI, cs.SE

arXiv PDF

📄 CABENCH: Benchmarking Composable AI for Solving Complex Tasks through Composing Ready-to-Use Models

2025-08-09

Авторы:

Tung-Thuy Pham, Duy-Quan Luong, Minh-Quan Duong, Trung-Hieu Nguyen, Thu-Trang Nguyen, Son Nguyen, Hieu Dinh Vo

Задача создания композируемых решений в AI, основанных на готовых моделях, является важной, но еще недооцененной областью исследований. Одной из основных проблем является отсутствие систематических подходов для оценки таких решений. В статье представлено CABENCH — первый открытый бенчмарк, состоящий из 70 реалистичных задач для композитного AI, а также пула 700 готовых моделей, покрывающих различные модальности и домены. Для поддержки исследований CABENCH включает оценочный фреймворк для полного анализа решений. Работа также предлагает ручные решения для сравнения с LLM-подходами, показав быстроту развития композитного AI, но также выявляя необходимость развития методов для автоматического генерирования эффективных композиций моделей. Это способствует решению реальных задач и иллюстрирует потенциал композитного AI.

Annotation:

Composable AI offers a scalable and effective paradigm for tackling complex AI tasks by decomposing them into sub-tasks and solving each sub-task using ready-to-use well-trained models. However, systematically evaluating methods under this setting remains largely unexplored. In this paper, we introduce CABENCH, the first public benchmark comprising 70 realistic composable AI tasks, along with a curated pool of 700 models across multiple modalities and domains. We also propose an evaluation frame...

ID: 2508.02427v1 cs.AI, cs.SE

arXiv PDF

📄 Entity Representation Learning Through Onsite-Offsite Graph for Pinterest Ads

2025-08-09

Авторы:

Jiayin Jin, Zhimeng Pan, Yang Tang, Jiarui Feng, Kungang Li, Chongyuan Xiang, Jiacheng Li, Runze Su, Siping Ji, Han Sun, Ling Leng, Prathibha Deshikachar

В статье предлагается метод улучшения обучения представлений сущностей для рекламных моделей, ориентированных на оптимизацию CTR и CVR в Pinterest Ads. Основная проблема заключается в том, что существующие модели неэффективно интегрируют знания из графа, состоящего из onsite и offsite активностей пользователей. Разработанное решение включает в себя построение крупномасштабного графа, сочетающего onsite-обращения пользователей в рекламных кампаниях и offsite-конверсии. Для эффективного обработки этого графа предложен TransRA, усовершенствованная модель Knowledge Graph Embedding (KGE), которая активно использует аттестационные механизмы для объединения эмбеддингов в рекомендательную модель. Чтобы повысить пользу от KGE в реальных задачах рекламного ориентированного ранжирования, введены техники Large ID Embedding Table и fine-tuning KGE. Эксперименты показали повышение AUC в CTR и CVR на 2.69% и 1.34% соответственно, а также сокращение CPC. Эти технологии могут быть использованы для улучшения моделей в других индустриальных системах рекомендаций.

Annotation:

Graph Neural Networks (GNN) have been extensively applied to industry recommendation systems, as seen in models like GraphSage\cite{GraphSage}, TwHIM\cite{TwHIM}, LiGNN\cite{LiGNN} etc. In these works, graphs were constructed based on users' activities on the platforms, and various graph models were developed to effectively learn node embeddings. In addition to users' onsite activities, their offsite conversions are crucial for Ads models to capture their shopping interest. To better leverage of...

ID: 2508.02609v2 cs.LG, cs.AI, cs.SE

arXiv PDF

📄 Data Dependency Inference for Industrial Code Generation Based on UML Sequence Diagrams

2025-08-09

Авторы:

Wenxin Mao, Zhitao Wang, Long Wang, Sirong Chen, Cuiyun Gao, Luyang Cao, Ziming Liu, Qiming Zhang, Jun Zhou, Zhi Jin

## КОНТЕКСТ И ПРОБЛЕМАТИКА Разработка программного обеспечения в сфере сервисно-ориентированных архитектур зачастую сталкивается с высокой сложностью и неоднозначностью требований. Особенно это актуально для систем, требующих сложных поведенческих моделей, условной логики и архитектурных ограничений. Традиционные методы генерации кода, основанные на естественном языке (NL), часто не справляются с этими вызовами из-за неявности и неполноты естественных описаний. Недостаточно точного представления структурных и функциональных зависимостей в описании может приводить к ошибкам в полученном коде, что становится критическим в промышленных приложениях. Одним из ключевых проблем является неточная интерпретация неявных данных зависимостей между компонентами системы. Такие зависимости трудно выразить на естественном языке, особенно в контексте сервис-ориентированных архитектур, где данные передаются между различными сервисами в условиях сложной логики взаимодействия. Это приводит к необходимости создания более точных и формализованных способов моделирования и генерации кода, которые могут учитывать все аспекты системного поведения и данных. В связи с этим, исследователи сформулировали задачу инференса данных зависимостей (Data Dependency Inference, DDI), которая направлена на создание формальных моделей зависимостей и последующего использования этих моделей для генерации кода. Однако, решение этой задачи требует новых подходов, которые могут обеспечить более высокую точность и упростить процесс генерации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы неявных данных зависимостей, авторы предлагают рамейновый подход под названием UML2Dep, который использует расширенную версию языка моделирования UML (Unified Modeling Language) для сервис-ориентированных архитектур. Этот подход основывается на использовании расширенных UML-диаграмм последовательности (sequence diagrams), которые включают в себя дополнительные элементы, такие как таблицы решений (decision tables) и спецификации API. Эти дополнения позволяют формализовать структурные отношения и бизнес-логику взаимодействия сервисов, что помогает избежать неоднозначности, связанной с естественным языком. Ключевым моментом метода является введение задачи DDI (Data Dependency Inference), которая формализована как задача математического резонанса с помощью специальных стратегий промптов (prompting strategies). Эти стратегии позволяют использовать сильные стороны языковых моделей (LLMs) в математическом резонании для точного определения зависимостей между данными. Дополнительно, метод использует статическую парсинг и прунинг (pruning) зависимостей для уменьшения количества данных, которые необходимо обрабатывать, что повышает точность и эффективность резонанса. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены эксперименты на реальных данных, включая сложные случаи сервис-ориентированных архитектур. Результаты показали, что использование расширенных UML-диаграмм и метода DDI значительно повышает точность генерации кода. Представление данных в виде графа зависимостей помогло снизить сложность контекста и улучшить качество результирующего кода. Было продемонтрировано, что формализованные подходы к инференсу данных зависимостей позволяют лучше учесть сложность системных взаимодействий и уменьшить количество ошибок в генерируемом коде. Эксперименты также показали, что метод UML2Dep эффективен в уменьшении количества ложных зависимостей и повышении скорости генерации кода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод UML2Dep имеет широкий спектр применений в промышленной разработке программного обеспечения. Он может быть использован для автоматизации генерации кода в сложных системах, где необходимо учитывать множество факторов, таких как данные зависимости, бизнес-логика и архитектурные ограничения. Данный подход повышает эффективность разработки, сокращая время на разработку и уменьшая вероятность ошибок. Кроме того, метод может быть применен в областях, требующих высокой точности и надежности, таких как финансовые системы, ИИ и автономные системы. Он также может быть полезен для разработчиков, которым необходимо быстро создавать код на основе сложных требований. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках исследования было показано, что UML2Dep представляет собой эффективный метод для генерации кода на основе UML-диаграмм последовательности. Данный подход позволяет формализовать сложные требования и улучшить точность генерации кода. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая интеграцию с другими технологиями и расширение его применения на другие области разработки.

Annotation:

Large language models (LLMs) excel at generating code from natural language (NL) descriptions. However, the plain textual descriptions are inherently ambiguous and often fail to capture complex requirements like intricate system behaviors, conditional logic, and architectural constraints; implicit data dependencies in service-oriented architectures are difficult to infer and handle correctly. To bridge this gap, we propose a novel step-by-step code generation framework named UML2Dep by leveragin...

ID: 2508.03379v2 cs.AI, cs.SE

arXiv PDF

📄 LLM Collaboration With Multi-Agent Reinforcement Learning

2025-08-08

Авторы:

Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультиагентные системы (MAS) широко используются для моделирования и решения задач, в которых несколько агентов взаимодействуют друг с другом. Однако, несмотря на значительные успехи в области машинного обучения, большинство больших языковых моделей (LLM) обучаются независимо, не специально оптимизированной для координации действий между агентами. Это создает значительные ограничения для применения LLMs в контексте коллаборативной работы. Традиционные методы файн-тюнинга LLMs часто основываются на индивидуальных наградах для каждого агента, что требует сложного дизайна системы наград для стимулирования координации. Такой подход неэффективен и не всегда обеспечивает качественное взаимодействие между агентами. Кроме того, существующие методы не позволяют эффективно использовать преимущества координации в мультиагентных задачах, особенно в сложных ситуациях, требующих высокого уровня коллаборативности. Данная проблематика становится особенно актуальной в контексте задач, связанных с коллаборативным написанием текстов или программированием, где необходимо обеспечить высокую степень взаимодействия и качество результатов. Таким образом, необходимо разработать более эффективный подход для моделирования коллаборативного поведения LLMs с использованием мультиагентного обучения с подкреплением (MARL). ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается моделировать коллаборативное поведение LLMs как задачу кооперативного Multi-Agent Reinforcement Learning (MARL). Для решения этой задачи разработан алгоритм **Multi-Agent Group Relative Policy Optimization (MAGRPO)**, который сочетает современные методы обучения с подкреплением для LLMs и методы MARL. MAGRPO основывается на построении групповой политики, которая учитывает взаимодействие между агентами и оптимизирует их поведение в коллаборативном контексте. Алгоритм использует механизм относительной оптимизации политик для каждого агента, что позволяет добиться более эффективной координации без необходимости сложного дизайна системы наград. Архитектура MAGRPO включает в себя следующие компоненты: 1. **Мультиагентная модель**: Каждый агент представляет собой LLM, который обучается взаимодействовать с другими агентами в рамках коллаборативной задачи. 2. **Групповая политика**: Оптимизируется для всей группы агентов, учитывающая совместные действия и их влияние на конечный результат. 3. **Относительная оптимизация**: Алгоритм оптимизирует политику для каждого агента относительно поведения других агентов, что обеспечивает более стабильное и кооперативное поведение. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты на задачах коллаборативного написания текстов и коллаборативного программирования. В экспериментах использовались различные датасеты, представляющие реальные сценарии взаимодействия агентов. Результаты показали, что файн-тюнинг LLMs с использованием MAGRPO значительно улучшает качество создаваемых ответов и эффективность коллаборативного процесса. Агенты, обученные с помощью MAGRPO, демонстрируют более высокую степень координации и качество генерируемых текстов по сравнению с традиционными методами файн-тюнинга. Кроме того, эксперименты подтвердили, что MAGRPO позволяет эффективно использовать методы MARL для LLMs, обеспечивая лучшую адаптацию к сложным коллаборативным сценариям. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих коллаборативной работы нескольких агентов. Например, в области автоматического написания текстов, программирования, игр и других ситуаций, требующих высокого уровня взаимодействия. Преимущества MAGRPO включают: - **Улучшенная координация**: Алгоритм обеспечивает более эффективное взаимодействие между агентами. - **Улучшенное качество результатов**: Генерируемые тексты и код имеют высокий уровень качества и соответствия задаче. - **Простота дизайна наград**: Отсутствие необходимости в сложном дизайне системы наград упрощает процесс обучения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе предложен новый подход для моделирования коллаборативного поведения LLMs с использованием MARL. Алгоритм MAGRPO показал высокую эффективность в задачах коллаборативного написания текстов и программирования. Будущие исследования могут сосредоточиться на расширении этого подхода для более сложных мультиагентных задач, а также на исследовании других методов MARL для LLMs. Также важно исследовать возможности применения этого подхода в реальных системах, требующих высокого уровня коллаборативности.

Annotation:

A large amount of work has been done in Multi-Agent Systems (MAS) for modeling and solving problems with multiple interacting agents. However, most LLMs are pretrained independently and not specifically optimized for coordination. Existing LLM fine-tuning frameworks rely on individual rewards, which require complex reward designs for each agent to encourage collaboration. To address these challenges, we model LLM collaboration as a cooperative Multi-Agent Reinforcement Learning (MARL) problem. W...

ID: 2508.04652v1 cs.AI, cs.SE

arXiv PDF

1
2
5
6
7
8

Показано 61 - 70 из 72 записей