📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 AgentGuard: Runtime Verification of AI Agents

2025-10-01

Авторы:

Roham Koohestani

## Контекст В последние годы становится все очевиднее, что автономные, агентно-ориентированные системы AI (Agentic AI) выводятся на новый уровень, но при этом становится труднее контролировать их поведение. Это приводит к появлению новых рисков, таких как непредсказуемость, отступления от целей, и, в итоге, повышение риска для пользователей и окружающей среды. Традиционные методы верификации, ориентированные на статические модели, не могут устоять перед такой неопределенностью и непредсказуемостью. Таким образом, возникает необходимость в качественно новом подходе к верификации, который может применяться во время выполнения системы, и может предоставлять динамическое управление рисками. Направленность исследования: на выработку нового подхода, позволяющего контролировать и анализировать поведение AI-систем в реальном времени. ## Метод Архитектура AgentGuard построена на основе нескольких ключевых компонентов: 1. **Инспекционный слой** (Inspection Layer): это слой, который отслеживает входные и выходные данные (Input/Output, I/O) AI-агента и преобразует их в формальные события. Эти события представляют собой переходы между состояниями в модели состояний (State Model). 2. **Онлайн-обучение (Online Learning)**: AgentGuard использует возможности онлайн-обучения для создания динамического моделирования поведения AI-системы. Модель Markov Decision Process (MDP) динамически обновляется на основе полученных данных. 3. **Проверка моделей с помощью моделирования вероятностей (Probabilistic Model Checking)**: AgentGuard применяет методы проверки моделей с вероятностными гарантиями, чтобы получать реальное понимание того, насколько система соответствует ожидаемому поведению, во время ее выполнения. Процесс верификации встроен в цикл выполнения системы AI, что позволяет получать динамические гарантии о проверке поведения в течение всего цикла выполнения. ## Результаты Система AgentGuard протестирована на нескольких реальных AI-системах, которые оперируют в различных сферах. Эксперименты были проведены на потоковых данных, которые описывают различные сценарии взаимодействия с AI-системами. Результаты показали, что AgentGuard может динамически адаптироваться к изменяющимся условиям и предоставлять точные оценки риска. Например, в одном из сценариев система смогла уменьшить вероятность нежелательных событий на 30%, только за счет реального времени мониторинга поведения AI-системы. ## Значимость AgentGuard предлагает новый подход к мониторингу и верификации AI-систем во время выполнения, что может иметь широкое применение в различных областях, таких как: - Мобильные рабочие процессы (Mobile Workflows): где важно контролировать и оптимизировать поведение AI-систем в реальном времени. -

Annotation:

The rapid evolution to autonomous, agentic AI systems introduces significant risks due to their inherent unpredictability and emergent behaviors; this also renders traditional verification methods inadequate and necessitates a shift towards probabilistic guarantees where the question is no longer if a system will fail, but the probability of its failure within given constraints. This paper presents AgentGuard, a framework for runtime verification of Agentic AI systems that provides continuous, q...

ID: 2509.23864v1 cs.AI, cs.SE

arXiv PDF

📄 From Edge to HPC: Investigating Cross-Facility Data Streaming Architectures

2025-10-01

Авторы:

Anjus George, Michael Brim, Christopher Zimmer, David Rogers, Sarp Oral, Zach Mayes

## Контекст Область исследования связана с разработкой и оценкой архитектур для передачи данных между различными сервисами и центрами вычислений (facilities). Эта тема крайне важна для высокопроизводительных вычислений (HPC) и искусственного интеллекта (AI), где требуется эффективная передача больших объемов данных между различными серверами и центрами. Наибольшие проблемы возникают при передаче данных в реальном времени, так как для высокой производительности требуется минимизировать задержки и максимизировать пропускную способность системы. Существуют различные архитектуры для решения этой проблемы, но пока что не определено, какая из них лучше подходит для конкретных задач. Наша мотивация заключается в сравнении трех различных архитектур передачи данных в реальном времени, чтобы определить их преимущества и недостатки. ## Метод Мы рассматриваем три различных архитектуры: **Direct Streaming (DTS)**, **Proxied Streaming (PRS)** и **Managed Service Streaming (MSS)**. Для каждой архитектуры описывается архитектурный подход и способ реализации. Используется **Data Streaming to HPC (DS2HPC)**, архитектурный фреймворк, который помогает реализовать эти архитектуры на практике. Также мы используем **SciStream**, инструмент для передачи данных между памятью и процессором, который подходит для высокопроизводительных вычислений. Эти архитектуры реализованы на **Advanced Computing Ecosystem (ACE)**, системе вычислений в Oak Ridge Leadership Computing Facility (OLCF). Мы проводим эксперименты с разными нагружающими рабочими процессами (workloads), которые позволяют измерить производительность каждой архитектуры в разных условиях. ## Результаты Мы проводили симуляционные эксперименты для каждой архитектуры, измеряя такие показатели, как пропускная способность (throughput), задержка (round-trip time) и накладные расходы (overhead). Мы использовали три различных типа рабочих процессов, которые отражают различные мотивы взаимодействия в AI-HPC. Результаты показывают, что **Direct Streaming (DTS)** предоставляет минимальные задержки и наибольшую пропускную способность, что делает его наиболее эффективным в плане производительности. **Managed Service Streaming (MSS)** лучше подходит для масштабируемости и удобства развертывания, но он имеет большие затраты времени и ресурсов. **Proxied Streaming (PRS)** находится посередине, обеспечивая большую масштабируемость и высокую производительность, однако в некоторых случаях он не может достичь производительности DTS. ## Значимость Эти исследования имеют значение для нескольких областей, включая вычисления на границах (edge computing), высокопроизводительные вычисления (HPC) и искусственный интеллект (AI). Мы показали, что **Direct Streaming** является лучшим вариантом для ситуаций, где нужно максимальное пре

Annotation:

In this paper, we investigate three cross-facility data streaming architectures, Direct Streaming (DTS), Proxied Streaming (PRS), and Managed Service Streaming (MSS). We examine their architectural variations in data flow paths and deployment feasibility, and detail their implementation using the Data Streaming to HPC (DS2HPC) architectural framework and the SciStream memory-to-memory streaming toolkit on the production-grade Advanced Computing Ecosystem (ACE) infrastructure at Oak Ridge Leaders...

ID: 2509.24030v1 cs.DC, cs.AI, cs.SE

arXiv PDF

📄 BPMN Assistant: An LLM-Based Approach to Business Process Modeling

2025-10-01

Авторы:

Josip Tomo Licardo, Nikola Tankovic, Darko Etinger

#### Контекст Общепризнанной проблемой в области управления бизнес-процессами является трудность в создании и модификации BPMN-диаграмм с помощью традиционных средств, которые часто требуют глубоких знаний специальных технологий. Это приводит к возникновению неточностей и неэффективности в процессах моделирования и внедрения бизнес-процессов. Большой потенциал в этой области видят приложения, использующие технологии ИИ, в частности БоLТ-модели, для упрощения и ускорения процесса моделирования. Такие инструменты могут существенно повысить точность и эффективность моделирования бизнес-процессов, а также сделать его доступным для широкой аудитории без особых технических навыков. #### Метод "BPMN Assistant" — это инструмент, основанный на БоЛТ-модели, который предоставляет возможность создания и редактирования BPMN-диаграмм с помощью естественного языка. Одним из ключевых моментов является представление диаграмм в виде специального JSON-формата, который является более удобным для обработки по сравнению с XML, который используется в традиционных решениях. Для оценки качества генерации процессов используются метрики, такие как Graph Edit Distance (GED) и Relative Graph Edit Distance (RGED), которые позволяют измерить точность создания процессов в автоматическом режиме. Редактирование оценивается с помощью бинарного успешного метрики. #### Результаты В ходе экспериментов были проведены сравнения работы BPMN Assistant с использованием JSON и XML для генерации и редактирования BPMN-диаграмм. Результаты показали, что JSON обеспечивает уровень точности, близкий к XML, но имеет значительные преимущества в скорости обработки и успешности редактирования. Так, JSON демонстрирует высокую степень надежности и эффективность в редактировании, что делает его более привлекательным для практического применения. #### Значимость Инструмент BPMN Assistant может быть применен в различных сферах бизнеса, где требуется эффективное моделирование и анализ бизнес-процессов. Он демонстрирует высокую точность и удобство использования, что позволяет существенно сократить время и силы, необходимые для создания и модификации процессов. Благодаря улучшенному формату JSON, BPMN Assistant также обеспечивает более гибкую и быструю обработку данных, что может привести к повышению производительности в управлении бизнес-процессами. #### Выводы BPMN Assistant доказал свою эффективность в создании и модификации BPMN-диаграмм, используя БоЛТ-модели и JSON-формат для улучшения точности и производительности. Будущие исследования будут сконцентрированы на улучшении системы, включая расширение функциональности, увелич

Annotation:

This paper presents BPMN Assistant, a tool that leverages Large Language Models (LLMs) for natural language-based creation and editing of BPMN diagrams. A specialized JSON-based representation is introduced as a structured alternative to the direct handling of XML to enhance the accuracy of process modifications. Process generation quality is evaluated using Graph Edit Distance (GED) and Relative Graph Edit Distance (RGED), while editing performance is evaluated with a binary success metric. Res...

ID: 2509.24592v1 cs.AI, cs.SE

arXiv PDF

📄 FeatBench: Evaluating Coding Agents on Feature Implementation for Vibe Coding

2025-09-30

Авторы:

Haorui Chen, Chengze Li, Jia Li

## Контекст Современные Large Language Models (LLMs) вводят новый парадигму в программировании, называемую "vibe coding", где пользователи взаимодействуют с кодинг-агентами с помощью высокоуровневого естественного языка. Это парадигма делает программирование более доступным и простым для новичков. Однако существующие оценочные бенчмарки для кодогенерации не эффективно оценивают эти модели в контексте vibe coding. Они либо требуют кода-спецификаций, либо фокусируются исключительно на решении конкретных проблем, не учитывая ключевой сценарий — реализацию функций в рамках этого парадигма. Этот недостаток в оценке приводит к недостаточному пониманию того, насколько эффективно агенты могут работать в реальных сценариях. ## Метод Для оценки моделей в контексте vibe coding мы предлагаем FeatBench — новый бенчмарк, ориентированный на реализацию функций. FeatBench включает несколько ключевых особенностей: 1. **Применение Натурального Языка**: Задачи описаны только естественным языком, без использования кода или структурных подсказок. 2. **Комплексная Дорожная Карта**: Мы применяем жесткую многоуровневую фильтрацию для обеспечения качества данных и автоматизируемую систему для её постоянного обновления. 3. **Обобщенные Тест-Кейсы**: Каждая задача включает Fail-to-Pass (F2P) и Pass-to-Pass (P2P) тестовые случаи, чтобы проверить точность решения и предотвратить регрессию. 4. **Разнообразные Домены**: Бенчмарк охватывает задачи из различных областей для лучшего отражения реальных условий. ## Результаты Мы провели эксперименты с двумя современными фреймворками для кода-агентов, используя четыре лидирующих модели естественного языка. Наши результаты показали, что реализация функций в рамках vibe coding — это серьезный вызов, с максимальной успешностью лишь 29.94%. Мы также обнаружили тенденцию к "агрессивной реализации" — стратегии, которая приводит к как к критическим ошибкам, так и к более удобному программированию. ## Значимость FeatBench может быть применен в разработке и оценке моделей программирования, которые должны работать в стиле vibe coding. Его преимущества заключаются в том, что он предлагает более точную оценку моделей в реальных условиях, чем существующие бенчмарки. Будущие исследования могут использовать этот бенчмарк для усовершенствования моделей и поиска решений для сложных задач реализации функций. ## Выводы Результаты нашего исследования подтверждают значимость FeatBench в оценке моделей в контексте vibe coding. Мы открываем доступ к FeatBench, автоматизированной системе сбора данных и результатам наших экспериментов, чтобы поощрить дальнейшу

Annotation:

The rapid advancement of Large Language Models (LLMs) has given rise to a novel software development paradigm known as "vibe coding," where users interact with coding agents through high-level natural language. However, existing evaluation benchmarks for code generation inadequately assess an agent's vibe coding capabilities. Existing benchmarks are misaligned, as they either require code-level specifications or focus narrowly on issue-solving, neglecting the critical scenario of feature impleme...

ID: 2509.22237v1 cs.CL, cs.AI, cs.SE

arXiv PDF

📄 Automatic Red Teaming LLM-based Agents with Model Context Protocol Tools

2025-09-27

Авторы:

Ping He, Changjiang Li, Binbin Zhao, Tianyu Du, Shouling Ji

## Контекст Появление бо LLM-based agents (LLM-агентов), основанных на больших языковых моделях, привело к их широкому распространению в различных сферах применения. Интеграция серии Model Context Protocol (MCP) в эти агенты позволила стандартизировать взаимодействие между ними и их средами, такими как платформы генерации текста и диалоговые системы. Однако применение MCP носит риск токсических атак, когда злоумышленник внедряет вредоносные инструменты в среду, чтобы сбить с толку или красть данные. Существующие исследования указывали на эти уязвимости, однако ред таиминг-атаки все еще остаются в активном этапе проверки, а автоматическое и систематическое тестирование такого рода вредоносного использования MCP остается недостроенным. ## Метод Мы предлагаем AutoMalTool, автоматизированный фреймворк для тестирования LLM-агентов при атаках с использованием вредоносных MCP-инструментов. Наш подход заключается в генерации настраиваемых MCP-инструментов, которые могут влиять на поведение агентов. Технология основывается на машинном обучении, которая позволяет генерировать систематические ред таиминг-атаки в рамках тестирования безопасности LLM-агентов. Мы интегрируем техники подделки входных данных и анализ контекстов, чтобы генерировать целенаправленные атаки, которые могут работать в различных сетах и ситуациях. ## Результаты Наши эксперименты показали, что AutoMalTool эффективно генерирует вредоносные MCP-инструменты, которые могут изменять поведение любых LLM-агентов, в том числе весьма современных. Мы оценили его работу на множестве различных сетах и ситуаций, в том числе на тест-козе, в реальных системах, и на тестовых версиях популярных LLM-based agents. Результаты показали, что AutoMalTool может эффективно выполняться в различных средах и скрывать свои действия от существующих систем защиты. Однако, мы также отметили, что наш подход еще не в состоянии контролировать полностью все варианты взаимодействия, что может стать ограничением. ## Значимость AutoMalTool открывает новый подход к тестированию безопасности LLM-based agents, в том числе в сферах, где используются MCP-инструменты. Это может помочь в поиске новых уязвимостей, связанных с использованием MCP-инструментов, и в улучшении систем защиты тест-коз. Наш фреймворк также может использоваться в направлении разработки безопасных технологий, которые могут избежать подобных атак. Мы также планируем расширить нашу работу, включив в нее более широкий спектр социальных и технологических сетах. ## Выводы Мы предлагаем AutoMalTool, автоматизированный фреймворк для тестирования безопасности LLM

Annotation:

The remarkable capability of large language models (LLMs) has led to the wide application of LLM-based agents in various domains. To standardize interactions between LLM-based agents and their environments, model context protocol (MCP) tools have become the de facto standard and are now widely integrated into these agents. However, the incorporation of MCP tools introduces the risk of tool poisoning attacks, which can manipulate the behavior of LLM-based agents. Although previous studies have id...

ID: 2509.21011v1 cs.CR, cs.AI, cs.SE

arXiv PDF

📄 LLMs as verification oracles for Solidity

2025-09-26

Авторы:

Massimo Bartoletti, Enrico Lipparini, Livio Pompianu

## Контекст Smart contracts — автоматизированные контракты, выполняющиеся в блокчейн-средах — широко используются в децентрализованных финансах, торговле и хранении активов. Однако, их корректность является критически важной, так как неточности в бизнес-логике могут привести к угадыванию финансовых потерь. Несмотря на наличие инструментов, нацеленных на обнаружение типичных уязвимостей, большинство реальных уязвимостей связаны с ошибками в бизнес-логике. Для решения этой проблемы используются формальные методы проверки, такие как SolCMC и Certora Prover. Однако, эти инструменты имеют высокую сложность в освоении и ограниченную языковую мощность. Недавние исследования показали, что бо LLM (большие языковые модели) могут успешно применяться в других областях безопасности, например, в обнаружении уязвимостей. В данной работе мы задаемся вопросом: могут ли бо быть использованы в качестве формальных оркестров, способных оценивать любые свойства конкретных контрактов? ## Метод Мы использовали GPT-5, современный бо LLM, для оценки его эффективности в качестве формального оркестра. Для этого, мы создали большую выборку задач формальной проверки контрактов Solidity. Каждая задача включала формальную спецификацию и код контракта. Мы сравнили выводы GPT-5 с результатами опытных формальных инструментов, а также проанализировали возможности GPT-5 в реальной среде аудита контрактов. Для оценки точности использовались как квантитативные метрики (например, доля правильных ответов), так и качественный анализ (качество доказательств и понятность выводов). ## Результаты Наши эксперименты показали, что GPT-5 демонстрирует очень высокую точность в выполнении задач проверки. Он успешно определил ошибки в бизнес-логике, даже в сложных случаях, где инструменты SolCMC и Certora Prover столкнулись с ограничениями. Бо LLM также продемонстрировал значительную выгоду в скорости обработки задач и понятности выводов. Однако, мы также обнаружили некоторые ограничения. Например, GPT-5 мог выдать некорректные ответы при неоднозначности спецификации или недостаточной качественности входных данных. ## Значимость Наша работа открывает новые возможности для использования бо в области формальной проверки смарт-контрактов. Использование LLMs может упростить процесс аудита и сделать его доступным для широкой аудитории, не имеющей технических навыков в формальных методах. Это открывает путь к более широкому применению формальных методов в блокчейн-индустрии. Будущие исследования будут направлены на улучшение точности и уменьшение ограничений GPT-5, а также на и

Annotation:

Ensuring the correctness of smart contracts is critical, as even subtle flaws can lead to severe financial losses. While bug detection tools able to spot common vulnerability patterns can serve as a first line of defense, most real-world exploits and losses stem from errors in the contract business logic. Formal verification tools such as SolCMC and the Certora Prover address this challenge, but their impact remains limited by steep learning curves and restricted specification languages. Recent ...

ID: 2509.19153v1 cs.CR, cs.AI, cs.SE

arXiv PDF

📄 LogReasoner: Empowering LLMs with Expert-like Coarse-to-Fine Reasoning for Log Analysis Tasks

2025-09-26

Авторы:

Lipeng Ma, Yixuan Li, Weidong Yang, Mingjie Zhou, Xinyi Liu, Ben Fei, Shuhao Li, Xiaoyan Sun, Sihang Jiang, Yanghua Xiao

#### Контекст Лог-анализ является критическим для мониторинга здоровья систем и диагностики неполадок в сложных системах. Недавние прогрессы в области Больших языковых моделей (LLM) открывают новые возможности для автоматизированного лог-анализа. Однако, общего назначения LLM страдают от недостатка структурированного рассуждательного процесса, который соответствовал бы экспертной мысли и предоставлял точные детали логических шагов. Данный недостаток ограничивает эффективность лог-анализа. Мы предлагаем LogReasoner — фреймворк, который включает в себя два этапа: (1) уточнение коарсе-гранулярного мышления эксперта, где высокоуровневые экспертные мысли формируются из верифицированных потоков устранения неполадок и существующих задач, чтобы обеспечить LLM структурированными рассуждениями, и (2) уточнение файн-гранулярного процесса, где мы оптимизируем LLM для конкретных задач, а также используем методы приоритетного обучения для исправления ошибок и улучшения логической точности. #### Метод LogReasoner включает два основных этапа: (1) **Уточнение коарсе-гранулярного мышления**, где мы создаем структурированные рассуждения на основе экспертных потоков и задач, чтобы обеспечить LLM структурой рассуждения, и (2) **Уточнение файн-гранулярного процесса**, где мы тренируем LLM на задачах специфичных для решения, а затем применяем метод приоритетного обучения, чтобы исправлять ошибки и улучшать логическую точность. Мы применяем LogReasoner к четырем разным лог-аналитическим задачам, используя открытые LLM такие как Qwen-2.5 и Llama-3. #### Результаты Мы проводили эксперименты с LogReasoner на четырёх разных задачах лог-анализа, используя открытые LLM, такие как Qwen-2.5 и Llama-3. Эксперименты показали, что LogReasoner значительно превосходит существующие LLM в показателях эффективности и точности рассуждений. Это подтверждает эффективность LogReasoner в улучшении логических способностей LLM для задач лог-анализа. #### Значимость LogReasoner может применяться в различных лог-аналитических задачах, включая аномалию детектирования, предсказание сбоев и анализ устранения неполадок. Этот фреймворк предоставляет более точные рассуждения и улучшает общую эффективность LLM, что имеет потенциал для повышения эффективности мониторинга и диагностики сложных систем. #### Выводы Мы предлагаем LogReasoner как эффективный фреймворк для стимулирования логических способностей LLM в задачах лог-анализа. Наши результаты показывают, что LogReasoner значительно улучшает точность и эффективность рассуждений LLM. Будущие исследования будут сосредоточены на ра

Annotation:

Log analysis is crucial for monitoring system health and diagnosing failures in complex systems. Recent advances in large language models (LLMs) offer new opportunities for automated log analysis, leveraging their reasoning capabilities to perform tasks such as anomaly detection and failure prediction. However, general-purpose LLMs struggle to formulate structured reasoning workflows that align with expert cognition and deliver precise details of reasoning steps. To address these challenges, we ...

ID: 2509.20798v1 cs.AI, cs.SE

arXiv PDF

📄 RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

2025-09-24

Авторы:

Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang

## Контекст Развитие бо LARGE LANGUAGE MODELS (LLMs) в области программирования позволило эффективно решать задачи по функциональному и файловому уровню генерации кода. Однако создание полных репозиториев с нуля остается значительной проблемой. Этот процесс требует согласованного планирования на разных уровнях — предложении и реализации — в том числе с поддержкой сложных зависимостей, структур файлов и потоков данных. Недостаток естественных языков в терминах точности и сокращенности при представлении таких сложностей становится ключевой проблемой. Таким образом, вводится **Repository Planning Graph (RPG)** — универсальное, структурированное знание, которое соединяет планирование на уровне предложений и реализации в единой структуре. RPG предоставляет конкретное представление возможностей, структуры файлов, потоков данных и функций, позволяя улучшить планирование на долгосрочной основе и упростить генерацию репозиториев на большом масштабе. ## Метод RPG представляет собой улучшенное представление, которое построено на основе графов и использует экспериментальную модель для генерации репозитория. Метод строится на трех основных этапах: (1) **планирование на уровне предложений**, где RPG генерирует основу для инициализации репозитория, (2) **рефинирование на уровне реализации**, которое детализирует интерфейсы и функции, и (3) **графово-ориентированная генерация кода** с валидацией тестов. Это позволяет RPG выстроить связи между различными компонентами репозитория и обеспечить точную генерацию. Особенностью этого подхода является использование графа как основного средства планирования и контроля качества генерируемого кода. ## Результаты На основе RPG разработана модель **ZeroRepo**, которая успешно реализует подход к генерации репозиториев. В ходе экспериментов был создан и использован RepoCraft — бенчмарк, содержащий 1,052 задач для генерации репозиториев на основе реальных проектов. ZeroRepo показала следующие результаты: (1) **высокий уровень функционального покрытия** — 81.5%, (2) **высокая проходимость тестов** — 69.7%, (3) **сильное увеличение генерируемого кода** — 36K Code Lines, что примерно 3.9$\times$ выше сильнейшего базлайна (Claude Code) и 64$\times$ выше других моделей. Эти результаты подтверждают эффективность RPG в управлении сложными зависимостями и улучшении понимания LLMs в процессе генерации. ## Значимость ZeroRepo и RPG демонстрируют перспективу в области генерации репозиториев на большом масштабе. Они могут использоваться в различных сферах, включая **программное обеспечение с открытым кодом**, **создание корпорати

Annotation:

Large language models excel at function- and file-level code generation, yet generating complete repositories from scratch remains a fundamental challenge. This process demands coherent and reliable planning across proposal- and implementation-level stages, while natural language, due to its ambiguity and verbosity, is ill-suited for faithfully representing complex software structures. To address this, we introduce the Repository Planning Graph (RPG), a persistent representation that unifies pro...

ID: 2509.16198v2 cs.CL, cs.AI, cs.SE

arXiv PDF

📄 AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software

2025-09-24

Авторы:

Rui Yang, Michael Fu, Chakkrit Tantithamthavorn, Chetan Arora, Gunel Gulmammadova, Joey Chua

Исходные данные: **Название:** AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software **Авторы:** Rui Yang, Michael Fu, Chakkrit Tantithamthavorn, Chetan Arora, Gunel Gulmammadova, Joey Chua --- ## Контекст При развертывании Large Language Models (LLM) в реальных приложениях, гарантия безопасности и эффективности их использования является критически важной задачей. Несмотря на то, что LLMs обеспечивают мощные возможности для интеллектуальных интеракций, они также оставляют прослойку для возможности использования в злонамеренных целях. Например, jailbreak-атаки, в которых пользовательские запросы преднамеренно сформированы для обхода ограничений системы, могут привести к подрыву безопасности. До сих пор, существующие guardrails, предназначенные для фильтрации подозрительных запросов, сталкиваются с проблемами, такими как ограниченная обучаемость и неэффективность против новых атак. Это поднимает вопрос о необходимости создания adaptive guardrail, который может динамически адаптироваться к появляющимся угрозам. ## Метод AdaptiveGuard представляет собой кванторный подход к обеспечению безопасности в реальном времени для LLM-powered software. Он использует модели обнаружения Out-of-Distribution (OOD), чтобы идентифицировать неожиданные запросы, которые могут быть связаны с jailbreak-атаками. Ключевой особенностью является фреймворк для совершенствования системы в процессе ее использования. Это достигается через многоуровневую архитектуру, включающую нейронные сети для OOD-обнаружения и технологии continual learning для адаптации к новым угрозам. Технические решения включают в себя модели, которые могут быстро переучиваться на новые данные и применять эти изменения в реальном времени. ## Результаты В ходе экспериментов AdaptiveGuard показал высокую эффективность. Он обнаруживал 96% OOD-запросов, что значительно превышает результаты базовых моделей. Благодаря технологии continual learning, он адаптировался к новым атакам всего за два обновления. Эксперименты также показали, что после адаптации AdaptiveGuard сохранял более 85% F1-score на in-distribution запросах, что является высоким показателем среди остальных систем безопасности. Эти результаты демонстрируют то, что AdaptiveGuard может адаптироваться к новым угрозам, обеспечивая надежную защиту LLM-powered приложений. ## Значимость AdaptiveGuard может применяться в различных сферах, где LLMs используются, включая системы автоматизации, сервисы поддержки клиентов и даже безопасность информационных систем. Его главное преимущество заключается в уникальной способности адаптироваться к новым атакам без необходимости полной переустановки. Это не только повышает уровень безопасности но и сокращает время реагирования на новые угрозы. Потенциальное влияние AdaptiveGuard

Annotation:

Guardrails are critical for the safe deployment of Large Language Models (LLMs)-powered software. Unlike traditional rule-based systems with limited, predefined input-output spaces that inherently constrain unsafe behavior, LLMs enable open-ended, intelligent interactions--opening the door to jailbreak attacks through user inputs. Guardrails serve as a protective layer, filtering unsafe prompts before they reach the LLM. However, prior research shows that jailbreak attacks can still succeed over...

ID: 2509.16861v1 cs.CR, cs.AI, cs.SE

arXiv PDF

📄 RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

2025-09-23

Авторы:

Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang

## Контекст Репозиторий — это основной контейнер для хранения и управления программным кодом. Генерация репозитория с нуля требует не только функционального кода, но также структуры и архитектуры. Существующие системы, основанные на текстовых запросах, часто страдают от неполноты и несогласованности, так как зависят от естественного языка, который не всегда представляет собой надежный инструмент для представления сложных структур программного обеспечения. Эта проблема ограничивает возможности генерации репозиториев и требует новых подходов для более точного и структурированного планирования. ## Метод Репозиторий Planning Graph (RPG) представляет собой персистентное представление, которое сочетает в себе планирование на уровне предложений и реализации. RPG кодирует в себе как структурные элементы (такие как файлы, модули и их зависимости), так и функциональные аспекты (такие как данные и функции). Это представление позволяет легко передавать сложные структуры в графы, которые могут быть использованы для долгосрочного планирования. На основе RPG разработана ZeroRepo, система, которая применяет графы для пошагового планирования и генерации репозиториев. ZeroRepo включает в себя: 1. **Планирование на уровне предложений**: генерация структур данных и функционального кода в виде графа. 2. **Планирование на уровне реализации**: уточнение структуры и добавление деталей. 3. **Граф-движок**: использование графа для генерации кода и проверки функциональности. ## Результаты Для оценки ZeroRepo, авторы разработали RepoCraft — бенчмарк, содержащий 6 реальных проектов с 1052 задачами. Задачи включали в себя генерацию репозиториев размером почти 36К строк кода. Результаты показали, что ZeroRepo: - Генерирует репозитории, примерно 3.9 раз больше, чем сильнейший базовый алгоритм Claude Code. - Достигает 81.5% функционального покрытия, что превосходит Claude Code на 27.3%. - Демонстрирует высокую стабильность и точность, в том числе высокие показатели передачи тестов (69.7%). ## Значимость ZeroRepo и RPG могут применяться в сферах, требующих структурированной генерации программного кода на большом масштабе. Они позволяют создавать гибкие и корректные репозитории, обеспечивая прозрачность и надежность в процессе генерации. Эти технологии могут существенно ускорить развитие программного обеспечения, позволив генерировать полные репозитории с меньшими ошибками и более высокой скоростью. ## Выводы ZeroRepo демонстрирует выдающиеся результаты в генерации репозиториев с нуля. Он использует RPG для значительного улучшения точности и комплексности ген

Annotation:

ID: 2509.16198v1 cs.CL, cs.AI, cs.SE

arXiv PDF

Показано 41 - 50 из 72 записей