📚 Саммари научных статей из arXiv

Найдено 72 результатов по запросу 'cs.AI, cs.SE' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Beyond Classification: Evaluating LLMs for Fine-Grained Automatic Malware Behavior Auditing

2025-09-20

Авторы:

Xinran Zheng, Xingzhi Qian, Yiling He, Shuo Yang, Lorenzo Cavallaro

## Контекст Автоматизированные методы классификации зловредных программ (malware) достигли высокой точности, но удовлетворяют не все потребности в области безопасности. На сегодняшний день, возникла необходимость в аудите поведения зловредных приложений, которая позволяет получить конкретные и доказываемые выводы о характере их действий. Эта задача становится сложной из-за того, что злоумышленники скрывают свои намерения в сложных фреймворках и приложениях, что делает ручной анализ дорогим и медленным процессом. Бо LLM могут стать помощником в этой области, но их потенциал в аудите поведения лайков остается мало исследованным. Это связано с тремя основными проблемами: недостаточность тонкой гранулярности в аннотациях, преобладанием безопасного кода, маскирующего зловредные сигналы, и недостаточной надёжности выводов LLMs, оказавшейся подверженной гипотезам. Для стандартизации и оценки потенциала LLMs в этой области был разработан MalEval — комплексный фреймворк для центровных аудитов Android-malware. ## Метод MalEval предлагает специально сконструированную экспертно подтверждённую базу данных, содержащую функциональные аудиторские отчеты и обновлённый список чувствительных API-интерфейсов, чтобы уменьшить неопределённость и улучшить качество обучающих данных. Для определенности и доказываемости результатов, MalEval представляет функциональные представления структуры функций в качестве интермедиате атрибуции. Он определяет 4 задачи, интересующие аналитиков: приоритетизацию функций, привлечение доказательств, синтез поведения, и дискриминацию примеров, с помощью доменно-специальных метрик и единой ориентированной метрики рабочей нагрузки. Этот фреймворк позволяет выполнять систематическую оценку семи широко используемых LLMs на курсированной выборке из современных зловредных приложений и неверно классифицированных безопасных приложений. ## Результаты Эксперименты проводились с использованием MalEval на данных относящихся к зловредным приложениям и неверно классифицированным безопасным приложениям. Оценены семь широко используемых LLMs, и их результаты были сравнены по созданным задачам и метрикам. Результаты показали, что хотя LLMs демонстрируют как удачные результаты, они также имеют серьёзные ограничения, особенно в сложных сценариях. Например, они демонстрируют высокую точность в функциональной атрибуции но слабо выполняют задачи глубокого анализа поведения. Эта систематическая оценка позволяет выявить преимущества и ограничения LLMs в области аудита поведения зловредных приложений. ## Значимость MalEval представляет собой

Annotation:

Automated malware classification has achieved strong detection performance. Yet, malware behavior auditing seeks causal and verifiable explanations of malicious activities -- essential not only to reveal what malware does but also to substantiate such claims with evidence. This task is challenging, as adversarial intent is often hidden within complex, framework-heavy applications, making manual auditing slow and costly. Large Language Models (LLMs) could help address this gap, but their auditing...

ID: 2509.14335v1 cs.CR, cs.AI, cs.SE

arXiv PDF

📄 InfraMind: A Novel Exploration-based GUI Agentic Framework for Mission-critical Industrial Management

2025-09-19

Авторы:

Liangtao Lin, Zhaomeng Zhu, Tianwei Zhang, Yonggang Wen

## Контекст Industrial management систем, таких как Data Centers, требуют высокоточного и надежного управления, чтобы обеспечить стабильную работу. Однако, сложность этих систем растет взаимосвязь с многопроизводительностью, высокими требованиями к надежности и ограниченным ресурсам экспертного персонала. Роботизированная процессная автоматизация (RPA), основанная на ручной настройке скриптов, часто ограничена в своей гибкости и требует высоких затрат на обслуживание. Новые технологии, основанные на Large Language Models (LLM), предлагают более гибкие решения для автоматизации, но сталкиваются с проблемами, такими как неопознаваемость элементов интерфейса, неточность выполнения задач, сложности с локализацией состояний и безопасностью приложений. Мы предлагаем InfraMind, расширенную платформу, которая адаптируется к этим вызовам и предлагает мощные методы для управления промышленными системами. ## Метод InfraMind является исследовательским фреймворком, основанным на exploration-based GUI, который сочетает в себе новые подходы для решения проблем в агентном управлении. Он включает 5 основных модулей: (1) систематический поиск-основанный exploration с виртуальными машинами для понимания интерфейса и автоматизированного определения элементов; (2) планирование на основе мемори-дривен, которое обеспечивает высокую точность и эффективность выполнения задач; (3) улучшенная идентификация состояний, позволяющая лучше локализоваться в сложных иерархических интерфейсах; (4) значительное уменьшение размера модели и увеличение эффективности в работе, используя structured knowledge distillation; (5) многоуровневые механизмы безопасности для защиты от ошибок и рисков в критичных операциях. ## Результаты Мы провели эксперименты с использованием open-source и commercial Data Center Infrastructure Management (DCIM) платформ. Наши результаты показывают, что InfraMind постоянно превышает существующие фреймворки по коэффициенту успешного выполнения задач и эффективностью работы. Это мощное и стабильное решение для автоматизации управления промышленными системами, которое позволяет повысить точность и эффективность в работе, а также уменьшить затраты на обслуживание. ## Значимость InfraMind предлагает широкие возможности в применении в различных сферах, таких как cloud computing, industrial IoT, и другие mission-critical operations. Его особенностью является гибкость, точность и безопасность в автоматизации, что делает его привлекательным для крупных компаний, использующих сложные системы управления. InfraMind может уменьшить количество ошибок, повысить эффективность и снизить трудозатраты на рутинные операции. Это дает возможность компаниям сосредоточиться на сложных задачах, а не на операцион

Annotation:

Mission-critical industrial infrastructure, such as data centers, increasingly depends on complex management software. Its operations, however, pose significant challenges due to the escalating system complexity, multi-vendor integration, and a shortage of expert operators. While Robotic Process Automation (RPA) offers partial automation through handcrafted scripts, it suffers from limited flexibility and high maintenance costs. Recent advances in Large Language Model (LLM)-based graphical user ...

ID: 2509.13704v1 cs.AI, cs.SE

arXiv PDF

📄 Out of Distribution Detection in Self-adaptive Robots with AI-powered Digital Twins

2025-09-18

Авторы:

Erblin Isaku, Hassan Sartaj, Shaukat Ali, Beatriz Sanguino, Tongtong Wang, Guoyuan Li, Houxiang Zhang, Thomas Peyrucain

#### Контекст Self-adaptive robots (SARs), работающие в сложных и неопределенных средах, должны активно обнаруживать и устранять аномальные поведения, включая случаи out-of-distribution (OOD). Это необходимо для поддержки устойчивости и надежности работы таких систем. Однако OOD-детекция в SARs представляет сложности ввиду нестандартности и неточности данных. Недостаточность существующих подходов включает неверное отображение OOD-событий, недостаточную интерпретируемость решений и проблемы с масштабируемостью. Эти проблемы могут привести к ограниченной точности детекции или неудачной самоадаптации. #### Метод Мы предлагаем ODiSAR (Out-of-Distribution Detection in SARs) — подход, основанный на digital twin-технологии. ODiSAR использует Transformer-based digital twin для прогнозирования состояний SAR и оценки неопределенности. Для детекции OOD-событий мы используем два ключевых показателя: reconstruction error и predictive variance. Эти показатели объединяются для выявления нестандартных поведений, даже в условиях, ранее не встречавшихся в обучении модели. Кроме того, ODiSAR включает explainability-layer, который связывает OOD-события с конкретными состояниями SAR, повышая прозрачность и поддержку самоадаптации. Мы описываем два сценария: навигация офисной средой и навигация водных транспортных средств. #### Результаты Мы проводили эксперименты для оценки ODiSAR, используя данные, собранные из двух индустриальных SAR: одного для офисной навигации, другого — для водных сред. Результаты показали высокую точность ODiSAR в детекции OOD-событий: AUROC — 98%, TNR@TPR95 — 96%, F1-score — 95%. Эти результаты указывают на эффективность подхода в прогнозировании OOD-событий без необходимости предварительного обучения на конкретных сценариях. Также ODiSAR обеспечивает понятные инсайды, помогающие в самоадаптации SAR. #### Значимость ODiSAR может быть применен в многих областях, где SARs оперируют в нестандартных или неизвестных условиях, включая robotics, maritime и industrial automation. Он предоставляет высокую точность детекции OOD, высокую интерпретируемость решений, а также масштабируемость. Это позволяет улучшить самоадаптацию и надежность SARs в различных сложных средах. #### Выводы ODiSAR достиг высокой точности в детекции OOD-событий в SARs и предоставил интерпретируемые результаты для самоадаптации. Наш подход показал свою эффективность в нескольких сценариях, подтвердив потенциал для улучшения доверия и точности SARs в неизвестных условиях. Будущие исследования будут фокусироваться на улучшении моделей digital twins, оптимизации методов детекции OOD и расширении применения ODiSAR к новым сложным средам.

Annotation:

Self-adaptive robots (SARs) in complex, uncertain environments must proactively detect and address abnormal behaviors, including out-of-distribution (OOD) cases. To this end, digital twins offer a valuable solution for OOD detection. Thus, we present a digital twin-based approach for OOD detection (ODiSAR) in SARs. ODiSAR uses a Transformer-based digital twin to forecast SAR states and employs reconstruction error and Monte Carlo dropout for uncertainty quantification. By combining reconstructio...

ID: 2509.12982v1 cs.RO, cs.AI, cs.SE

arXiv PDF

📄 SmartCoder-R1: Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization

2025-09-16

Авторы:

Lei Yu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Fengjun Zhang

#### Контекст Смарт-контракты — это автоматизированные программы, которые управляют высокоценными активами, и их неправильная реализация может привести к катастрофическим финансовым потерям. Эта сложность усиливается при использовании больших языковых моделей (LLMs), которые часто действуют как "черные ящики", не позволяя проанализировать их работу. Эти модели часто генерируют код с критическими уязвимостями, которые могут быть использованы злоумышленниками. Данная проблема мотивирует разработку новых методов, которые обеспечат безопасность и понятность смарт-контрактов. #### Метод Мы предлагаем фреймворк SmartCoder-R1, основанный на Qwen2.5-Coder-7B, для смарт-контрактов. Фреймворк включает три основные этапы. В первом этапе проводится **Continual Pre-training (CPT)**, направленный на усовершенствование модели для генерации кода. Затем используется **Long Chain-of-Thought Supervised Fine-Tuning (L-CoT SFT)** на основе 7,998 проверенных экспертом примеров рассуждений и кода для обучения модели выполнять безопасный код. На последнем этапе применяется **Security-Aware Group Relative Policy Optimization (S-GRPO)**, чтобы оптимизировать генерацию кода, учитывая безопасность, компиляцию и формат. #### Результаты На тестировании на 756 реальных функциях SmartCoder-R1 демонстрирует лучшие результаты по 5 ключевым показателям: ComPass (87.70%), VulRate (8.60%), SafeAval (80.16%), FuncRate (53.84%) и FullRate (50.53%). Наиболее критический FullRate показывает увеличение в 45.79% по сравнению с самым близким конкурентом. Более того, экспертные оценки показали высокое качество генерируемого кода в трех аспектах: функциональности (82.7%), безопасности (85.3%) и понятности (90.7%). #### Значимость Предложенный подход может быть применен в различных сферах, где требуется генерация безопасного и понятного кода, таких как финансовые системы, сети блокчейнов, и другие приложения, требующие высокой безопасности. Важность SmartCoder-R1 также заключается в том, что он обеспечивает прозрачный процесс рассуждений, что делает его более надежным и доступным для аудита и модификации. #### Выводы Результаты SmartCoder-R1 продемонстрировали высокую эффективность в решении проблем безопасности и понятности в генерации кода смарт-контрактов. Будущие исследования будут направлены на улучшение подхода, включая расширение обучающих данных, применение адаптивных методов оптимизации и исследование кросс-платформенной совместимости.

Annotation:

Smart contracts automate the management of high-value assets, where vulnerabilities can lead to catastrophic financial losses. This challenge is amplified in Large Language Models (LLMs) by two interconnected failures: they operate as unauditable "black boxes" lacking a transparent reasoning process, and consequently, generate code riddled with critical security vulnerabilities. To address both issues, we propose SmartCoder-R1 (based on Qwen2.5-Coder-7B), a novel framework for secure and explain...

ID: 2509.09942v1 cs.CR, cs.AI, cs.SE

arXiv PDF

📄 Componentization: Decomposing Monolithic LLM Responses into Manipulable Semantic Units

2025-09-12

Авторы:

Ryan Lingo, Rajeev Chhajer, Martin Arroyo, Luka Brkljacic, Ben Davis, Nithin Santhanam

## Контекст Огромные языковые модели (LLM) стали популярными в сфере технологий интеллектуального анализа текста, однако они усложняют взаимодействие в командных проектах, где необходимо редактировать ответы модели на разных уровнях. Традиционно, ответы модели являются монолитными текстами, не разделенными на манипулируемые подразделы. Это приводит к проблемам в проектировании и редактировании ответов в рабочих процессах. Требуется подход, разбивающий ответы модели на манипулируемые подразделы, при этом сохраняя контекст и краткость. Наша мотивация заключается в создании подхода, который позволит активно редактировать ответы модели, комбинируя его с рабочими процессами и улучшая производительность командных проектов. ## Метод Мы предлагаем **Модульно-Адаптивную Архитектуру Декомпозиции Ответов** (MAOD), которая разделяет ответы модели на отдельные, манипулируемые модули, сохраняя их семантическое согласованность. Для реализации этого подхода мы разрабатываем **Архитектуру Ответов на основе Компонентов (CBRA)**. Эта архитектура включает в себя: - **Микросервисное Дизайн**, позволяющее реализовать раздел ответов на отдельные компоненты. - **Вендорно-Независимые Адаптеры** для моделей, которые позволяют работать с разными языковыми моделями. - **Агент-для-Агентного Рабочего Протокол**, который разделяет ответ на отдельные компоненты и взаимодействует с ними реалитингом рекомпозиции. Выделяются две основные части: 1. **Декомпозиционные Агенты**, которые создают модули ответа. 2. **Рекомпозиционные Агенты**, которые складывают модули обратно в собственный ответ. ## Результаты Мы проводим исследование с участием четырех участников, работающих в области продуктов, инженерии и научного исследования. Участники были задействованы в опыте, где они должныли редактировать ответы модели с помощью нашей системы. Обнаружено, что разделение ответов на модули упрощает процесс редактирования, позволяет более эффективно работать с ответами и использовать их в разных контекстах. Мы также выявили, что модульная структура ответов позволяет упростить работу в командных проектах, где необходимо редактировать ответы в разных сценариях. ## Значимость Мы считаем, что наша разработка может быть применена в различных областях, таких как продуктовое проектирование, инженерия, проекты с открытым кодом, где требуется быстрая редактирования и рекомпозиция ответов модели. Модульный подход позволяет: - Увеличить производительность командных проектов. - Быстрее редактировать и повторно использовать ответы модели. - Облегчить взаимодействи

Annotation:

Large Language Models (LLMs) often produce monolithic text that is hard to edit in parts, which can slow down collaborative workflows. We present componentization, an approach that decomposes model outputs into modular, independently editable units while preserving context. We describe Modular and Adaptable Output Decomposition (MAOD), which segments responses into coherent components and maintains links among them, and we outline the Component-Based Response Architecture (CBRA) as one way to im...

ID: 2509.08203v1 cs.HC, cs.AI, cs.SE, I.2.7; H.5.2

arXiv PDF

📄 Disentangling the schema turn: Restoring the information base to conceptual modelling

2025-09-05

Авторы:

Chris Partridge, Andrew Mitchell, Sergio de Cesare, Oscar Xiberta Soto

## Контекст В современных практиках разработки концептуальных моделей в компьютерных науках существует сильное, почти универсальное предпочтение к концептуальным схемам. Эти схемы часто называются просто концептуальными моделями, что демонстрирует сильное схема-центричное стремление. Этот подход является кристаллизацией почти вездесущей тенденции в популярных учебниках по базам данных. Буквально "перемотка", которую мы обозначили как "schema turn", представляет собой сильное уделение внимания концептуальным схемам в полном отрезании от информационной базы. Такой подход породил широко распространенные практики в концептуальной моделировании, но при этом привел к лишению внимания важному компоненту — информационной базе. Цель нашего исследования заключается в разъяснении происхождения этого подхода, показании того, что он не является фундаментальным, и позволении внедрению более всеобъемлющего подхода, который включает обе стороны — схему и её информационную базу. Это позволит улучшить автоматизацию и глубину исследований в области концептуального моделирования. ## Метод Мы предлагаем рассмотреть концептуальное моделирование как систему, включающую концептуальную схему и информационную базу, и рассматривать их как интегрированные, но различные, компоненты. Для достижения этой цели мы используем методологию, основанную на новой технологии — bCLEARer. Эта технология представляет собой pipeline-based conceptual modelling, которая позволяет автоматизировать процесс моделирования с учетом обоих компонентов. Мы используем bCLEARer для продemonстрации возможностей этого нового подхода, демонстрируя, как он может быть применен в различных контекстах. Также, мы проводим эксперименты с различными данными, показывая, как этот подход может быть применен в реальных ситуациях, чтобы получить более точные и эффективные результаты. ## Результаты Мы провели ряд экспериментов, используя различные наборы данных, включая как синтетические, так и реальные. Наши результаты показали, что применение pipeline-based conceptual modelling позволяет более точно отразить информационную базу в концептуальной модели, что в свою очередь улучшает качество моделирования. Мы также проанализировали влияние различных параметров на результаты и показали, что наша методология может значительно повысить точность и объём данных, которые могут быть включены в модель. Эксперименты также показали, что bCLEARer может быть применен в различных сценариях, включая те, где информационная база является очень объёмной и сложной. ## Значимость Результаты нашего исследования имеют зна

Annotation:

If one looks at contemporary mainstream development practices for conceptual modelling in computer science, these so clearly focus on a conceptual schema completely separated from its information base that the conceptual schema is often just called the conceptual model. These schema-centric practices are crystallized in almost every database textbook. We call this strong, almost universal, bias towards conceptual schemas the schema turn. The focus of this paper is on disentangling this turn with...

ID: 2509.01617v1 cs.DB, cs.AI, cs.SE, D.2.10

arXiv PDF

📄 When Agents go Astray: Course-Correcting SWE Agents with PRMs

2025-09-05

Авторы:

Shubham Gandhi, Jason Tsay, Jatin Ganhotra, Kiran Kate, Yara Rizk

#################### ## Контекст #################### Подробное описание области исследования, существующих проблем и мотивации На данный момент, большинство Large Language Model (LLM) agent'ов используются для решения сложных задач в области software engineering (SWE). Однако, их работа часто характеризуется неэффективностью: повторные эксперименты, зацикливания и невозможность остановиться после достижения решения. Эти проблемы становятся еще более заметными при работе с задачами, требующими нескольких шагов. Попытки решения этой проблемы, в основном, ограничиваются пост-решательным анализом: проблемы выявляются только после завершения работы. Это приводит к потере времени и ресурсов, поскольку ошибки могут быть выявлены только после неудачного завершения задачи. Мы предлагаем SWE-PRM — модель PRM, работающую во время выполнения, которая вводится в конечный этап работы модели. PRM использует широкую категоризацию распространенных неэффективностей и предлагает способы их корректировки. Это решение позволяет предотвратить ошибки на ранней стадии и улучшить эффективность работы модели. #################### ## Метод #################### Детальное описание методологии, технических решений и архитектуры Мы представляем SWE-PRM, модель, которая работает во время выполнения и использует Process Reward Model (PRM) для мониторинга и корректировки траектории работы LLM agent'а в реальном времени. Ее основным элементом является таксономия распространенных неэффективностей, таких как зацикливание, ненужное исследование и невозможность остановиться после достижения решения. SWE-PRM использует данные, полученные на протяжении работы модели, и проверяет ее на соответствие установленным критериям. Если выявляются неэффективности, модель предлагает корректировки, которые могут включать изменение направления работы или остановку некоторых действий. Такой подход позволяет минимизировать потери времени и ресурсов, связанные с необходимостью запускать задачу заново. Кроме того, SWE-PRM предоставляет интерпретируемую обратную связь, которая может быть использована для дальнейшего понимания и улучшения моделей. #################### ## Результаты #################### Описание экспериментов, используемых данных и полученных результатов Мы проводили эксперименты на SWE-Bench Verified, используя закрытые системы PRM. Результаты показывают, что SWE-PRM улучшает результаты работы моделей: с 40.0% до 50.6% на задачах средней и трудной сложности. Это подтверждает эффективность PRM в предотвращении неэффективных действий и уменьшении требуемого времени. Мы также проверили различные стратегии обратной связи. Таксономические PRM вы mosterred the best performance, снизив стоимость выполнения задачи и увеличив успешность ра

Annotation:

Large Language Model (LLM) agents are increasingly deployed for complex, multi-step software engineering (SWE) tasks. However, their trajectories often contain costly inefficiencies, such as redundant exploration, looping, and failure to terminate once a solution is reached. Prior work has largely treated these errors in a post-hoc manner, diagnosing failures only after execution. In this paper, we introduce SWE-PRM, an inference-time Process Reward Model (PRM) that intervenes during execution t...

ID: 2509.02360v1 cs.AI, cs.SE

arXiv PDF

📄 Poisoned at Scale: A Scalable Audit Uncovers Hidden Scam Endpoints in Production LLMs

2025-09-05

Авторы:

Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

## Контекст Large Language Models (LLMs) широко применяются в сферах, таких как кодирование, документация, и трансляция языка. Однако их обучение на основе интернет-данных создает опасность поглощения и воспроизведения вредоносного контента. Это не только опасно для пользователей, но и может привести к значительным финансовым и безопасностным потерям. Несмотря на значительные усилия, поддерживающие создание этих моделей, существуют сомнения в их безопасности. Целью этой работы является оценка уровня подверженности LLMs к атакам через вредоносный контент в их обучающих данных. ## Метод Для оценки проблемы был разработан автоматизированный фреймворк, который использует шаблоны проверочных запросов, созданных на основе знакомых баз данных мошеннических сайтов. Эти запросы были поданы в качестве входных данных для 4 популярных LLMs: GPT-4o, GPT-4o-mini, Llama-4-Scout, и DeepSeek-V3. Цель заключалась в определении вероятности возникновения вредоносного кода в программах, сгенерированных этими моделями. Набор данных для экспериментов состоял из синтетических проверочных запросов, отфильтрованных из баз данных мошеннических сайтов. Эксперименты проводились в реальных условиях, чтобы оценить точность и работу моделей на практике. ## Результаты Опытные результаты показали, что все тестируемые модели генерируют вредоносный код в ответ на гуманных-стилевые запросы, сгенерированные с помощью автоматического фреймворка. Общая статистическая ошибка составила 4.2%, что значительно превышает допустимую погрешность для безопасных систем. Были определены 177 невинных запросов, которые вызвали воспроизведение вредоносного кода во всех тестируемых моделях. Эти результаты подтверждают, что LLMs жертвы масштабного токсического обучения, что может привести к возникновению безопасностных уязвимостей. ## Значимость Результаты этого исследования имеют большую полезность в различных областях. В первую очередь, они могут быть использованы для создания безопасных систем обработки текста, которые будут отказываться от вывода потенциально вредоносных выражений. Во вторую очередь, они могут помочь в разработке методов, которые будут автоматически фильтровать потенциально опасные выходы моделей. Эти инновации могут быть применены в сферах, таких как системы безопасности, финансовые системы и даже образовательные системы, где использование LLMs является критичным. Уменьшение риска порождения вредоносного кода может иметь значительное влияние на уровень безопасности и доверия к LLMs в различных приложениях. ## Выводы Результаты исследования являются си

Annotation:

Large Language Models (LLMs) have become critical to modern software development, but their reliance on internet datasets for training introduces a significant security risk: the absorption and reproduction of malicious content. To evaluate this threat, this paper introduces a scalable, automated audit framework that synthesizes innocuous, developer-style prompts from known scam databases to query production LLMs and determine if they generate code containing harmful URLs. We conducted a large-s...

ID: 2509.02372v1 cs.CR, cs.AI, cs.SE

arXiv PDF

📄 app.build: A Production Framework for Scaling Agentic Prompt-to-App Generation with Environment Scaffolding

2025-09-05

Авторы:

Evgenii Kniazev, Arseny Kravchenko, Igor Rekun, James Broadhead, Nikita Shamgunov, Pranav Sah, Pratik Nichite, Ivan Yamshchikov

################################# ## Контекст ################################# Современные приложения, основанные на генерируемых с помощью глубоких узнавательных моделей (LLM), требуют значительных усилий для их надежной и эффективной реализации. Основные проблемы включают несоответствие тестового кода производственным системам, отсутствие спецификации для различных стеков технологий и неэффективные методы проверки и интеграции. Эти проблемы приводят к высокой стоимости развития, недостаточной надежности приложений и низкой производительности. Наша мотивация заключается в создании фреймворка, который мог бы упростить и улучшить процесс генерации и развертывания LLM-based приложений, обеспечив более надежные и эффективные решения. ################################# ## Метод ################################# Мы предлагаем app.build, открытый фреймворк для улучшения генерирования и развертывания приложений с использованием глубоких узнавательных моделей. Основные компоненты фреймворка включают: 1. **Многоуровневая проверка**: Основываясь на многоуровневых валидационных конвейерах, мы проверяем код на соответствие стандартам и задаче, а также проводим проверку подключения к системным компонентам. 2. **Структурированные среды**: Мы предоставляем специально сконфигурированные среды для различных стеков технологий, которые помогают сократить время развертывания и уменьшить ошибки. 3. **Модель-агностичная архитектура**: Наша система может работать со многими глубокими узнавательными моделями, обеспечивая гибкость и легкость внедрения. 4. **Оркестрация стека**: Мы оркестрируем различные стеки технологий, используя специальные контейнеры, которые позволяют эффективно связывать приложения с системными ресурсами. ################################# ## Результаты ################################# Мы провели эксперименты на 30 задачах генерации приложений, используя данные из различных стеков технологий. Наши результаты показывают, что: - **Валидационная система**: Мы достигли 73.3% валидных результатов, с 30% решений, достигших идеального качества. - **Открытые модели**: Модели с открытым весом показали 80.8% производительности по сравнению с закрытыми моделями, когда использовались структурированные среды. - **Производительность**: Мы также отметили существенное увеличение скорости развертывания и надежности приложений благодаря использованию структурированных сред и валидационных конвейеров. Эти результаты демонстрируют, что наш фреймворк может значительно улучшить производительность и надежность генерируемых приложений. ################################# ## Значимость ################################# app.build может быть применен в различных областях, где требуется быстрая генерация и развертывание приложений на основе глубоких узнавательных мо

Annotation:

We present app.build (https://github.com/appdotbuild/agent/), an open-source framework that improves LLM-based application generation through systematic validation and structured environments. Our approach combines multi-layered validation pipelines, stack-specific orchestration, and model-agnostic architecture, implemented across three reference stacks. Through evaluation on 30 generation tasks, we demonstrate that comprehensive validation achieves 73.3% viability rate with 30% reaching perfect...

ID: 2509.03310v1 cs.AI, cs.SE

arXiv PDF

📄 Locus: Agentic Predicate Synthesis for Directed Fuzzing

2025-09-02

Авторы:

Jie Zhu, Chihao Shen, Ziyang Li, Jiahao Yu, Yizheng Chen, Kexin Pei

## Контекст Область исследования дирижируемого fuzzing направлена на нахождение входных данных, приводящих программу к конкретным целевым состояниям. Эта задача имеет широкое применение, в том числе в дебаггинге системных ошибок, подтверждении сообщенных багов и генерировании эксплоитов для уязвимостей. Однако она представляет собой значительные трудности из-за того, что целевые состояния часто характеризуются сложной иерархией, а пространство поиска, состоящее из множества возможных входных данных, является очень объемным. Большинство существующих подходов опираются на меры расстояний между ветвлениями или на ручную спецификацию ограничений, чтобы управлять поиском. Однако эти методы недостаточно точны в оценке прогресса поиска или требуют идентификации конкретных типов багов, что снижает их общедоступность. ## Метод Locus предлагает новую модель синтеза подстрочных условий для более точного определения прогресса в fuzzing. Архитектура построена на агентном фреймворке, в котором инструменты анализа программного кода автоматически генерируют и последовательно уточняют подходящие условия. Чтобы предотвратить ложные отвергания, система использует символьный эксперимент для точного определения целевых состояний. Это позволяет значительно увеличить эффективность fuzzing, сузив поисковое пространство и предоставляя дополнительное руководство для оптимизации. ## Результаты В ходе экспериментов на данных реальных программных систем, Locus продемонстрировал существенную эффективность. Он ускорил работу стандартных алгоритмов fuzzing на 41.6 раз в среднем, позволив открыть восемь новых багов, один из которых уже принят для исправления. Это доказывает широкую применимость Locus в различных сценариях, включая исправление системных ошибок и снижение рисков безопасности. ## Значимость Locus может применяться в различных технологических сферах, включая безопасность ПО, оптимизацию систем и разработку сложных программных структур. Его преимущество заключается в увеличении точности и скорости поиска уязвимостей, а также в способности адаптироваться к различным программам и типам багов. Это может существенно повлиять на общую эффективность и надежность программных систем. ## Выводы Locus является прорывом в области fuzzing, существенно улучшая его эффективность и гибкость. Будущие исследования будут направлены на усовершенствование агентного подхода и расширение его применения в более широких сферах ИТ-технологий.

Annotation:

Directed fuzzing aims to find program inputs that lead to specified target program states. It has broad applications, such as debugging system crashes, confirming reported bugs, and generating exploits for potential vulnerabilities. This task is inherently challenging because target states are often deeply nested in the program, while the search space manifested by numerous possible program inputs is prohibitively large. Existing approaches rely on branch distances or manually-specified constrai...

ID: 2508.21302v1 cs.CR, cs.AI, cs.SE

arXiv PDF

1
2
4
5
6
7
8

Показано 51 - 60 из 72 записей