📚 Саммари научных статей из arXiv

Найдено 341 результатов по запросу 'cs.SE, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Learning to Generate Unit Test via Adversarial Reinforcement Learning

2025-09-02

Авторы:

Dongjun Lee, Changho Hwang, Kimin Lee

## Контекст В современной программировании unit testing является ключевым практикой, обеспечивающей систематическую оценку программных продуктов, разработанных людьми или генерируемых с помощью технологий глубокого обучения. Однако автоматизация создания высококачественных unit tests остается сложной задачей, требующей новых подходов. Авторы работы предлагают UTRL — фреймворк, использующий методы reinforcement learning для обучения моделей глубокого обучения на генерацию высококачественных unit tests. Это решение адресует проблему недостатка методов, позволяющих глубоким моделям генерировать эффективные unit tests, и может сократить время и усилия, потраченные на ручное создание тестов. ## Метод UTRL основывается на использовании двух моделей глубокого обучения, работающих в адверсарном режиме: Unit Test Generator (UTG) и Code Generator (CG). UTG обучается максимизировать discrimination reward, который определяется степенью того, насколько его тесты могут выявить ошибки в CG. CG, в свою очередь, максимизирует code reward, отражающий степень получения правильных решений, прошедших тесты UTG. Обучение происходит в рекуррентном режиме, что позволяет многократно улучшать качество генерируемых tests и solutions. ## Результаты Эксперименты проводились на подборе данных с разным уровнем сложности, включая простые и сложные задачи. Результаты показали, что Qwen3-4B, обученная с помощью UTRL, генерирует unit tests, которые показывают более высокую точность и качество в сравнении с supervised fine-tuning на human-written tests. Более того, Qwen3-4B с UTRL показала превосходство по качеству generated tests в параллельных экспериментах с GPT-4.1, указывая на высокую эффективность UTRL в обучении LLMs для unit testing. ## Значимость UTRL может применяться в области автоматизации тестирования и рефакторинга кода, повышая качество разработки и сокращая время, потраченное на ручное создание тестов. Также он открывает новые возможности для использования LLMs в процессе development, улучшая reliability и robustness программных решений. Этот подход может иметь потенциал для широкого применения в промышленной программной инженерии и создании самообучающихся тестовых систем. ## Выводы UTRL представляет собой перспективный подход к автоматизации создания unit tests, позволяя LLMs построить высококачественные тесты, которые более точно отражают реальные требования. Необходимы будут дополнительные исследования для оптимизации решений, интеграции UTRL в существующие toolchains и расширения его функциональности для поддержки более широкого спектра задач в программировании.

Annotation:

Unit testing is a core practice in programming, enabling systematic evaluation of programs produced by human developers or large language models (LLMs). Given the challenges in writing comprehensive unit tests, LLMs have been employed to automate test generation, yet methods for training LLMs to produce high-quality tests remain underexplored. In this work, we propose UTRL, a novel reinforcement learning framework that trains an LLM to generate high-quality unit tests given a programming instruc...

ID: 2508.21107v1 cs.SE, cs.AI

arXiv PDF

📄 The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management

2025-09-02

Авторы:

Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov

## Контекст Контекст управления — ключевая задача для машинных людей (LLM-based agents), которые решают сложные задачи через итеративное разумание, исследование и использование инструментов. Эти процессы часто приводят к длинным и дорогостоящим историям контекста. Многие современные SE-агенты, такие как OpenHands и Cursor, используют LLM-based summarization для управления контекстом. Однако неясно, действительно ли такой сложный подход дает более высокую эффективность и экономичность по сравнению с простым методом, где старые наблюдения игнорируются. Наша работа направлена на сравнение эффективности этих стратегий в системе SWE-agent на SWE-bench Verified. ## Метод Для сравнения LLM-based summarization и observation-masking мы использовали SWE-agent, который решает задачи на SWE-bench Verified. Мы проверили пять моделей: Qwen3-Coder 480B, Qwen3-Coder 120B, Qwen3-Coder 3B, Qwen3-Coder 2B и Qwen3-Coder 1.3B. Для каждой модели мы сравнили решаемую процентность задач при использовании обеих стратегий. Эксперименты проводились с использованием данных SWE-bench Verified, чтобы обеспечить последовательность и стандартность тестирования. ## Результаты Мы обнаружили, что метод observation-masking существенно экономит ресурсы по сравнению с LLM-based summarization. Например, в модели Qwen3-Coder 480B, метод masking увеличил решаемую процентность от 53.8% (при использовании raw agent) до 54.8%, при этом оставаясь конкурентоспособным с LLM summarization, но с значительно более низкими затратами. Другие модели показали аналогичный тренд. Эти результаты показали, что observation-masking не только эффективнее, но и экономичнее, чем LLM summarization в системе SWE-agent на SWE-bench Verified. ## Значимость Наши результаты имеют значение для развития SE-агентов, особенно в контексте управления контекстом. Мы показали, что простой подход observation-masking может быть как эффективнее, так и эффективнее LLM summarization в системе SWE-agent. Это открывает новые пути для улучшения производительности SE-агентов, уменьшая необходимые ресурсы и стоимость. Мы также открыли код и данные для достижения прозрачности и поддержки будущих исследований. ## Выводы Наши результаты показали, что observation-masking может быть эффективной и экономичной стратегией для управления контекстом в SE-агентах. Мы заключаем, что данный подход может быть применен в системах SE-agent для улучшения производительности и экономии ресурсов. В будущем направлены на продолжение исследований для уточнения и дополнения найденных результатов.

Annotation:

Large Language Model (LLM)-based agents solve complex tasks through iterative reasoning, exploration, and tool-use, a process that can result in long, expensive context histories. While state-of-the-art Software Engineering ( SE) agents like OpenHands or Cursor use LLM-based summarization to tackle this issue, it is unclear whether the increased complexity offers tangible performance benefits compared to simply omitting older observations. We present a systematic comparison of these strategies w...

ID: 2508.21433v1 cs.SE, cs.AI

arXiv PDF

📄 Boosting Skeleton-Driven SMT Solver Fuzzing by Leveraging LLM to Produce Formula Generators

2025-08-30

Авторы:

Maolin Sun, Yibiao Yang, Yuming Zhou

#### Контекст Satisfiability Modulo Theory (SMT) solvers являются ключевыми инструментами в области исследований по системам и программированию. Они лежат в основе таких задач, как символьное выполнение и автоматическая проверка. Их достоверность и качество тестовых формул, используемых для выявления ошибок, играют ключевую роль в обеспечении надежности этих систем. Однако современные SMT-решатели постоянно развиваются, что сильно усложняет создание качественных тестов. Ранее разработанные методы показали эффективность на более старых версиях систем, но не могут справиться с новыми функциями, добавляемыми в развивающиеся решатели. Данное исследование ориентировано на решение этой проблемы с помощью нового подхода, использующего Large Language Models (LLM) для генерации тестовых формул. #### Метод Предлагаемый подход, Chimera, представляет собой новую LLM-ориентированную стратегию для fuzzing SMT-решателей. Он отличается двумя основными инновациями. Во-первых, Chimera автоматически извлекает контекст-фри грамматики (CFG) из документации для SMT-теорий, включая расширения, специфичные для каждого способа. Во-вторых, Chimera использует генераторы логических выражений, генерируемые LLMs, для создания термов (логических выражений), которые соответствуют этим грамматикам. Эти термы последуют размещаться в уже существующие структурные шаблоны формул, чтобы обеспечить их синтаксическую корректность и нормативность. Этот подход снижает количество ложных срабатываний и позволяет держать высокую скорость генерации формул. Заметно, что Chimera использует LLMs только один раз в начале, чтобы сгенерировать грамматики, чтобы уменьшить накладные расходы на вычислительной мощности. #### Результаты За счет нового подхода, Chimera позволил выявить 43 багов в двух ведущих SMT-решателях: Z3 и cvc5. Из этих 43, 40 багов уже исправлены разработчиками. Эксперименты показали, что Chimera не только увеличил эффективность тестирования, но и повысил качество тестовых формул, при этом существенно сократив время вычислений. Таким образом, Chimera является эффективным инструментом для тестирования и совершенствования существующих SMT-решателей. #### Значимость Полученные результаты важны для многих областей, таких как формальные методы, автоматизированная проверка, и системы символьного вычисления. Улучшенные методы тестирования могут привести к более надежным и производительным системам. Благодаря инновационной интеграции LLMs, Chimera демонстрирует повышенную эффективность в проверке и генерации тестовых формул. Это позволяет

Annotation:

Satisfiability Modulo Theory (SMT) solvers are foundational to modern systems and programming languages research, providing the foundation for tasks like symbolic execution and automated verification. Because these solvers sit on the critical path, their correctness is essential, and high-quality test formulas are key to uncovering bugs. However, while prior testing techniques performed well on earlier solver versions, they struggle to keep pace with rapidly evolving features. Recent approaches ...

ID: 2508.20340v1 cs.SE, cs.AI, cs.PL

arXiv PDF

📄 Adaptive Root Cause Localization for Microservice Systems with Multi-Agent Recursion-of-Thought

2025-08-30

Авторы:

Lingzhe Zhang, Tong Jia, Kangjin Wang, Weijie Hong, Chiming Duan, Minghua He, Ying Li

## Контекст Contemporary microservice systems, состоящие из сотен или даже тысяч тонких, взаимосвязанных подсистем, становятся все более популярными и сложными. Эта сложность приводит к частым сбоям, что требует эффективных методов локализации корня проблемы для обеспечения надежности. Существующие методы локализации корня проблем часто требуют предварительно определенных схем, которые более трудно адаптируются к изменениям операционного контекста. Более того, многие из них не имеют понятного метода рассуждения, что затрудняет понимание результатов Site Reliability Engineers (SREs). Наша мотивация заключается в разработке метода, который будет использовать многоагентную стратегию раRE-CURSION-OF-THOUGHT для лучшего описания и адаптации к развивающимся системам. ## Метод Мы разработали метод локализации корня проблемы RCLAgent, который включает в себя новую стратегию многоагентного рассуждения. Метод использует несколько агентов, которые работают вместе с системой на основе технологий Large Language Models (LLM). RCLAgent использует многомерную модель рассуждения, что позволяет добиться более точного и эффективного локализации корня проблемы. Мы также интегрировали в RCLAgent инструменты анализа и средства для получения данных из разных источников, чтобы улучшить точность и скорость локализации. ## Результаты Мы провели испытания на нескольких общедоступных наборах данных, показав, что RCLAgent значительно превосходит состояние технологии. Метод достиг превышения в отношении точности и скорости локализации корня проблемы, предлагая решения после обработки одного запроса, в то время как другие методы требуют сбора данных из нескольких запросов. В результате, RCLAgent обеспечивает более быструю и точную локализацию корня проблемы, что позволяет SREs быстрее реагировать на сбои. ## Значимость Этот метод может быть применен в различных сферах, где требуется реакция на сбои и локализация корня проблемы в сложных системах. Эффективность и точность RCLAgent позволяют SREs более эффективно управлять сложными микросервисными системами. Мы видим возможности для будущих исследований в развитии методов, которые могут улучшить интерактивность и увеличить производительность в микросервисных средах. ## Выводы Мы представили RCLAgent, метод локализации корня проблемы для микросервисных систем, использующий новую стратегию многоагентного рассуждения. Эксперименты показали, что RCLAgent превышает состояние технологии в точности и скорости локализации корня проблемы. Этот метод имеет большой потенциал для улучшения обслуживания и надежности микросервисных систем. Мы планируем продолжить развитие м

Annotation:

As contemporary microservice systems become increasingly popular and complex-often comprising hundreds or even thousands of fine-grained, interdependent subsystems-they are facing more frequent failures. Ensuring system reliability thus demands accurate root cause localization. While traces and metrics have proven to be effective data sources for this task, existing methods either heavily rely on pre-defined schemas, which struggle to adapt to evolving operational contexts, or lack interpretabil...

ID: 2508.20370v1 cs.SE, cs.AI

arXiv PDF

📄 AI and Agile Software Development: A Research Roadmap from the XP2025 Workshop

2025-08-30

Авторы:

Zheying Zhang, Tomas Herda, Victoria Pichler, Pekka Abrahamsson, Geir K. Hanssen, Joshua Kerievsky, Alex Polyakov, Mohit Chandna, Marius Irgens, Kai-Kristian Kemell, Ayman Asad Khan, Crystal Kwok, Evan Leybourn, Munish Malik, Dorota Mleczko, Morteza Moalagh, Christopher Morales, Yuliia Pieskova, Daniel Planötscher, Mika Saari, Anastasiia Tkalich, Karl Josef Gstettner, Xiaofeng Wang

#### Контекст Современное программное обеспечение развивается в условиях постоянного изменения, требуя гибких подходов к разработке. Агильные методологии, такие как технология «eXtreme Programming (XP)», помогают управлять этой динамикой. Однако с распространением генеративных искусственных интеллектов (GenAI) возникают новые возможности и сложности. Ранее исследования отмечают проблемы в интеграции GenAI в агильные практики, включая несоответствие инструментов, ограниченные возможности управления и нехватку технических навыков. Эти проблемы приводят к нерешительности в применении GenAI в реальных проектах. Данная статья основывается на материалах XP2025-рабочей группы, сформированной для разработки конкретных решений и направлений в исследованиях по интеграции GenAI в агильную разработку программного обеспечения. #### Метод Рабочая группа XP2025 собрала более 30 экспертов из научных кругов и индустрии для структурированных рабочих сессий. Основной методологией было использование интерактивного метода структурированных брейк-аутов, направленных на выявление проблем и формирование решений. Темы рассматривались в трех основных направлениях: 1) технологические сложности (например, фрагментация инструментов и недостаточность готовых решений); 2) людские факторы (включая готовность лидеров и команд); 3) глобальные вопросы (например, создание отчисляемых решений). На основе этих дискуссий была сформирована комплексная карта исследований, охватывающая текущие проблемы и видение будущего. #### Результаты Из работы группы вы naaruсяли несколько ключевых выводов. Во-первых, участники подчеркли необходимость создания интегрированных средств для облегчения внедрения GenAI в процессы разработки. Во-вторых, были выявлены важные готовность команд к изменениям и значимость обучения в области AI-литературы и промышленного UX-дизайна. Третьим результатом стало выделение важности трансформации начинающихся агентов GenAI (например, промышленных исполнителей) в нотариов или специалистов по заявлению. Наконец, участники выделили необходимость создания новых методов ведения проектов, учитывающих уникальность GenAI. #### Значимость Результаты данной работы могут быть применены в различных областях, включая технологии GenAI, курсы по Agile-практикам и цифровые трансформации. Важность данных исследований заключается в том, что они помогают устранить барьеры в интеграции GenAI, повысить эффективность разработки программного обеспечения и создать устойчивые, центрируемые человеком решения. Эти достижения могут положительно

Annotation:

This paper synthesizes the key findings from a full-day XP2025 workshop on "AI and Agile: From Frustration to Success", held in Brugg-Windisch, Switzerland. The workshop brought together over 30 interdisciplinary academic researchers and industry practitioners to tackle the concrete challenges and emerging opportunities at the intersection of Generative Artificial Intelligence (GenAI) and agile software development. Through structured, interactive breakout sessions, participants identified share...

ID: 2508.20563v1 cs.SE, cs.AI

arXiv PDF

📄 Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol

2025-08-30

Авторы:

Wei Ma, Yixiao Yang, Qiang Hu, Shi Ying, Zhi Jin, Bo Du, Zhenchang Xing, Tianlin Li, Junjie Shi, Yang Liu, Linxiao Jiang

## Контекст В последние годы широко распространяются Л LМ (Large Language Models), превратившиеся из простых генераторов текстов в функциональные системы, обладающие открытым характером, открытым кодом, интерактивностью и возможностью интеграции с различными системами. Их применение распространяется на области, включая ответы на вопросы, разработку кода, исследования текстов, развлечения и другие. Несмотря на их потенциал, ЛЛМы вызывают немало затруднений в тестировании, поскольку встречаются проблемы с прозрачностью, повторяемостью, эффективностью и безопасностью. Настоящая работа исследует тестирование ЛЛМ, которое находится в процессе развития, и предлагает новую структуру тестирования, которая учитывает их особенности. ## Метод Для анализа и тестирования ЛЛМы разрабатывается новая методология, состоящая из трех основных слоев: **System Shell Layer**, **Prompt Orchestration Layer** и **LLM Inference Core**. Каждый из этих слоев имеет свою специфику и требует соответствующей тестовой методики. Для каждого слоя разрабатываются специальные тестирующие подходы и методы, позволяющие проверить работу ЛЛМ со всеми видами тестов (системных, интеграционных, приемочных и др.). Особое внимание уделяется проблемам, связанным с тестированием, разработкой и мониторингом ЛЛМ в рабочем окружении, чтобы обеспечить их надежность и безопасность в реальных условиях. ## Результаты Для тестирования ЛЛМы была проведена серия экспериментов, включая проверку работы моделей в условиях различных задач и сценариев. Использовались данные, полученные в рамках реальных проектов, чтобы проверить эффективность нового подхода. Отмечено, что применение методологии с тремя слоями позволяет удовлетворительно оценить работу ЛЛМы, определить слабые места и устранить их. Результаты показали, что такой подход эффективен в сокращении проблем, связанных с неоднородностью и неподвижностью моделей, а также в обеспечении их надежности в жизненном цикле. ## Значимость Разработанная методология имеет широкие применения в области тестирования и мониторинга ЛЛМ. Она позволяет улучшить качество использования систем ЛЛМ, обеспечить их надежность и эффективность в различных приложениях. Также, проведенный анализ и протокол тестирования могут быть использованы в разработке новых тестовых стратегий и систем, что даст возможность улучшить процессы в индустрии ЛЛМ. ## Выводы На основе проведенных исследований и тестов был разработан новый подход к тестированию ЛЛМ, включающий в себя три слоя и эффективные методы для обесп

Annotation:

Applications of Large Language Models~(LLMs) have evolved from simple text generators into complex software systems that integrate retrieval augmentation, tool invocation, and multi-turn interactions. Their inherent non-determinism, dynamism, and context dependence pose fundamental challenges for quality assurance. This paper decomposes LLM applications into a three-layer architecture: \textbf{\textit{System Shell Layer}}, \textbf{\textit{Prompt Orchestration Layer}}, and \textbf{\textit{LLM Inf...

ID: 2508.20737v1 cs.SE, cs.AI

arXiv PDF

📄 Generative AI for Testing of Autonomous Driving Systems: A Survey

2025-08-29

Авторы:

Qunying Song, He Ye, Mark Harman, Federica Sarro

## Контекст Тестирование автономных систем управления транспортными средствами (ADS) является критическим этапом их развития и развертывания в общественном транспорте. Несмотря на потенциал ADS в улучшении безопасности и производительности транспортных систем, гарантировать их безопасность и надежность в различных условиях дорожного движения остается вызовом. Традиционные методы тестирования часто являются рутинными и неэффективными в покрытии всех возможных сценариев. Генерирующая AI (Generative AI), благодаря способности интерпретировать контекст, решать сложные задачи и формировать разнообразные выводы, набирает важность в этой области как эффективное инструмент для создания реалистичных сценариев тестирования. Несмотря на свои преимущества, существуют ограничения в использовании генерирующей AI для тестирования ADS, что делает необходимым поглубже изучить ее применение и ограничения. ## Метод Главная идея исследования заключается в систематическом обзоре 91 статей, связанных с использованием генерирующей AI в тестировании ADS. Работа охватывает различные аспекты тестирования, включая сценарий-базированное тестирование, симуляции, метрики и бенчмарки. Авторы исследуют не только преимущества генерирующей AI, но и ее ограничения, несоответствия и слабые места. Для эффективного анализа, они разделили применение генерирующей AI на шесть ключевых категорий, таких как сценарий-базированное тестирование, обнаружение ошибок системы, разработка новых сценариев и оценка безопасности. Также проанализированы используемые данные, симуляторы, ADS, метрики и бенчмарки, чтобы выявить наиболее эффективные подходы и слабые места. ## Результаты Исследование выявило, что генерирующая AI эффективно используется для создания сценариев тестирования, в том числе реалистичных, которые могут помочь в обнаружении ошибок и проведении тестирования безопасности. Авторы также выделили 27 ограничений, в том числе проблемы в синтезе реалистичных данных, ограниченность моделей в охвате реальных сценариев, и несостоятельность в некоторых случаях. Они также обзорили широкий спектр данных, симуляторов и метрик, используемых в этих исследованиях, чтобы предоставить платформу для понимания и сравнения разных подходов. ## Значимость Полученные результаты могут быть применены в различных областях, включая развитие безопасных ADS, автоматизацию тестирования и создание новых сценариев. Этот обзор предоставляет полезные сведения для разработчиков ADS, тестировщиков и исследователей, помогая им выбирать наиболее

Annotation:

Autonomous driving systems (ADS) have been an active area of research, with the potential to deliver significant benefits to society. However, before large-scale deployment on public roads, extensive testing is necessary to validate their functionality and safety under diverse driving conditions. Therefore, different testing approaches are required, and achieving effective and efficient testing of ADS remains an open challenge. Recently, generative AI has emerged as a powerful tool across many d...

ID: 2508.19882v1 cs.SE, cs.AI

arXiv PDF

📄 LaQual: A Novel Framework for Automated Evaluation of LLM App Quality

2025-08-28

Авторы:

Yan Wang, Xinyi Hou, Yanjie Zhao, Weiguo Lin, Haoyu Wang, Junjun Si

#### Контекст LLM (Large Language Model) приложения получили широкое распространение в сферах, таких как создание контента, поддержка программирования, образовательные ресурсы и др. Создание LLM-приложений требует сложных навыков и ресурсов, что приводит к возникновению многочисленных проблем при их использовании. Одним из ключевых вопросов является качество приложений: в текущих магазинах приложений LLM трудно выделить качественные решения из многообразия вариантов. Классические методы рекомендаций основываются на статичных метриках, таких как число пользователей или количество добавлений в избранное, которые не всегда коррелируют с реальным качеством приложений. Это приводит к ограниченному возможностям пользователей найти наиболее подходящие приложения. Чтобы улучшить эту ситуацию, предлагается LaQual - автоматизированный фреймворк для оценки качества LLM-приложений. #### Метод LaQual предлагает трехэтапную модель оценки качества LLM-приложений. Первый этап заключается в ландшафтной картинке приложений и их классификации в соответствии с логическими сценариями, такими как образовательные приложения или инструменты для кодинга. Это позволяет точнее оценивать приложения в различных сценариях использования. Второй этап основывается на статических метриках, таких как временно-взвешенная активность пользователей и метрики функциональных возможностей. Эти метрики позволяют отфильтровать приложения с низким качеством. Третий этап включает сценарий-адаптивную оценку, в которой LLM-система сама сформировала метрики, правила сравнения и задачи для подробного анализа качества. Эта стратегия обеспечивает гибкость и адаптацию к различным сценариям. #### Результаты Эксперименты проводились на данных из одного из крупнейших магазинов приложений LLM. LaQual производила автоматическую оценку качества приложений, которая показала высокую корреляцию с оценками, даваемыми человеком. Например, в сфере юридического консультирования коэффициент Спирмена составил 0.62 (p=0.006), в сфере планирования путешествий - 0.60 (p=0.009). Было показано, что LaQual обеспечивает удаление 66.7% до 81.3% низкокачественных приложений, уменьшая трудности пользователей в поиске качественных решений. Дополнительные исследования показали, что эта система существенно повышает уверенность пользователей в своих выборах (от 3.30 до 5.45), улучшает эффективность сравнения и повышает оценку пользователей по качеству отчетов оценки (от 2.25 до 4.75). #### Значимость LaQual предлагает многочисленные преимущества для различных областей. Это может быть применено в магазинах приложений, в системах рекомендаций, в процессах вы

Annotation:

LLM app stores are quickly emerging as platforms that gather a wide range of intelligent applications based on LLMs, giving users many choices for content creation, coding support, education, and more. However, the current methods for ranking and recommending apps in these stores mostly rely on static metrics like user activity and favorites, which makes it hard for users to efficiently find high-quality apps. To address these challenges, we propose LaQual, an automated framework for evaluating ...

ID: 2508.18636v1 cs.SE, cs.AI

arXiv PDF

📄 GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging

2025-08-28

Авторы:

Ziyi Ni, Huacan Wang, Shuo Zhang, Shuo Lu, Ziyang He, Wang You, Zhenheng Tang, Yuntao Du, Bill Sun, Hongzhang Liu, Sen Hu, Ronghao Chen, Bo Li, Xin Li, Chen Hu, Binxing Jiao, Daxin Jiang, Pin Lyu

## Контекст В современном программном обеспечении, помимо основной разработки программного кода, крайне важно мочь использовать богатые ресурсы, такие как GitHub, для решения реальных проблем. Однако, существующие бенчмарки не уделяют достаточного внимания реальной рабочей области, в которой агенты должны решать задачи, вовлекающие целый цикл разработки. Эта ситуация создает пробел в развитии инструментов, которые могут анализировать и использовать код в реальных сценариях. Мы предлагаем GitTaskBench, новый бенчмарк, который стремится решить эту проблему, оценивая возможности агентов по работе с реальными репозиториями для решения сложных задач. ## Метод GitTaskBench состоит из 54 задач, разделенных на 7 модальностей и 7 тематических областей. Каждая задача включает в себя репозиторий с кодом и автоматизированное оценочное тестирование, определяющее успех по задаче. Мы также ввели метрику alpha-value, которая оценивает экономическую эффективность решения задачи в сочетании с успехом выполнения и затратами ресурсов. Эта метрика включает в себя успевшую выполненную работу, затраты на выполнение (в токенах) и средние зарплаты разработчиков. Мы выполнили эксперименты, используя три современных фреймворка для решения задач с различными моделями языковых моделей. ## Результаты Эксперименты показали, что даже самые удачные системы, такие как OpenHands+Claude 3.7, могут решить только 48.15% задач, а остальные 51.85% задач требуют большего внимания к деталям, таким как настройка среды и установка зависимостей. Мы провели анализ ошибок, определив, что более 50% ошибок связаны с этими небольшими, но критичными действиями, которые важны для успешного выполнения задачи. Эти результаты подчеркивают необходимость в развитии более глубокой рабочей модели и увеличении времени отклика. ## Значимость Помимо того, что GitTaskBench может использоваться для оценки возможностей агентов в решении реальных задач, он также может быть полезен для разработки новых методов, которые могут быть использованы в различных приложениях. Например, он может быть использован для улучшения рабочих процессов, увеличения точности решения задач и уменьшения времени разработки. Мы верим, что данный бенчмарк может способствовать развитию новых технологий, которые могут быть применены в настоящем. ## Выводы Мы представили GitTaskBench, новый бенчмарк для оценки возможностей решения реальных задач с использованием репозиториев кудавом кода. Мы показали, что данный бенчмарк может быть использован для тестирования и развития новых моделей, которые будут улучшать возможности решения задач в реальном мире. Мы определили некоторые затрудн

Annotation:

Beyond scratch coding, exploiting large-scale code repositories (e.g., GitHub) for practical tasks is vital in real-world software development, yet current benchmarks rarely evaluate code agents in such authentic, workflow-driven scenarios. To bridge this gap, we introduce GitTaskBench, a benchmark designed to systematically assess this capability via 54 realistic tasks across 7 modalities and 7 domains. Each task pairs a relevant repository with an automated, human-curated evaluation harness sp...

ID: 2508.18993v1 cs.SE, cs.AI

arXiv PDF

📄 CelloAI: Leveraging Large Language Models for HPC Software Development in High Energy Physics

2025-08-27

Авторы:

Mohammad Atif, Kriti Chopra, Ozgur Kilic, Tianle Wang, Zhihua Dong, Charles Leggett, Meifeng Lin, Paolo Calafiura, Salman Habib

## Контекст High Energy Physics (HEP) находится на переломном этапе развития, возникающем в связи с ростом требований к обработке и хранению данных, полученных в результате высокочастотных экспериментов. Этот бурный рост данных приводит к необходимости внедрения высокопроизводительных вычислений (HPC) в существующую инфраструктуру, в которой возникают новые сложности, такие как необходимость портирования устаревшего программного обеспечения на новые архитектуры и недостаточность документации, связанной с характером высокотехнологичных научных приложений. Эти проблемы ограничивают возможности эффективного использования HPC-технологий в HEP. Для решения этих задач необходим развитый инструментарий, который может упростить процессы документирования и генерации кода, а также помочь в понимании и модификации сложных научных приложений. ## Метод CelloAI — это локально развернутый кодинговый помощник, основанный на Large Language Models (LLMs), который использует технологию Retrieval-Augmented Generation (RAG) для поддержки документации и генерации кода в области теоретической физики. Архитектура CelloAI включает в себя несколько специализированных компонентов для различных задач. Для документации кода он предлагает: (a) генерацию комментариев в стиле Doxygen для функций и классов, (b) генерацию сводки по файлам, и (c) взаимодействие с интерактивным чатботом для запросов по пониманию кода. Для генерации кода CelloAI использует синтаксически ориентированные алгоритмы, которые сохраняют синтаксические границы во время задания входных данных, что улучшает точность восстановления в больших кодовых базах. Он также использует связанные с графами вызовов информацию для сохранения связности во время изменений. Локальное развертывание CelloAI обеспечивает безопасность данных, экономичность и доступ к большим контекстным окружениям без зависимостей от внешних систем. ## Результаты Чтобы оценить эффективность CelloAI, мы провели эксперименты с реальными приложениями HEP, в том числе с приложениями ATLAS, CMS и DUNE. Мы сравнили различные модели вставки для кода в целях выбора наиболее эффективной. Эксперименты показали, что восстановление кода с помощью CelloAI значительно улучшает понимание и поддержку кода. Также были протестированы возможности генерации кода, в том числе предложений для оптимизации производительности и рефакторинга. Результаты показали, что CelloAI обеспечивает надежную поддержку разработки кода, обеспечивая при этом полную прозрачность и безопасность, необходимые для научных приложений. ## Значимость CelloAI может быть применен в различных областях, где требуется поддержка генерации и документации кода в сложных науч

Annotation:

Next-generation High Energy Physics (HEP) experiments will generate unprecedented data volumes, necessitating High Performance Computing (HPC) integration alongside traditional high-throughput computing. However, HPC adoption in HEP is hindered by the challenge of porting legacy software to heterogeneous architectures and the sparse documentation of these complex scientific codebases. We present CelloAI, a locally hosted coding assistant that leverages Large Language Models (LLMs) with retrieval...

ID: 2508.16713v1 cs.SE, cs.AI, hep-ex

arXiv PDF

1
2
26
27
28
29
30
34
35

Показано 271 - 280 из 341 записей