📚 Саммари научных статей из arXiv

Найдено 341 результатов по запросу 'cs.SE, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Benchmark Dataset Generation and Evaluation for Excel Formula Repair with LLMs

2025-08-19

Авторы:

Ananya Singha, Harshita Sahijwani, Walt Williams, Emmanuel Aboah Boateng, Nick Hausman, Miguel Di Luca, Keegan Choudhury, Chaya Binet, Vu Le, Tianwei Chen, Oryan Rokeah Chen, Sulaiman Vesal, Sadid Hasan

## Контекст Использование Excel широко распространено во всех сферах жизнедеятельности, но особенно часто встречается в офисных программах и анализе данных. Несмотря на это, Excel представляет собой сложное инструмент, которое часто вызывает проблемы для новичков. Ошибки в формулах могут привести к непредвиденным результатам или ошибкам в работе программы, которые трудно выявить и исправить. Большинство существующих систем помощи в редактировании формул ограничены в способности обеспечить качественное объяснение и автоматическое исправление этих ошибок. Это создает спрос на разработку методик, которые могли бы облегчить работу с Excel и увеличить его доступность. Наша исследовательская группа решилась справиться с этим вызовом, разработав новую методику генерации данных для обучения и оценки моделей. ## Метод Мы предлагаем новую систему для генерации данных для бенчмарка, которая позволяет синтезировать высококачественные примеры ошибок в формулах Excel. Мы начинаем с маленького набора данных, полученных из онлайн-форумов, и используем технологии глубокого обучения, чтобы расширить его. Наша методика включает в себя несколько этапов: простое создание примеров, проверка их качества с помощью моделей текстового понимания, и выполнение проверок для убеждения в правильности решения. Наша система также позволяет проверить не только синтаксический корректность, но и семантическую верность решения. Благодаря этому, мы получили бенчмарк, содержащий 618 высококачественных примеров различных ошибок, связанных с формулами в Excel. Кроме того, мы разработали контекст-автоматизированную модель для исправления формул, которая использует технологии LLMs для разбора и исправления формул в контексте рабочего листа. ## Результаты Мы провели ряд экспериментов, используя нашу новую модель и другие модели текстовых моделей, такие как GPT-4, Phi-3 и Mistral. Мы провели эксперименты с использованием наших выборок для проверки качества, точности и полноты решений. Модель, которую мы предлагаем, показала лучшие результаты на новом бенчмарке, сравниваясь с другими моделями. Мы также проверили качество наших данных с помощью ручного анализа, что позволило нам понять, какие ошибки и функции встречаются чаще всего в Excel. ## Значимость Наша работа имеет значительные приложения в области обучения и автоматизации процесса исправления ошибок в Excel. Мы предлагаем новый подход к генерации данных для обучения моделей, который может быть применен для разработки аналогичных бенчмарков для других низкоуровневых языков программирования. Мы также выделили преимущества нашей модели в том, что она может использовать

Annotation:

Excel is a pervasive yet often complex tool, particularly for novice users, where runtime errors arising from logical mistakes or misinterpretations of functions pose a significant challenge. While large language models (LLMs) offer promising assistance by explaining formula errors, the automated correction of these semantic runtime errors remains an open problem. A primary challenge to advancing models for such scenarios is the severe lack of high-quality, comprehensive datasets for training an...

ID: 2508.11715v1 cs.SE, cs.AI

arXiv PDF

📄 Rethinking Autonomy: Preventing Failures in AI-Driven Software Engineering

2025-08-19

Авторы:

Satyam Kumar Navneet, Joydeep Chandra

## Контекст Современное программирование сильно подверглось влиянию технологий искусственного интеллекта (ИИ), особенно благодаря развитию Больших Лингвистических Моделей (LLM). Они преобразовали кодержимость, обеспечивая высокую производительность путем применения промототехнологий и автономных агентов ИИ. Однако этот прогресс не без рисков. Автоматическое генерирование кода может привести к проблемам, таким как внедрение уязвимостей, сгенерированные либо неточные выводы, вредоносные действия, а также необходимость в транспарентности и ответственности. Проблемы такого рода могут привести к серьезным последствиям, как показал случай с Replit, когда автономная система повредила базу данных. Необходима систематическая научная работа по созданию механизмов безопасности и руководства, чтобы обеспечить безопасное и эффективное использование ИИ в программировании. ## Метод Для решения этих проблем мы предлагаем SAFE-AI Framework, который состоит из нескольких ключевых компонентов. Его основная методология включает в себя широкий спектр технических и прикладных методов. Включая: 1. **Создание гардрайлов** (guardrails), которые помогают устанавливать границы для генерируемого кода, предотвращая появление небезопасных или нежелательных действий. 2. **Использование сандбоксов** (sandboxing) во время выполнения, чтобы защитить программу от внешних воздействий или нежелательных последствий генерируемого кода. 3. **Риск-анализ и логирование**, предоставляющий возможность отслеживать и анализировать возможные риски в реальном времени. 4. **Гуман-и-ди-луп-системы** (human-in-the-loop), обеспечивающие взаимодействие с человеком для более точного контроля и улучшения результатов. 5. **Эксплаинабельность ИИ** (explainable AI), которая позволяет понять, почему ИИ пришел к определенному решению. Кроме того, мы предлагаем новую каталогизацию типов действий ИИ в четыре категории: **предложительные**, **генерирующие**, **автономные**, и **подрывные**, чтобы определить уровень автономии и рисков. ## Результаты Мы провели ряд экспериментов для оценки эффективности SAFE-AI Framework. Использовались различные данные, включая обучающие наборы, тесты и фактические сценарии разработки программного обеспечения. Результаты показали, что SAFE-AI Framework эффективно редуцирует риски, связанные с автономным программированием, такие как внедрение уязвимостей и неточные выводы. Особенно удачно показались такие аспекты, как внедрение гардрайлов и работа с гуман-и-ди-луп-системами. Также было замечено, что SAFE

Annotation:

The integration of Large Language Models (LLMs) into software engineering has revolutionized code generation, enabling unprecedented productivity through promptware and autonomous AI agents. However, this transformation introduces significant risks, including insecure code generation, hallucinated outputs, irreversible actions, and a lack of transparency and accountability. Incidents like the Replit database deletion underscore the urgent need for robust safety and governance mechanisms. This pa...

ID: 2508.11824v1 cs.SE, cs.AI, cs.CR, cs.PF

arXiv PDF

📄 AI-Augmented CI/CD Pipelines: From Code Commit to Production with Autonomous Decisions

2025-08-19

Авторы:

Mohammad Baqar, Saba Naqvi, Rajat Khanda

## Контекст Modern software delivery стала системой, где развертывания происходят несколько раз в день, а не раз в квартал. Однако существуют еще многочисленные ручные решения, которые остаются главными источниками задержек и рабочей нагрузки. Это обусловлено тем, что люди должны решать проблемы, такие как интерпретация flaky tests, выбор стратегии rollback, настройка feature flags и определение момента для продвижения canary. Эти решения требуют много времени и сопровождаются риском ошибок. Мы предлагаем AI-Augmented CI/CD Pipelines, где бо LLM и автономные агенты работают в качестве policy-bounded co-pilots, сначала помогая людям, а позже принимая решения самостоятельно. Наше исследование направлено на глубокое понимание и улучшение CI/CD-процессов, используя искусственный интеллект для устранения этих проблем и оптимизации рабочего процесса. ## Метод Мы предлагаем архитектуру, которая встраивает agentic decision points в CI/CD с помощью Больших Лингвистических Моделей (LLM) и автономных агентов. Эти агенты работают в составе системы, которая учитывает заранее определенные политики. Мы также предлагаем новую систему как код-за-политики, которая позволяет строить процессы решения в составе CI/CD. Была разработана многоуровневая система для стигматизации автономии, которая позволяет агентам постепенно принимать решения на разных этапах CI/CD. Мы использовали методы DevOps Research and Assessment (DORA) для оценки результатов и выделили индикаторы для эффективной оценки AI в CI/CD. Также, для проверки исследований, мы выполнили случайную моделирования индустрии, которая позволяла протестировать методы на реальных примерах. ## Результаты Мы провели серию экспериментов, посвященных оценке системы AI-Augmented CI/CD Pipelines. Мы использовали реальные данные из DevOps-процессов и оценили эффективность автономных агентов по мерам DORA, таким как Time to Restore Service (MTTR) и Deployment Frequency. Мы также оценили использование feature flags, rollback стратегии и производительность canary-развертываний. Результаты показали, что AI-Augmented CI/CD Pipelines могут существенно уменьшить задержки и улучшить производительность, в то же время повышая доверие к автономным решениям. ## Значимость Мы видим широкие области применения для AI-Augmented CI/CD Pipelines в производстве и сотрудничестве разработчиков. Это уменьшает время развертывания, улучшает качество кода, и увеличивает доверие в автономных решениях. Мощь этого подхода заключается в том, что он работает как граница между ручными решениями и автоматическими, то есть позволяет агентам принимать решения, когда это необходимо, а люди — только в случаях, когда это необходимо. Этот подход также может привести к более быстрому развитию систем, оптимизированным управлением решениями и уменьшению ошибок.

Annotation:

Modern software delivery has accelerated from quarterly releases to multiple deployments per day. While CI/CD tooling has matured, human decision points interpreting flaky tests, choosing rollback strategies, tuning feature flags, and deciding when to promote a canary remain major sources of latency and operational toil. We propose AI-Augmented CI/CD Pipelines, where large language models (LLMs) and autonomous agents act as policy-bounded co-pilots and progressively as decision makers. We contri...

ID: 2508.11867v1 cs.SE, cs.AI

arXiv PDF

📄 LinkAnchor: An Autonomous LLM-Based Agent for Issue-to-Commit Link Recovery

2025-08-19

Авторы:

Arshia Akhavan, Alireza Hosseinpour, Abbas Heydarnoori, Mehdi Keshani

## Контекст Область исследования связана с проблемами следимости и управления проектами в программном обеспечении. Задача связывания задач (issues) с коммитами (commits) является важной для обеспечения трассировки программного обеспечения и эффективного управления проектами. Несмотря на ее важность, восстановление связи между задачами и коммитами остается сложной задачей. На GitHub, лишь 42.2% задач связаны с корректными коммитами, что демонстрирует значительный потенциал для улучшения. Оптимальное решение этой проблемы может значительно повысить качество разработки программного обеспечения. ## Метод Методология LinkAnchor основывается на использовании бо LLM (Large Language Models). Этот подход использует архитектуру lazy-access, которая позволяет LLM динамически получать только самые актуальные контекстные данные, такие как коммиты, комментарии к задачам и код. Таким образом, LLM может работать с ограниченным контекстом, не ограничиваясь полным набором данных. Большая часть существующих методов работает с индивидуальными парами задач-коммитов, что неэффективно с учетом масштабов реальных репозиториев. LinkAnchor, напротив, автоматически определяет целевой коммит, избегая исчерпывающего поиска. ## Результаты В ходе экспериментов LinkAnchor был сравнен с текущими состоянием технологий в области связывания задач и коммитов. Использовались данные из реальных проектов на GitHub и Jira. Итоговые результаты показывают, что LinkAnchor превосходит состязающиеся методы, показывая значительные улучшения в Hit@1 score за счет точности и эффективности. Эти результаты демонстрируют значительное улучшение в сравнении с предыдущими подходами. ## Значимость LinkAnchor может применяться в различных сферах, включая проектное управление, трассировку программного обеспечения и системы управления репозиториями. Значительное преимущество LinkAnchor заключается в том, что он полностью автоматизирует процесс связывания задач и коммитов, что экономит время и улучшает точность. Его подход можно расширить на другие платформы, такие как GitLab или Bitbucket, что делает его широко применимым. ## Выводы LinkAnchor представляет собой новую модель для автоматизации связывания задач и коммитов в программном обеспечении. Он устанавливает новый стандарт в данной области, демонстрируя выдающиеся результаты в сравнении с состоянием технологий. Будущие исследования будут нацелены на расширение функциональности LinkAnchor и его применение в других платформах задачно-ориентированного программного обеспечения.

Annotation:

Issue-to-commit link recovery plays an important role in software traceability and improves project management. However, it remains a challenging task. A study on GitHub shows that only 42.2% of the issues are correctly linked to their commits. This highlights the potential for further development and research in this area. Existing studies have employed various AI/ML-based approaches, and with the recent development of large language models, researchers have leveraged LLMs to tackle this proble...

ID: 2508.12232v1 cs.SE, cs.AI

arXiv PDF

📄 "My productivity is boosted, but ..." Demystifying Users' Perception on AI Coding Assistants

2025-08-19

Авторы:

Yunbo Lyu, Zhou Yang, Jieke Shi, Jianming Chang, Yue Liu, David Lo

## Контекст В последние годы AI-кодинг-ассистенты, такие как GitHub Copilot, стали всё более популярными среди разработчиков. Они предлагают удобные инструменты для повышения производительности, помогая в писании кода, идентификации ошибок и развитии новых решений. Однако, несмотря на обширную администрацию, остаются многочисленные вопросы относительно того, что именно разработчики ожидают от таких инструментов и какие проблемы они сталкиваются при использовании. Недостаточное понимание этих аспектов может привести к неэффективному использованию и неудовлетворенности. Данная статья проверяет эти проблемы, основываясь на первых-лиценных отзывах разработчиков, чтобы получить более обоснованное понимание их нужд и ожиданий. ## Метод Исследование основывается на анализе 1,085 AI-кодинг-ассистентов, извлеченных из Visual Studio Code Marketplace. Хотя они составляют всего 1.64% всех расширений, их число стремительно растёт — более 90% были выпущены в течение последних двух лет. Для получения более глубоких пониманий взаимодействия пользователей с этими инструментами, авторы проводят ручной анализ отзывов от 32 популярных наборов. Они создают подробную категоризацию отзывов, охватывающую спектр взглядов пользователей, включая ожидания, удовлетворение и неудовлетворенность. Это позволяет получить детализированный обзор проблем, с которыми сталкиваются разработчики при использовании AI-кодинг-ассистентов. ## Результаты Основные полученные результаты показывают, что пользователи ожидают не только интеллектуальных подсказок, но и контекстно-ориентированных, настраиваемых и ресурсо-эффективных функций. Анализ отзывов выявил несколько ключевых проблем, включая несоответствия предлагаемых подсказок реальным потребностям пользователя, сложности в настройке инструментов и нехватку ресурсо-эффективности. Также выявлено, что некоторые пользователи выражают неудовлетворенность связанной с производительностью и надежностью инструментов. Эти результаты предоставляют полезные подсказки для улучшения AI-кодинг-ассистентов, чтобы они могли лучше соответствовать потребностям разработчиков. ## Значимость Результаты имеют значительное значение для разработчиков, производителей AI-инструментов и для общей индустрии программного обеспечения. Они открывают видимость в том, что разработчики не только нуждаются в интеллектуальных подсказах, но и в инструментах, которые могут быть легко настроены, контекстно-ориентированы и эффективны в использовании ресурсов. Эти полученные понятия могут помочь в развитии более эффективных и полезных AI-инструмен

Annotation:

This paper aims to explore fundamental questions in the era when AI coding assistants like GitHub Copilot are widely adopted: what do developers truly value and criticize in AI coding assistants, and what does this reveal about their needs and expectations in real-world software development? Unlike previous studies that conduct observational research in controlled and simulated environments, we analyze extensive, first-hand user reviews of AI coding assistants, which capture developers' authenti...

ID: 2508.12285v1 cs.SE, cs.AI, cs.HC

arXiv PDF

📄 Uncovering Systematic Failures of LLMs in Verifying Code Against Natural Language Specifications

2025-08-19

Авторы:

Haolin Jin, Huaming Chen

## Контекст Large language models (LLMs) широко применяются в программировании для задач, таких как создание кода, его проверка и анализ. Инженеры часто используют LLMs для проверки того, что код соответствует требованиям задач, что позволяет значительно повысить качество и надежность программного обеспечения. Однако недостаточно ясно, насколько эффективно LLMs справляются с такой задачей, так как оценивать соблюдение кода естественно-языковых спецификаций остается сложной задачей. Наши исследования показали, что LLMs могут достаточно часто ошибаться при работе с таким типом задач. Это может привести к серьезным недочетам в работе программного обеспечения. Мы видим следующую проблему: LLMs не всегда выполняются должным образом, а сложные техники подбора ответов в конечном итоге могут ухудшить результат. ## Метод Мы разработали и использовали процедуры для определения работоспособности LLMs в проверке кода на соответствие естественно-языковым спецификациям. Наши эксперименты основывались на различных стандартных бенчмарках и ситуациях. Мы использовали простые и сложные (с применением техник подбора ответов) управляющие запросы для выявления недостатков LLMs. Наш алгоритм был разработан с учетом возможности анализа потенциальных ошибок и их воспроизведения в различных сценариях. Мы также проанализировали корни проблемы и предложили стратегии для улучшения работы LLMs в такой области. ## Результаты Мы выявили, что LLMs часто неверно определяют соответствие кода требованиям, в том числе могут ошибиться, воспринимая правильный код за несоответствующий. Даже при использовании более сложных управляющих запросов, в том числе с применением техник подбора ответов, ситуация не улучшается. Наши результаты показывают, что необходимо значительно усовершенствовать технологии LLMs, чтобы они могли более точно оценивать соответствие кода требованиям. Мы также выявили, что некоторые типы ошибок возникают на ранних этапах, что может ухудшить общую надежность LLMs в этой области. ## Значимость Наши находки могут быть применены в различных сферах, включая автоматизацию кода, кодирование и анализ информационных систем. Мы показали, что LLMs могут стать более эффективными используя наши усовершенствованные методы, что может повысить качество программного обеспечения. Это также может повлиять на развитие новых систем, которые будут более точно оценивать код, и сделать его более надежным. ## Выводы Мы выявили системные недостатки LLMs в проверке кода на соответствие естественно-языковым требованиям. Наши результаты показывают, что более сложные методы управляющих запросов могут привести к большему количеств

Annotation:

Large language models (LLMs) have become essential tools in software development, widely used for requirements engineering, code generation and review tasks. Software engineers often rely on LLMs to assess whether system code implementation satisfy task requirements, thereby enhancing code robustness and accuracy. However, it remains unclear whether LLMs can reliably determine whether the code complies fully with the given task descriptions, which is usually natural language specifications. In t...

ID: 2508.12358v1 cs.SE, cs.AI

arXiv PDF

📄 Diffusion is a code repair operator and generator

2025-08-19

Авторы:

Mukul Singh, Gust Verbruggen, Vu Le, Sumit Gulwani

Оглавление: ## Контекст Код формируется как результат процесса, в котором разработчики решают проблемы, обращаются к документации и опыту, а также вносят ручные исправления. Однако возникает проблема: некоторые программы, особенно те, которые используются в бизнесе, недоработаны или повреждены. Эти недоработки могут привести к ошибкам или неполадкам в работе. Это проблема становится все актуальнее, если учитывать, что кроме реализации функциональности программы, разработчики должны учитывать безопасность, удобство и совместимость. Для решения этой проблемы в статье предлагается использовать diffusion model – модель, которая используется для генерации кода и выполнения операций по его модификации. ## Метод В статье предлагается использовать diffusion model, который генерирует код путем последовательного удаления шума из его закодированной представления. Этот процесс может быть использован для последнего этапа ремонта кода: когда наблюдаются малые изменения, которые могут исправить ошибки или недоработки. Для этого модель добавляет шум к неполному коду, а затем продолжает процесс генерации, пока код не будет исправлен. Кроме того, модель может использоваться для синтеза данных для последних этапов ремонта кода. В процессе генерации, модель может производить промежуточные программы, которые могут быть использованы для обучения моделей, выполняющих последние этапы ремонта кода. Это позволяет эффективно использовать ресурсы и сократить время обучения. ## Результаты В ходе исследования проводятся эксперименты на трех языках программирования: Python, Excel и PowerShell. Модель diffusion model используется для двух применений: код-ремонта и создания данных для обучения. Результаты показывают, что модель в состоянии исправить значительную часть недоработок в коде. Также она может сгенерировать данные для обучения моделей, которые используются для последнего этапа ремонта. Это делает процесс ремонта кода более эффективным и быстрым. Благодаря этому, модель может быть применена в различных сферах, где необходимо быстро и эффективно решать проблемы в коде. ## Значимость Результаты исследования показывают, что diffusion model может использоваться для решения сложной проблемы в области кодового ремонта. Эта модель имеет большой потенциал в различных сферах, где необходимо быстро и эффективно исправлять код. Это может быть применено в разработке программного обеспечения, в ИТ-отделах компаний, в сфере бизнес-приложений и многих других. Кроме того, модель позволяет эффективно использовать ресурсы, что делает процесс ремонта более удобным и быстрым. Это может привести к улучшению качества программного обеспечения и уменьшению времени, затрачива

Annotation:

Code diffusion models generate code by iteratively removing noise from the latent representation of a code snippet. During later steps of the diffusion process, when the code snippet has almost converged, differences between discrete representations of these snippets look like last-mile repairs applied to broken or incomplete code. We evaluate the extent to which this resemblance can be exploited to leverage pre-trained code diffusion models for the problem of last-mile repair by considering two...

ID: 2508.11110v1 cs.SE, cs.AI, cs.CL

arXiv PDF

📄 ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal

2025-08-19

Авторы:

Haonan Zhang, Dongxia Wang, Yi Liu, Kexin Chen, Jiashui Wang, Xinlei Ying, Long Liu, Wenhai Wang

## Контекст Large Language Models (LLMs) постоянно совершают ошибки в виде "over-refusal", то есть необоснованного отказа от обработки подозрительно безопасных запросов пользователей. Это проблема возникает из-за слишком утонченных мер безопасности, которые могут приводить к отказам даже в случае присутствия негативных последствий. Так как подобные ошибки могут серьёзно снижать надежность и пользовательский доверие к моделям, они являются критическим функциональным недостатком. На данный момент существуют ограниченные методы для тестирования такого поведения, так как тестирующие бенчмарки и генерация тестовых случаев остаются недостаточно эффективными. Наша работа является первой попыткой создания систематического подхода к обнаружению и анализу таких ошибок. ## Метод Мы предлагаем ORFuzz - первый развивающийся фреймворк для тестирования "over-refusal" в LLMs. Он включает три основных компонента: (1) выбор семян с учётом категорий безопасности для полного покрытия, (2) адаптивная оптимизация мутатора с применением логики логических моделей для произвольного генерирования тестовых случаев, и (3) OR-Judge - модель, которая подтверждена как близка к потребностям пользователя в определении токсичности и отказа. Предложенный подход позволяет генерировать разнообразные, проверенные случаи over-refusal, которые позволяют обнаруживать уязвимости в LLMs. ## Результаты Наши эксперименты показали, что ORFuzz способен генерировать значительно большее число тестовых случаев over-refusal по сравнению с текущими методами, благодаря использованию разнообразия семян и оптимизации логики. Мы обнаружили, что ORFuzz увеличивает среднюю процентную долю over-refusal в десяти разных LLMs до 6.98%, что значительно превышает результаты базовых методов. Благодаря этому, был создан ORFuzzSet - новый бенчмарк с 1,855 случаями over-refusal, который показал 63.56% успеха в тестах на 10 LLMs. Этот результат значительно превосходит существующие бенчмарки. ## Значимость Предложенный подход может быть применён в различных областях, где LLMs используются, таких как клиент-серверные системы, мобильные приложения и системы предсказания. ORFuzz является более продвинутым инструментом для обнаружения over-refusal, что помогает улучшить надежность и доверие к моделям. Мы считаем, что наша работа может способствовать развитию более надежных и пользователь-ориентированных систем на основе LLMs. ## Выводы ORFuzz является первым инструментом для систематического тестирования over-refusal в LLMs. Мы показали, что он способен генерировать более разнообразные и эффективные тестовые случаи, что позволяет обнаружить уязвимости. Мы предлагаем ORFu

Annotation:

Large Language Models (LLMs) increasingly exhibit over-refusal - erroneously rejecting benign queries due to overly conservative safety measures - a critical functional flaw that undermines their reliability and usability. Current methods for testing this behavior are demonstrably inadequate, suffering from flawed benchmarks and limited test generation capabilities, as highlighted by our empirical user study. To the best of our knowledge, this paper introduces the first evolutionary testing fram...

ID: 2508.11222v1 cs.SE, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 Hallucination in LLM-Based Code Generation: An Automotive Case Study

2025-08-19

Авторы:

Marc Pavel, Nenad Petrovic, Lukasz Mazur, Vahid Zolfaghari, Fengjunjie Pan, Alois Knoll

## Контекст Область искуственного интеллекта (ИИ) на протяжении многих лет была в первую очередь связана с автоматизацией простых задач, таких как обработка текста и вычисления. Однако со временем значительного развития технологий, ИИ начал применяться в более сложных и высокотехнологичных сферах, включая задачи автоматизации программирования. Одной из наиболее затратных и трудоемких задач, с которыми сталкиваются разработчики — это создание программного кода. Использование Large Language Models (LLMs), таких как GPT-4 и Codex, может реvolutionize процесс генерации кода, уменьшая сроки разработки и улучшая качество. Тем не менее, недостатком таких моделей является наличие ошибок, называемых hallucinations — это когда модель генерирует код, кажущийся правильным, но на самом деле содержит синтаксические ошибки, неверные ссылки или несоответствия спецификациям. В данной статье будет освещена проблема hallucinations в LLMs с применением к задачам кодогенерации в автомобильной индустрии, чтобы выявить особенности и потенциальные улучшения таких моделей в контексте сегмента автоматизации. ## Метод В рамках данного исследования были проведены эксперименты с использованием нескольких LLMs, включая GPT-4.1, Codex и GPT-4o. Для оценки качества генерируемого кода были разработаны три различных уровня сложности: 1. **Minimal Prompt**: Обычный одиночный запрос, без дополнительных контекста. 2. **Prompt with VSS Context**: Запрос, в котором добавлен контекст спецификаций Covesa Vehicle Signal Specification (VSS). 3. **Prompt with Code Skeleton**: Запрос, который включает в себя дополнительный код-скелет, определяющий структуру решения. Каждый LLM был испытан на этих уровнях сложности, и результаты были измерены на предмет количества синтаксических ошибок, неверных ссылок и несоответствия спецификациям. Эксперименты были проведены в среде с безопасностью и надежностью в виде автомобильной системы, чтобы выявить ошибки, которые могли бы привести к проблемам в действительности. ## Результаты Результаты экспериментов показали, что хотя LLMs еще имеют некоторые проблемы с генерацией кода, они все же могут быть эффективными при достаточном контексте. На простейшем уровне, где был использован только одиночный запрос, Codex и GPT-4o не смогли выдать корректный результат, а GPT-4.1 немного продвинулся, но не достиг совершенства. Однако, при добавлении VSS-контекста, GPT-4.1 и GPT-4o смогли сгенерировать корректный код, но такие результаты были достигнуты только после нескольких итераций и уточнений запроса. На самом высоком уровне сложности, где была использована дополнительная информация в виде кода-скелета, только GPT-4.1 и GPT-4o смо

Annotation:

Large Language Models (LLMs) have shown significant potential in automating code generation tasks offering new opportunities across software engineering domains. However, their practical application remains limited due to hallucinations - outputs that appear plausible but are factually incorrect, unverifiable or nonsensical. This paper investigates hallucination phenomena in the context of code generation with a specific focus on the automotive domain. A case study is presented that evaluates mu...

ID: 2508.11257v1 cs.SE, cs.AI

arXiv PDF

📄 Your Coding Intent is Secretly in the Context and You Should Deliberately Infer It Before Completion

2025-08-15

Авторы:

Yanzhou Li, Tianlin Li, Yiran Zhang, Shangqing Liu, Aishan Liu, Yang Liu

------------------------------------- ## Контекст ------------------------------------- Функциональность репозиториев с кодом постоянно растет, что делает важной задачу реализации функций с помощью л LLM (Large Language Models). Несмотря на то, что при наличии докстрингов (docstrings) модели показывают высокую точность, в реальных репозиториях такой информации часто недостаточно. Это приводит к снижению качества результатов. Наша модель адресует эту проблему, разбив задачу на три этапа: интент-инференс, интерактивная рефинементация, и генерация кода. Специфичен фреймворк при решении задачи, который позволяет лучше использовать контекстный код перед функцией. ------------------------------------- ## Метод ------------------------------------- Мы предлагаем трехэтапный подход. 1) **Интент-инференс**: Модель анализирует код перед функцией, ищет скрытые сигналы о приоритете. 2) **Интерактивная рефинементация**: Модель предлагает несколько вариантов интента, где пользователь может выбрать или отредактировать. 3) **Генерация кода**: По уточненному интенту LLM генерирует функцию. Мы используем 40,000 примеров с аннотированными рассуждениями и докстрингами для обучения. ------------------------------------- ## Результаты ------------------------------------- Мы проводили эксперименты на двух датасетах: DevEval и ComplexCodeEval. Наша модель показала до 20% относительного увеличения точности в сравнении с базовыми моделями, особенно при использовании интерактивного рефинемента. Также, люди, работавшие с нашим подходом, отзывались о повышении качества результатов в реальных сценариях. ------------------------------------- ## Значимость ------------------------------------- Наш подход может применяться в различных областях, где требуется точность реализации функций на основе контекста. Он улучшает качество генерации кода, особенно в ситуациях, когда документации недоступна. Кроме того, он может способствовать улучшению интеллектуальных систем разработки, например, в системах автоматизированной генерации кода. ------------------------------------- ## Выводы ------------------------------------- Мы представили многоэтапный подход, который позволяет моделям лучше использовать контекстный код. Мы получили заметные улучшения в точности генерации кода с использованием интерактивной рефинементации. Будущие исследования будут фокусироваться на расширении этого подхода для более сложных сценариев и улучшении его точности и работы в реальных условиях.

Annotation:

Large Language Models (LLMs) are increasingly used for function completion in repository-scale codebases. Prior studies demonstrate that when explicit instructions--such as docstrings--are provided, these models can generate highly accurate implementations. However, in real-world repositories, such annotations are frequently absent, and performance drops substantially without them. To address this gap, we frame the task as a three-stage process. The first stage focuses on intent inference, where...

ID: 2508.09537v1 cs.SE, cs.AI

arXiv PDF

1
2
29
30
31
32
33
34
35

Показано 301 - 310 из 341 записей