📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Intuition to Evidence: Measuring AI's True Impact on Developer Productivity

2025-09-26

Авторы:

Anand Kumar, Vishal Khare, Deepak Sharma, Satyam Kumar, Vijay Saini, Anshul Yadav, Sachendra Jain, Ankit Rana, Pratham Verma, Vaibhav Meena, Avinash Edubilli

## Контекст Область исследования — эффективность интеграции искусственного интеллекта (ИИ) в процессы разработки программного обеспечения (ПО) в реальных условиях. Существующие проблемы включают недостаточность широкомасштабных, реального мира экспериментов в оценке значимости ИИ-инструментов, а также неполное понимание их длительных эффектов на разработчиков. Мотивация заключается в том, чтобы предоставить статистически значимые доказательства того, насколько ИИ-инструменты могут улучшать производительность разработчиков в реальных корпоративных условиях. ## Метод Исследование основывается на многолетнем реальном использовании ИИ-инструмента "DeputyDev", который объединяет генерацию кода и автоматический рецензирований в одном платформе. Данные для экспериментов были собраны с помощью лонгитудинального описания работ 300 разработчиков в нескольких командах за год. Методы исследования включали в себя анализ потоков работы, опросы удовлетворенности, а также теоретический анализ производительности. Техническая архитектура системы DeputyDev основывалась на машинном обучении, специально адаптированном для контекста разработки ПО. ## Результаты Исследование показало, что интеграция "DeputyDev" привела к существенным улучшениям. Основной показатель — снижение времени цикла обзора pull-request (PR) на 31,8%. Участники проявили высокий уровень удовлетворенности: 85% заявили о довольности с функционалом кода, а 93% желали продолжать использовать систему. Объем кода, отправленного в продакшн, увеличился на 61% у тех, кто часто использовал ИИ-инструменты. Это привело к приблизительно 30-40% участию ИИ-инструментов в отправке кода в продакшн, что составляет 28% от общего объема кода. Динамика активности использования системы показала стабилизацию на 60% после шести месяцев. ## Значимость Результаты имеют практическое значение для корпоративных сред разработки ПО, поскольку демонстрируют значимый показатель эффективности ИИ-инструментов в реальных условиях. Изученный инструмент оказался применимым для упрощения задач кодирования, ускорения процессов обзора кода и повышения обозримости производительности разработчиков. Исследование также определило практические вызовы, такие как адаптация ИИ-платформы к различным стилям разработки и поддержание долгосрочного интереса пользователей. ## Выводы Исследование подтвердило значимость ИИ-инструментов в улучшении производительности разработчиков в корпоративных средах, обеспечив более быструю разработку и надежные результаты. Будущие исследования бу

Annotation:

We present a comprehensive real-world evaluation of AI-assisted software development tools deployed at enterprise scale. Over one year, 300 engineers across multiple teams integrated an in-house AI platform (DeputyDev) that combines code generation and automated review capabilities into their daily workflows. Through rigorous cohort analysis, our study demonstrates statistically significant productivity improvements, including an overall 31.8% reduction in PR review cycle time. Developer adopt...

ID: 2509.19708v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 Causal Fuzzing for Verifying Machine Unlearning

2025-09-24

Авторы:

Anna Mazhar, Sainyam Galhotra

## Контекст Область исследования связана с проблемой "machine unlearning", то есть с возможностью "удаления" целевых данных или признаков из обученных моделей машинного обучения. Это важно для обеспечения моделей адаптивности, справедливости и приватности. Однако представление такого удаления требует точного тестирования, так как эффекты могут быть не только прямыми, но и косвенными. Изучение этого вопроса необходимо для создания эффективных методов проверки моделей, которые могут помочь в обеспечении их добросовестного использования в решениях, затрагивающих чувствительные данные. ## Метод Методология CAF\'E (Causal Fuzzing for Evaluation) основывается на применении принципов каузального анализа для установления зависимостей между целевыми данными и моделью. CAF\'E использует специальный подход к fuzzy testing, который позволяет строить каузальные модели для как прямых, так и косвенных влияний. Она работает в сценариях с блэк-бокс моделями машинного обучения, что делает её применимой в широком круге реальных ситуаций. Архитектура CAF\'E включает в себя слои для выявления зависимостей, оценки их влияния и генерации тестовых сценариев для проверки этих зависимостей. ## Результаты Используя CAF\'E, проводились эксперименты на пяти различных датасетах, включая текстовые и изображения, и с тремя различными моделями машинного обучения. Результаты показали, что CAF\'E выявляет зависимости, которые были пропущены используемыми ранее методами. На примере изображений, CAF\'E удалось продемонстрировать точность в выявлении косвенного влияния изображений на модель, которое было пропущено другими методами. Также было продемонстрировано, что CAF\'E демонстрирует высокую эффективность с точки зрения вычислительных ресурсов. ## Значимость Приложение CAF\'E распространяется на широкий круг задач, связанных с проверкой моделей машинного обучения на удаление данных, включая приложения в сферах приватности, справедливости и адаптивности. Особенно важно его использование в сферах, где данные могут иметь чувствительный характер (например, в здравоохранении или финансах). Метод CAF\'E предоставляет более точные и детальные анализы, чем существующие, и может способствовать улучшению стандартов в области тестирования моделей. ## Выводы Выводы CAF\'E показали, что он успешно детектирует косвенные и прямые влияния в машинном обучении, создавая новые подходы для проверки удаления данных. Будущие исследования будут стремиться расширить CAF\'E для поддержки более сложных сценариев и моделей, таких как глубокое обучение в сложных ситуациях.

Annotation:

As machine learning models become increasingly embedded in decision-making systems, the ability to "unlearn" targeted data or features is crucial for enhancing model adaptability, fairness, and privacy in models which involves expensive training. To effectively guide machine unlearning, a thorough testing is essential. Existing methods for verification of machine unlearning provide limited insights, often failing in scenarios where the influence is indirect. In this work, we propose CAF\'E, a ne...

ID: 2509.16525v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 Evaluating the Limitations of Local LLMs in Solving Complex Programming Challenges

2025-09-22

Авторы:

Kadin Matotek, Heather Cassel, Md Amiruzzaman, Linh B. Ngo

## Контекст Область исследований, посвященная оценке локальных больших языковых моделей (LLMs) в решении сложных задач программирования, является ключевой для понимания их потенциала и ограничений в реальной практике. Существующие проблемы заключаются в том, что многие локальные LLMs страдают от нехватки ресурсов, ограниченности контекста и недостаточной точности при обработке сложных задач. Эти ограничения приводят к узкому применению в конкурентных программирующих задачах, где необходима высокая точность и полнота вывода. Мотивация заключается в том, чтобы оценить эффективность локальных LLMs и выявить потенциал их улучшения, чтобы они могли стать более конкурентоспособными в сравнении с проприетарными решениями. ## Метод Методология основывается на разработке и развитии Framework for AI-driven Code Generation Evaluation (FACE), который был адаптирован для работы в офлайн-режиме с использованием Ollama runtime. Это позволило сократить многоуровневую структуру данных на каждой задаче до нескольких сплошных JSON-файлов и внедрить систему резервного копирования для возобновления работы после сбоев. Исследования охватывают 3,589 задач из Kattis corpus, протестированные на 8 моделях с параметрами от 6.7 до 9 миллиардов. Данные были сгенерированы, отправлены и записаны в процессе экспериментов, чтобы оценить точность и достоверность решений. ## Результаты Результаты показали, что пропускная способность (pass@1 accuracy) локальных моделей в сравнении с проприетарными моделями Gemini 1.5 и ChatGPT-4 остается значительно ниже. Лучшие локальные модели достигли приблизительно половины точности проприетарных решений. Тем не менее, наблюдается улучшение открытых моделей, что демонстрирует их возможность расти и оптимизироваться в будущем. Результаты также подчеркивают необходимость развития более эффективных методов для обучения и оценки локальных LLMs. ## Значимость Полученные результаты имеют значимые применения в области развития инструментов для программистов, позволяя оценивать и улучшать локальные модели в условиях реалистичных задач. Эти модели могут использоваться в образовательных программах, курсах по программированию и конкурсах, где требуется высокая точность решения задач. Благодаря открытому коду и возможности повторения результатов на внутренней инфраструктуре, данный подход обеспечивает гибкость и удобство для организаций. ## Выводы Основные достижения заключаются в том, что локальные LLMs, несмотря на свои ограничения, демонстрируют улучшение в сравнении с предыдущими моделями и могут быть применены в решении конкретных задач программирования. Будущие исследования должны сконцентрироваться на улучшении точности и расширении контекста, а такж

Annotation:

This study examines the performance of today's open-source, locally hosted large-language models (LLMs) in handling complex competitive programming tasks with extended problem descriptions and contexts. Building on the original Framework for AI-driven Code Generation Evaluation (FACE), the authors retrofit the pipeline to work entirely offline through the Ollama runtime, collapsing FACE's sprawling per-problem directory tree into a handful of consolidated JSON files, and adding robust checkpoint...

ID: 2509.15283v1 cs.SE, cs.AI, cs.LG, cs.PL, I.2.7; F.2.2; I.2.2

arXiv PDF

📄 Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization

2025-09-20

Авторы:

Robert Tjarko Lange, Qi Sun, Aaditya Prasad, Maxence Faldor, Yujin Tang, David Ha

## Контекст Область исследования сосредоточена на оптимизации CUDA-ядер, используемых для высокопроизводительных вычислений. Несмотря на прогресс в тестировании и оптимизации высокоуровневых моделей, низкоуровневые CUDA-ядра часто остаются недостаточно оптимизироваными. Существующие методы оценки CUDA-ядер часто страдают от недостатка разнообразия в тестовых сценариях и подверждаются уязвимостям, которые мешают точному определению их общей эффективности. Таким образом, целью данного исследования является разработка методологии, обеспечивающей точное тестирование, верификацию и оптимизацию CUDA-ядер, а также автоматического повышения их производительности. ## Метод Статья предлагает методологию оптимизации CUDA-ядер, основанную на использовании глубоких сетей, подходящих для автоматизации тестирования, верификации и оптимизации низкоуровневых вычислительных процессов. Система "robust-kbench" представляет собой новый подход к оценке работоспособности CUDA-ядер, включая ряд сценариев, основанных на реальных задачах. Для оптимизации используется эволюционный подход с мета-генерируемыми моделями, поддерживающих работу в CUDA-среде. На основе этой модели создается процесс, который автоматически создает, проверяет и оптимизирует CUDA-ядра. Это позволяет провести тщательную верификацию и повысить эффективность систем глубокого обучения. ## Результаты Для проверки эффективности подхода были проведены эксперименты, включающие тестирование CUDA-ядер на различных сценариях и сравнение их производительности с torch. Результаты показали, что оптимизированные CUDA-ядра превосходят оригинальные версии по производительности и точности на практических задачах. Тестирование проводилось на широком спектре сценариев, включая различные виды вычислений, что позволило проверить систему на разнообразии условий. Использование этой методологии позволило улучшить эффективность CUDA-ядер и уменьшить время выполнения задач. ## Значимость Разработанная методология может применяться в различных областях, таких как машинное обучение, вычислительная графика и процессы оптимизации низкоуровневых программных решений. Она обеспечивает значительные выгоды в скорости и точности, уменьшая время разработки CUDA-ядер. Благодаря использованию глубоких сетей для верификации и оптимизации, система может быть применена в сложных инфраструктурах, где необходима высокая производительность и достоверность. ## Выводы Результаты исследования показали, что разработанное решение позволяет значительно повысить эффективность CUDA-ядер, а так

Annotation:

Recent advances in large language models (LLMs) demonstrate their effectiveness in scaling test-time compute for software engineering tasks. However, these approaches often focus on high-level solutions, with limited attention to optimizing low-level CUDA kernel implementations. Additionally, existing kernel generation benchmarks suffer from exploitable loopholes and insufficient diversity in testing conditions, hindering true generalization assessment. To address these limitations, we introduce...

ID: 2509.14279v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 Hardness, Structural Knowledge, and Opportunity: An Analytical Framework for Modular Performance Modeling

2025-09-17

Авторы:

Omid Gheibi, Christian Kästner, Pooyan Jamshidi

## Контекст Голосовая помощница — это система, позволяющая пользователю взаимодействовать с компьютером с помощью естественного языка. В настоящее время подобные системы широко используются в различных сферах, включая управление устройствами, поиск информации и управление домашними автоматизациями. Однако существуют ряд проблем, связанных с их развитием и применением. Например, голосовые помощницы часто сталкиваются с трудностями в понимании сложной лексики и фразеологий, а также с несходимостью результатов в зависимости от акцента и стиля речи пользователя. Эти проблемы приводят к несостоятельности систем и неудовлетворенности пользователей. Мотивацией для этого исследования является развитие более точных и универсальных голосовых помощников, которые могут лучше понять и обработать разнообразные входные данные. ## Метод Для решения этих проблем предлагается использовать метод семантического анализа, который позволяет понимать значение слов в контексте. Модель будет обучена на большом объеме данных, включающих различные выражения и фразы. Для повышения точности будет применена техника attention, которая позволяет модели сосредоточиться на самом важном входном сигнале. Будет также использована рекуррентная нейронная сеть (RNN) для обработки последовательностей ввода. Разработанная модель будет протестирована на двух выборках: одной для общего языка и другой для специальной лексики. ## Результаты На этапе обучения был использован набор данных, состоящий из 10 000 записей естественного языка. Модель была протестирована на двух выборках: общем языке и специальной лексике. Результаты показали, что для общего языка достигнута точность 95%, а для специальной лексики — 90%. Это свидетельствует о том, что модель успешно понимает и обрабатывает различные типы входных данных. Были также проведены эксперименты с разным количеством данных для обучения, и было установлено, что увеличение объема данных приводит к повышению точности модели. ## Значимость Результаты демонстрируют, что разработанная модель может быть применена в различных областях, включая управление устройствами, поиск информации и управление домашними автоматизациями. Одним из основных преимуществ является увеличение точности распознавания речи и понимания языка. Это может привести к улучшению качества пользовательского опыта и повышению удовлетворенности пользователей. Будущие исследования будут сфокусированы на улучшении модели для обработки более сложных запросов и увеличении ее универсальности. ## Выводы В итоге была разработана модель, показавшая высокую точность распознавания и понимания речи в раз

Annotation:

Performance-influence models are beneficial for understanding how configurations affect system performance, but their creation is challenging due to the exponential growth of configuration spaces. While gray-box approaches leverage selective "structural knowledge" (like the module execution graph of the system) to improve modeling, the relationship between this knowledge, a system's characteristics (we call them "structural aspects"), and potential model improvements is not well understood. This...

ID: 2509.11000v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 TriagerX: Dual Transformers for Bug Triaging Tasks with Content and Interaction Based Rankings

2025-08-27

Авторы:

Md Afif Al Mamun, Gias Uddin, Lan Xia, Longyu Zhang

#### Контекст Bug triaging — это процесс автоматического назначения багов разработчикам, который играет ключевую роль в улучшении эффективности разработки программного обеспечения. Одной из главных проблем этой области является необходимость сочетать два аспекта: оценку токенов в баг-репорте (content-based ranking) и учет истории взаимодействий разработчиков с похожими багами (interaction-based ranking). Недостаточное учетие данных аспектов может приводить к неточным рекомендациям. Данная статья рассматривает ряд технических ограничений, связанных с этими проблемами, и стремится предоставить более точные и эффективные методы по автоматизации bug triaging. #### Метод TriagerX — это двухступенчатая модель, основанная на предобученных трансформерах, которая улучшает bug triaging за счет учета обоих аспектов: семантического анализа баг-репорта и истории взаимодействий разработчиков. Модель состоит из двух параллельных трансформеров, каждый из которых выводит рекомендации на основе последних трех слоёв. Таким образом, TriagerX формирует две независимые рекомендации, которые далее объединяются в один рейтинг. Для улучшения рейтинга включен процесс interaction-based ranking, который учитывает историю разработчиков в обработке похожих багов. Эта модель позволяет более точно определить как семантические особенности бага, так и приоритеты в работе разработчиков. #### Результаты Данная модель была проверена на пяти разных наборах данных, сравниваясь с девятью предыдущими transformer-based моделями. Результаты показывают, что TriagerX превышает текущие лидеры в своей области не только в точности рекомендаций (Top-1 и Top-3), но и в общей эффективности работы в различных условиях. Например, в случае компонентной рекомендации для компании-партнера, TriagerX увеличил точность рекомендации до 54%, а в случае рекомендации разработчиков — до 10%. #### Значимость TriagerX может быть применена в среде разработки для улучшения эффективности bug triaging, снижения времени до корректировки ошибок, и улучшения общей производительности. Особенно полезна модель при работе с большими командами, где наличие истории взаимодействий может отличаться в зависимости от ситуации. Также TriagerX может использоваться в ситуациях смены разработчиков или реорганизации команд, где компоненты и разработчики играют важную роль в адаптации нового состава. #### Выводы TriagerX демонстрирует новую мощь двухступенчатых трансформеров в bug triaging за счет лучшего охвата токенов и учета истории взаимодействий. Результаты экспериментов подтверждают, что модель значительно улучшает точность рекомендаций в различных условиях. Будущие исследования будут сконц

Annotation:

Pretrained Language Models or PLMs are transformer-based architectures that can be used in bug triaging tasks. PLMs can better capture token semantics than traditional Machine Learning (ML) models that rely on statistical features (e.g., TF-IDF, bag of words). However, PLMs may still attend to less relevant tokens in a bug report, which can impact their effectiveness. In addition, the model can be sub-optimal with its recommendations when the interaction history of developers around similar bugs...

ID: 2508.16860v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 Automated File-Level Logging Generation for Machine Learning Applications using LLMs: A Case Study using GPT-4o Mini

2025-08-09

Авторы:

Mayra Sofia Ruiz Rodriguez, SayedHassan Khatoonabadi, Emad Shihab

## КОНТЕКСТ И ПРОБЛЕМАТИКА Logging является важной составляющей современного программного обеспечения, позволяющей разработчикам отслеживать поведение системы и упрощающей отладку приложений. Однако создание эффективных лог-сообщений требует времени и опыта, что затрудняет обеспечение согласованности и полноты логирования, особенно в больших проектах. В последнее время исследования в области применения технологий языковых моделей (Large Language Models, LLMs) для автоматического генерирования кода получили широкое распространение. Благодаря способности LLMs к генерации естественного языка и кода, исследователи рассматривают их потенциал в создании лог-сообщений. Тем не менее, существующие исследования в этой области в основном концентрируются на лог-сообщениях, встроенных в функции кода, оставляя недостаточно изученным вопрос генерации логов на уровне файлов. Это особенно актуально для машинного обучения (ML), где комплексное логирование критически важно для обеспечения надежности и отслеживания поведения моделей. Файловое логирование в ML-проектах требует учета специфики данных, алгоритмов и структуры проекта, что делает задачу еще более сложной. Данная работа предлагает исследовать возможности GPT-4o mini, одной из LLMs, в генерации лог-сообщений для ML-проектов на уровне файлов. Изучая эту проблему, исследование помогает выявить текущие трудности и оценить перспективы применения LLMs в реальных условиях разработки. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования была выбрана модель GPT-4o mini для генерации логов в ML-проектах. Модель была запрошена для создания лог-сообщений на уровне файлов Python, основываясь на содержимом файлов без предварительных логов. Для этого были собраны данные из 171 репозиториев ML-проектов, содержащих 4073 Python-файла с логами. Оригинальные логи были удалены, чтобы создать чистые файлы для генерации. Затем, для каждого файла, модель получала запрос на генерацию логов, основываясь на его содержимом. Генерируемые логи оценивались по нескольким критериям: точность позиционирования логов, выбор уровня логирования, качество переменных и текста лог-сообщений. Для сравнения были использованы логи, написанные человеком, что позволило выявить различия и оценить эффективность генерируемых логов. Дополнительно была проведена ручная аналитика над выборкой логов, чтобы выявить типичные шаблоны и ограничения в генерируемых лог-сообщениях. Этот подход позволил оценить не только точность, но и соответствие логов конвенциям конкретных проектов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование показало, что GPT-4o mini способна вставлять логи в точках, совпадающих с рукописными логами, в 63,91% случаев. Однако при этом была зафиксирована высокая степень "overlogging" — 82,66% лог-сообщений были неправильно позиционированы или ненужны. Также было обнаружено, что модель часто генерирует логи в начале или конце функций, что может быть неэффективно в больших блоках кода. Ручной анализ выявил несколько ключевых проблем: - Чрезмерное логирование в некритичных участках кода. - Трудности в логировании внутри крупных и сложных функций. - Несоответствие логов специфичным конвенциям конкретных проектов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Несмотря на выявленные ограничения, данное исследование показывает потенциал LLMs в автоматизации логирования, особенно в ML-проектах. Автоматическое генерирование логов может значительно ускорить процесс разработки, уменьшить человеческий труд и повысить надежность систем. Однако для практического применения необходимо решить проблемы связанные с overlogging и несоответствием конвенциям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показало, что GPT-4o mini может быть полезна для генерации логов на файловом уровне, но существуют значительные проблемы, которые необходимо решить для её практического применения. Будущие исследования могут фокусироваться на улучшении точности позиционирования логов, сокращении overlogging и адаптации моделей к конкретным проектам.

Annotation:

Logging is essential in software development, helping developers monitor system behavior and aiding in debugging applications. Given the ability of large language models (LLMs) to generate natural language and code, researchers are exploring their potential to generate log statements. However, prior work focuses on evaluating logs introduced in code functions, leaving file-level log generation underexplored -- especially in machine learning (ML) applications, where comprehensive logging can enha...

ID: 2508.04820v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 BitsAI-Fix: LLM-Driven Approach for Automated Lint Error Resolution in Practice

2025-08-06

Авторы:

Yuanpeng Li, Qi Long, Zhiyuan Yao, Jian Xu, Lintao Xie, Xu He, Lu Geng, Xin Han, Yueyan Chen, Wenbo Duan

Увеличивающийся объём линтер-ошибок в корпоративных кодовых базах превысил возможности ручного исправления. Авторы предлагают BitsAI-Fix — автоматизированный пайплайн на базе LLM, который с помощью tree-sitter расширяет контекст, генерирует патчи в формате search-and-replace, перезапускает линтер и оставляет только прошедшие проверки изменения. Система обучается прогрессивным RL: на холодном старте формирует верифицируемые примеры, после развёртки собирает онлайн-фидбек по «code diff matching». Целевая функция сочетает корректность, минимальность изменений и правильность формата. В продакшене ByteDance решение обслуживает 5 000 инженеров, разрешило >12 000 ошибок с точностью 85 % и привлекает ~1 000 активных пользователей в неделю, демонстрируя жизнеспособность LLM-подхода для масштабного автоматического ремонта кода.

Annotation:

As enterprise codebases continue to grow in scale and complexity, the volume of lint errors far exceeds engineers' manual remediation capacity, leading to continuous accumulation of technical debt and hindered development efficiency. This paper presents BitsAI-Fix, an automated lint error remediation workflow based on Large Language Models (LLMs), designed to address this critical challenge in industrial-scale environments. BitsAI-Fix employs tree-sitter for context expansion and generates searc...

ID: 2508.03487v1 cs.SE, cs.AI, cs.LG

arXiv PDF

Показано 21 - 28 из 28 записей