📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 FlakyGuard: Automatically Fixing Flaky Tests at Industry Scale

2025-11-19

Авторы:

Chengpeng Li, Farnaz Behrang, August Shi, Peng Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Flaky tests that non-deterministically pass or fail waste developer time and slow release cycles. While large language models (LLMs) show promise for automatically repairing flaky tests, existing approaches like FlakyDoctor fail in industrial settings due to the context problem: providing either too little context (missing critical production code) or too much context (overwhelming the LLM with irrelevant information). We present FlakyGuard, which addresses this problem by treating code as a gra...

ID: 2511.14002v1 cs.SE, cs.AI, cs.LG, cs.PL

arXiv PDF

📄 Evaluating the Limitations of Local LLMs in Solving Complex Programming Challenges

2025-09-22

Авторы:

Kadin Matotek, Heather Cassel, Md Amiruzzaman, Linh B. Ngo

## Контекст Область исследований, посвященная оценке локальных больших языковых моделей (LLMs) в решении сложных задач программирования, является ключевой для понимания их потенциала и ограничений в реальной практике. Существующие проблемы заключаются в том, что многие локальные LLMs страдают от нехватки ресурсов, ограниченности контекста и недостаточной точности при обработке сложных задач. Эти ограничения приводят к узкому применению в конкурентных программирующих задачах, где необходима высокая точность и полнота вывода. Мотивация заключается в том, чтобы оценить эффективность локальных LLMs и выявить потенциал их улучшения, чтобы они могли стать более конкурентоспособными в сравнении с проприетарными решениями. ## Метод Методология основывается на разработке и развитии Framework for AI-driven Code Generation Evaluation (FACE), который был адаптирован для работы в офлайн-режиме с использованием Ollama runtime. Это позволило сократить многоуровневую структуру данных на каждой задаче до нескольких сплошных JSON-файлов и внедрить систему резервного копирования для возобновления работы после сбоев. Исследования охватывают 3,589 задач из Kattis corpus, протестированные на 8 моделях с параметрами от 6.7 до 9 миллиардов. Данные были сгенерированы, отправлены и записаны в процессе экспериментов, чтобы оценить точность и достоверность решений. ## Результаты Результаты показали, что пропускная способность (pass@1 accuracy) локальных моделей в сравнении с проприетарными моделями Gemini 1.5 и ChatGPT-4 остается значительно ниже. Лучшие локальные модели достигли приблизительно половины точности проприетарных решений. Тем не менее, наблюдается улучшение открытых моделей, что демонстрирует их возможность расти и оптимизироваться в будущем. Результаты также подчеркивают необходимость развития более эффективных методов для обучения и оценки локальных LLMs. ## Значимость Полученные результаты имеют значимые применения в области развития инструментов для программистов, позволяя оценивать и улучшать локальные модели в условиях реалистичных задач. Эти модели могут использоваться в образовательных программах, курсах по программированию и конкурсах, где требуется высокая точность решения задач. Благодаря открытому коду и возможности повторения результатов на внутренней инфраструктуре, данный подход обеспечивает гибкость и удобство для организаций. ## Выводы Основные достижения заключаются в том, что локальные LLMs, несмотря на свои ограничения, демонстрируют улучшение в сравнении с предыдущими моделями и могут быть применены в решении конкретных задач программирования. Будущие исследования должны сконцентрироваться на улучшении точности и расширении контекста, а такж

Annotation:

This study examines the performance of today's open-source, locally hosted large-language models (LLMs) in handling complex competitive programming tasks with extended problem descriptions and contexts. Building on the original Framework for AI-driven Code Generation Evaluation (FACE), the authors retrofit the pipeline to work entirely offline through the Ollama runtime, collapsing FACE's sprawling per-problem directory tree into a handful of consolidated JSON files, and adding robust checkpoint...

ID: 2509.15283v1 cs.SE, cs.AI, cs.LG, cs.PL, I.2.7; F.2.2; I.2.2

arXiv PDF