📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Zhiqing Zhong, Jiaming Huang, Pinjia He

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Many modern software projects evolve rapidly to incorporate new features and security patches. It is important for users to update their dependencies to safer versions, but many still use older, vulnerable package versions because upgrading can be difficult and may break their existing codebase. Software developers can mitigate this problem by backporting security patches to older releases. However, manually backporting is time-consuming and error-prone. The effectiveness of existing automated b...
ID: 2512.01396v1 cs.SE, cs.CL, cs.CR
Авторы:

Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang

## Контекст Современные большие языковые модели (LLMs) продемонстрировали их великолепные возможности, особенно в сфере инженерии программного обеспечения, где они используют верифицированные обратные сигналы для обучения. Несмотря на это, высококачественные исполняемые среды для обучения таких моделей остаются редкостью. Это ограничивает возможности для развития мощных машинных обучаемых агентов. Одной из главных проблем является существующая систематическая сложность в создании и поддержании таких сред, что требует больших усилий и ресурсов. Мы предлагаем CTF-Dojo, первую уникальную платформу, созданную с целью обучения LLMs в исполняемых средах с поддержкой верифицированных обратных сигналов. Она включает 658 полностью функциональных задач в стиле Capture-The-Flag (CTF), контейнеризованных в Docker, с гарантированной повторяемостью. Эта платформа позволяет значительно упростить процесс развертывания интерактивных исполняемых сред в обучении LLMs, позволяя быстро и эффективно создавать новые среды. ## Метод CTF-Dojo базируется на архитектуре, которая сочетает в себе верифицированные задачи стиля CTF с инструментами автоматизации для создания исполняемых сред. Мы разработали CTF-Forge, автоматизированную систему, которая может принимать общедоступные данные и преобразовывать их в готовые к использованию среды за несколько минут. Это устраняет необходимость в ресурсоемкой и дорогостоящей конфигурации, которая, как правило, занимает несколько недель. Однако CTF-Dojo не только упрощает процесс, но и добавляет значительные возможности для выполнения сложных задач в стиле CTF. Это позволяет обучать модели не только с помощью традиционных методов, но и с использованием новых, более эффективных подходов. ## Результаты Мы провели исследования с использованием LLM-агентов, обученных на CTF-Dojo. Мы использовали 486 высококачественных, верифицированных структурных обучающих траекторий. Это привело к улучшению результатов на трех различных бенчмарках: InterCode-CTF, NYU CTF Bench и Cybench. Наша модель 32B достигла доля 31.9% Pass@1, что является новым самым высоким результатом в открытом весовом классе. Этот результат находится на уровне с такими моделями, как DeepSeek-V3-0324 и Gemini-2.5-Flash. Эти результаты показывают, что интеллектуальные системы, обучаемые через исполняемые среды, могут достигать высоких результатов без необходимости использования дорогостоящих и закрытых систем. ## Значимость CTF-Dojo открывает новые возможности для обучения моделей с помощью исполняемых сред без необходимости использования дорогостоящих и
Annotation:
Large language models (LLMs) have demonstrated exceptional capabilities when trained within executable runtime environments, notably excelling at software engineering tasks through verified feedback loops. Yet, scalable and generalizable execution-grounded environments remain scarce, limiting progress in training more capable ML agents. We introduce CTF-Dojo, the first large-scale executable runtime tailored for training LLMs with verifiable feedback, featuring 658 fully functional Capture-The-F...
ID: 2508.18370v1 cs.SE, cs.CL, cs.CR, cs.LG