📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Dual-Process Scaffold Reasoning for Enhancing LLM Code Debugging

2025-11-15

Авторы:

Po-Chung Hsieh, Chin-Po Chen, Jeng-Lin Li, Ming-Ching Chang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent LLMs have demonstrated sophisticated problem-solving capabilities on various benchmarks through advanced reasoning algorithms. However, the key research question of identifying reasoning steps that balance complexity and computational efficiency remains unsolved. Recent research has increasingly drawn upon psychological theories to explore strategies for optimizing cognitive pathways. The LLM's final outputs and intermediate steps are regarded as System 1 and System 2, respectively. Howev...

ID: 2511.08052v1 cs.AI, cs.CL, cs.SE

arXiv PDF

📄 Do Code Models Suffer from the Dunning-Kruger Effect?

2025-10-09

Авторы:

Mukul Singh, Somya Chatterjee, Arjun Radhakrishna, Sumit Gulwani

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As artificial intelligence systems increasingly collaborate with humans in creative and technical domains, questions arise about the cognitive boundaries and biases that shape our shared agency. This paper investigates the Dunning-Kruger Effect (DKE), the tendency for those with limited competence to overestimate their abilities in state-of-the-art LLMs in coding tasks. By analyzing model confidence and performance across a diverse set of programming languages, we reveal that AI models mirror hu...

ID: 2510.05457v1 cs.AI, cs.CL, cs.SE

arXiv PDF

📄 PLSemanticsBench: Large Language Models As Programming Language Interpreters

2025-10-08

Авторы:

Aditya Thimmaiah, Jiyang Zhang, Jayanth Srinivasa, Junyi Jessy Li, Milos Gligoric

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As large language models (LLMs) excel at code reasoning, a natural question arises: can an LLM execute programs (i.e., act as an interpreter) purely based on a programming language's formal semantics? If so, it will enable rapid prototyping of new programming languages and language features. We study this question using the imperative language IMP (a subset of C), formalized via small-step operational semantics (SOS) and rewriting-based operational semantics (K-semantics). We introduce three eva...

ID: 2510.03415v2 cs.PL, cs.AI, cs.CL, cs.SE

arXiv PDF

📄 Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents

2025-10-01

Авторы:

Zonghan Yang, Shengjie Wang, Kelin Fu, Wenyang He, Weimin Xiong, Yibo Liu, Yibo Miao, Bofei Gao, Yejie Wang, Yingwei Ma, Yanhao Li, Yue Liu, Zhenxing Hu, Kaitai Zhang, Shuyi Wang, Huarong Chen, Flood Sung, Yang Liu, Yang Gao, Zhilin Yang, Tianyu Liu

## Контекст Искусственный интеллект (ИИ) применяется в сфере программного обеспечения (Software Engineering, SWE) для упрощения разработки программного обеспечения. Одной из сложных проблем является адаптация генерируемых текстов с помощью трансформеров, которые способны выдавать код или комментарии по запросу. Однако актуальной проблемой является недостаточная точность и понимание контекста в результатах. Большинство существующих моделей тренируются с помощью подходов, требующих синхронного взаимодействия с пользователем, что может ограничить скорость и эффективность разработки. Мотивация заключается в развитии модели, позволяющей отказаться от непосредственного взаимодействия и работать на основе готовых данных, при этом достигая высокой эффективности в обработке кода. ## Метод Методология основывается на подходе к обучению моделей без необходимости их интеграции в процесс разработки. Это достигается путем подготовки ранее выполненных задач и создания скриптов для автоматического выполнения требуемых действий. Основной архитектурой является модель Kimi-Dev, которая обучается на большом количестве данных и использует префиксные температуры, чтобы оптимизировать результаты. Для обеспечения точности используется подход с ограниченным рассмотрением фактов (Limited Fact Retrieval, LFR). Это позволяет модели быстрее адаптироваться к новым задачам и уменьшает вероятность ошибок. ## Результаты В ходе экспериментов был проведен сравнительный анализ модели Kimi-Dev с другими моделями в рамках бенчмарка SWE-bench. На основе результатов методика Agentless Training показала себя как наиболее эффективная, достигая 60.4% верификации. Далее, при внедрении дополнительных адаптивных тренировок на основе 5000 публично доступных траекторий, модель достигла 48.6% pass@1, приближаясь к результатам моделей с агентным подходом. Эти результаты доказывают значительную эффективность Agentless-подхода в создании трансферабельных моделей для кодирования. ## Значимость Результаты модели Kimi-Dev открывают новые горизонты для использования ИИ в сфере программного обеспечения. Она демонстрирует устойчивость в различных сценариях, включая автоматизацию процессов разработки и помощь разработчикам. Особенно применимость к задачам, требующим высокой точности и быстрого выполнения. Благодаря этому, модель может значительно увеличить производительность и эффективность разработки программного обеспечения. ## Выводы Модель Kimi-Dev доказала свою эффективность в создании трансферабельных моделей для кодирования, благодаря своей уникальной архитектуре и методике Agentless Training. В будущем будут проводи

Annotation:

Large Language Models (LLMs) are increasingly applied to software engineering (SWE), with SWE-bench as a key benchmark. Solutions are split into SWE-Agent frameworks with multi-turn interactions and workflow-based Agentless methods with single-turn verifiable steps. We argue these paradigms are not mutually exclusive: reasoning-intensive Agentless training induces skill priors, including localization, code edit, and self-reflection that enable efficient and effective SWE-Agent adaptation. In thi...

ID: 2509.23045v1 cs.AI, cs.CL, cs.SE

arXiv PDF

📄 A Systematic Approach to Predict the Impact of Cybersecurity Vulnerabilities Using LLMs

2025-08-28

Авторы:

Anders Mølmen Høst, Pierre Lison, Leon Moonen

## Контекст Обеспечение безопасности в цифровой среде становится все более важной задачей в условиях постоянно усиливающихся угроз силовым цифровым пространству. Одна из ключевых проблем в этой области — недостаток информации о реальном воздействии уязвимостей. Хотя базы данных, такие как National Vulnerability Database (NVD), предоставляют подробные описания уязвимостей, они часто не содержат информации о возможных вариантах их использования в атаках, таких как методы, техники и процедуры (TTP). Анализ такой информации требует значительных усилий и времени, что не позволяет реагировать на новые уязвимости в адекватные сроки. Использование автоматизированных методов для оценки воздействия уязвимостей может значительно улучшить эффективность и скорость анализа, что делает этот подход крайне значимым для систем безопасности. ## Метод Авторы предлагают TRIAGE — методологию, основанную на использовании бо LLM (больших языковых моделей) для автоматического определения воздействия уязвимостей. Метод использует два этапа. В первом этапе LLM применяется для предсказания возможных TTP, используя инструкции на основе ATT&CK-базы знаний. Второй этап использует in-context learning для дополнительного определения TTP, используя контекстная информация из NVD. Этот гибридный подход объединяет rule-based методы и data-driven inference, что позволяет повысить точность и покрытие. Инструментарий TRIAGE может применяться для автоматического предсказания воздействия уязвимостей, основываясь на данных базы NVD. ## Результаты Оценка результатов TRIAGE проводилась с использованием эталонных данных ATT&CK. Было проведено несколько экспериментов с различными моделями LLM, включая GPT-4o-mini и Llama3.3-70B. Результаты показали, что in-context learning выдает лучшие результаты по поиску возможных TTP, чем отдельно взятые rule-based и другие данные-дронные методы. Кроме того, TRIAGE улучшает покрытие и увеличивает чувствительность к редким вариантам использования уязвимостей. GPT-4o-mini показал более высокую точность по сравнению с Llama3.3-70B при использовании TRIAGE. ## Значимость Данный подход может применяться в различных областях безопасности, включая анализ безопасности программного обеспечения, реагирование на инциденты, а также процессы разработки и тестирования. TRIAGE позволяет эффективно повышать эффективность и автоматизировать процессы, связанные с оценкой воздействия уязвимостей. Он может существенно снизить время и ресурсы, необходимые для анализа уязвимостей, и помочь в создании более эффективных стратегий защиты. ## Выводы ТРИАЖ (TRIAGE) — это прорыв в автоматизации процессов оценки в

Annotation:

Vulnerability databases, such as the National Vulnerability Database (NVD), offer detailed descriptions of Common Vulnerabilities and Exposures (CVEs), but often lack information on their real-world impact, such as the tactics, techniques, and procedures (TTPs) that adversaries may use to exploit the vulnerability. However, manually linking CVEs to their corresponding TTPs is a challenging and time-consuming task, and the high volume of new vulnerabilities published annually makes automated supp...

ID: 2508.18439v1 cs.CR, cs.AI, cs.CL, cs.SE

arXiv PDF

📄 NeuroSync: Intent-Aware Code-Based Problem Solving via Direct LLM Understanding Modification

2025-08-06

Авторы:

Wenshuo Zhang, Leixian Shen, Shuchang Xu, Jindu Wang, Jian Zhao, Huamin Qu, Linping Yuan

**Резюме:** При использовании конверсационных LLMs для решения доменных задач пользователи с ограниченными навыками программирования часто сталкиваются с проблемой несоответствия их намерений (intents) с генерируемым кодом. Это связано с двунаправленной неоднозначностью: нелинейные пользовательские намерения и задачи программирования должны быть выражены и интерпретированы через линейные последовательности запросов и кода. Для решения этой проблемы предлагается новый парадигмальный подход — **direct intent-task matching**, который внешне представляет и позволяет манипулировать LLM-пониманием задач программирования до фазы генерации кода. Этот подход реализован в системе **NeuroSync**, которая использует knowledge distillation для извлечения понимания LLM, пользовательских намерений и их сопоставлений, поддерживая интуитивное редактирование через визуализации. Результаты технических экспериментов и юзер-стади (N=12) показали, что NeuroSync улучшает соответствие намерений и задач, сокращает когнитивные затраты и повышает эффективность программирования.

Annotation:

Conversational LLMs have been widely adopted by domain users with limited programming experience to solve domain problems. However, these users often face misalignment between their intent and generated code, resulting in frustration and rounds of clarification. This work first investigates the cause of this misalignment, which dues to bidirectional ambiguity: both user intents and coding tasks are inherently nonlinear, yet must be expressed and interpreted through linear prompts and code sequen...

ID: 2508.02823v1 cs.HC, cs.AI, cs.CL, cs.SE

arXiv PDF