📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Po-Chung Hsieh, Chin-Po Chen, Jeng-Lin Li, Ming-Ching Chang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recent LLMs have demonstrated sophisticated problem-solving capabilities on various benchmarks through advanced reasoning algorithms. However, the key research question of identifying reasoning steps that balance complexity and computational efficiency remains unsolved. Recent research has increasingly drawn upon psychological theories to explore strategies for optimizing cognitive pathways. The LLM's final outputs and intermediate steps are regarded as System 1 and System 2, respectively. Howev...
Авторы:
Mukul Singh, Somya Chatterjee, Arjun Radhakrishna, Sumit Gulwani
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
As artificial intelligence systems increasingly collaborate with humans in
creative and technical domains, questions arise about the cognitive boundaries
and biases that shape our shared agency. This paper investigates the
Dunning-Kruger Effect (DKE), the tendency for those with limited competence to
overestimate their abilities in state-of-the-art LLMs in coding tasks. By
analyzing model confidence and performance across a diverse set of programming
languages, we reveal that AI models mirror hu...
Авторы:
Aditya Thimmaiah, Jiyang Zhang, Jayanth Srinivasa, Junyi Jessy Li, Milos Gligoric
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
As large language models (LLMs) excel at code reasoning, a natural question
arises: can an LLM execute programs (i.e., act as an interpreter) purely based
on a programming language's formal semantics? If so, it will enable rapid
prototyping of new programming languages and language features. We study this
question using the imperative language IMP (a subset of C), formalized via
small-step operational semantics (SOS) and rewriting-based operational
semantics (K-semantics). We introduce three eva...
Авторы:
Zonghan Yang, Shengjie Wang, Kelin Fu, Wenyang He, Weimin Xiong, Yibo Liu, Yibo Miao, Bofei Gao, Yejie Wang, Yingwei Ma, Yanhao Li, Yue Liu, Zhenxing Hu, Kaitai Zhang, Shuyi Wang, Huarong Chen, Flood Sung, Yang Liu, Yang Gao, Zhilin Yang, Tianyu Liu
## Контекст
Искусственный интеллект (ИИ) применяется в сфере программного обеспечения (Software Engineering, SWE) для упрощения разработки программного обеспечения. Одной из сложных проблем является адаптация генерируемых текстов с помощью трансформеров, которые способны выдавать код или комментарии по запросу. Однако актуальной проблемой является недостаточная точность и понимание контекста в результатах. Большинство существующих моделей тренируются с помощью подходов, требующих синхронного взаимодействия с пользователем, что может ограничить скорость и эффективность разработки. Мотивация заключается в развитии модели, позволяющей отказаться от непосредственного взаимодействия и работать на основе готовых данных, при этом достигая высокой эффективности в обработке кода.
## Метод
Методология основывается на подходе к обучению моделей без необходимости их интеграции в процесс разработки. Это достигается путем подготовки ранее выполненных задач и создания скриптов для автоматического выполнения требуемых действий. Основной архитектурой является модель Kimi-Dev, которая обучается на большом количестве данных и использует префиксные температуры, чтобы оптимизировать результаты. Для обеспечения точности используется подход с ограниченным рассмотрением фактов (Limited Fact Retrieval, LFR). Это позволяет модели быстрее адаптироваться к новым задачам и уменьшает вероятность ошибок.
## Результаты
В ходе экспериментов был проведен сравнительный анализ модели Kimi-Dev с другими моделями в рамках бенчмарка SWE-bench. На основе результатов методика Agentless Training показала себя как наиболее эффективная, достигая 60.4% верификации. Далее, при внедрении дополнительных адаптивных тренировок на основе 5000 публично доступных траекторий, модель достигла 48.6% pass@1, приближаясь к результатам моделей с агентным подходом. Эти результаты доказывают значительную эффективность Agentless-подхода в создании трансферабельных моделей для кодирования.
## Значимость
Результаты модели Kimi-Dev открывают новые горизонты для использования ИИ в сфере программного обеспечения. Она демонстрирует устойчивость в различных сценариях, включая автоматизацию процессов разработки и помощь разработчикам. Особенно применимость к задачам, требующим высокой точности и быстрого выполнения. Благодаря этому, модель может значительно увеличить производительность и эффективность разработки программного обеспечения.
## Выводы
Модель Kimi-Dev доказала свою эффективность в создании трансферабельных моделей для кодирования, благодаря своей уникальной архитектуре и методике Agentless Training. В будущем будут проводи
Annotation:
Large Language Models (LLMs) are increasingly applied to software engineering
(SWE), with SWE-bench as a key benchmark. Solutions are split into SWE-Agent
frameworks with multi-turn interactions and workflow-based Agentless methods
with single-turn verifiable steps. We argue these paradigms are not mutually
exclusive: reasoning-intensive Agentless training induces skill priors,
including localization, code edit, and self-reflection that enable efficient
and effective SWE-Agent adaptation. In thi...
📄 A Systematic Approach to Predict the Impact of Cybersecurity Vulnerabilities Using LLMs
2025-08-28Авторы:
Anders Mølmen Høst, Pierre Lison, Leon Moonen
## Контекст
Обеспечение безопасности в цифровой среде становится все более важной задачей в условиях постоянно усиливающихся угроз силовым цифровым пространству. Одна из ключевых проблем в этой области — недостаток информации о реальном воздействии уязвимостей. Хотя базы данных, такие как National Vulnerability Database (NVD), предоставляют подробные описания уязвимостей, они часто не содержат информации о возможных вариантах их использования в атаках, таких как методы, техники и процедуры (TTP). Анализ такой информации требует значительных усилий и времени, что не позволяет реагировать на новые уязвимости в адекватные сроки. Использование автоматизированных методов для оценки воздействия уязвимостей может значительно улучшить эффективность и скорость анализа, что делает этот подход крайне значимым для систем безопасности.
## Метод
Авторы предлагают TRIAGE — методологию, основанную на использовании бо LLM (больших языковых моделей) для автоматического определения воздействия уязвимостей. Метод использует два этапа. В первом этапе LLM применяется для предсказания возможных TTP, используя инструкции на основе ATT&CK-базы знаний. Второй этап использует in-context learning для дополнительного определения TTP, используя контекстная информация из NVD. Этот гибридный подход объединяет rule-based методы и data-driven inference, что позволяет повысить точность и покрытие. Инструментарий TRIAGE может применяться для автоматического предсказания воздействия уязвимостей, основываясь на данных базы NVD.
## Результаты
Оценка результатов TRIAGE проводилась с использованием эталонных данных ATT&CK. Было проведено несколько экспериментов с различными моделями LLM, включая GPT-4o-mini и Llama3.3-70B. Результаты показали, что in-context learning выдает лучшие результаты по поиску возможных TTP, чем отдельно взятые rule-based и другие данные-дронные методы. Кроме того, TRIAGE улучшает покрытие и увеличивает чувствительность к редким вариантам использования уязвимостей. GPT-4o-mini показал более высокую точность по сравнению с Llama3.3-70B при использовании TRIAGE.
## Значимость
Данный подход может применяться в различных областях безопасности, включая анализ безопасности программного обеспечения, реагирование на инциденты, а также процессы разработки и тестирования. TRIAGE позволяет эффективно повышать эффективность и автоматизировать процессы, связанные с оценкой воздействия уязвимостей. Он может существенно снизить время и ресурсы, необходимые для анализа уязвимостей, и помочь в создании более эффективных стратегий защиты.
## Выводы
ТРИАЖ (TRIAGE) — это прорыв в автоматизации процессов оценки в
Annotation:
Vulnerability databases, such as the National Vulnerability Database (NVD),
offer detailed descriptions of Common Vulnerabilities and Exposures (CVEs), but
often lack information on their real-world impact, such as the tactics,
techniques, and procedures (TTPs) that adversaries may use to exploit the
vulnerability. However, manually linking CVEs to their corresponding TTPs is a
challenging and time-consuming task, and the high volume of new vulnerabilities
published annually makes automated supp...
📄 NeuroSync: Intent-Aware Code-Based Problem Solving via Direct LLM Understanding Modification
2025-08-06Авторы:
Wenshuo Zhang, Leixian Shen, Shuchang Xu, Jindu Wang, Jian Zhao, Huamin Qu, Linping Yuan
**Резюме:**
При использовании конверсационных LLMs для решения доменных задач пользователи с ограниченными навыками программирования часто сталкиваются с проблемой несоответствия их намерений (intents) с генерируемым кодом. Это связано с двунаправленной неоднозначностью: нелинейные пользовательские намерения и задачи программирования должны быть выражены и интерпретированы через линейные последовательности запросов и кода.
Для решения этой проблемы предлагается новый парадигмальный подход — **direct intent-task matching**, который внешне представляет и позволяет манипулировать LLM-пониманием задач программирования до фазы генерации кода. Этот подход реализован в системе **NeuroSync**, которая использует knowledge distillation для извлечения понимания LLM, пользовательских намерений и их сопоставлений, поддерживая интуитивное редактирование через визуализации.
Результаты технических экспериментов и юзер-стади (N=12) показали, что NeuroSync улучшает соответствие намерений и задач, сокращает когнитивные затраты и повышает эффективность программирования.
Annotation:
Conversational LLMs have been widely adopted by domain users with limited
programming experience to solve domain problems. However, these users often
face misalignment between their intent and generated code, resulting in
frustration and rounds of clarification. This work first investigates the cause
of this misalignment, which dues to bidirectional ambiguity: both user intents
and coding tasks are inherently nonlinear, yet must be expressed and
interpreted through linear prompts and code sequen...