📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Zhening Li, Armando Solar-Lezama, Yisong Yue, Stephan Zheng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We introduce a new approach to agent programming, the development of LLM-based agents. Current approaches to agent programming often entangle two aspects of agent design: the core workflow logic and the inference-time strategy (e.g., tree search). We introduce "probabilistic angelic nondeterminism" ("PAN"), a programming model that disentangles these two concerns, allowing the programmer to describe the agent workflow and independently experiment with different inference-time strategies by simpl...
ID: 2512.03571v1 cs.AI, cs.LG, cs.PL
Авторы:

Chengpeng Li, Farnaz Behrang, August Shi, Peng Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Flaky tests that non-deterministically pass or fail waste developer time and slow release cycles. While large language models (LLMs) show promise for automatically repairing flaky tests, existing approaches like FlakyDoctor fail in industrial settings due to the context problem: providing either too little context (missing critical production code) or too much context (overwhelming the LLM with irrelevant information). We present FlakyGuard, which addresses this problem by treating code as a gra...
ID: 2511.14002v1 cs.SE, cs.AI, cs.LG, cs.PL
Авторы:

Eric Vin, Kyle A. Miller, Inigo Incer, Sanjit A. Seshia, Daniel J. Fremont

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Full verification of learning-enabled cyber-physical systems (CPS) has long been intractable due to challenges including black-box components and complex real-world environments. Existing tools either provide formal guarantees for limited types of systems or test the system as a monolith, but no general framework exists for compositional analysis of learning-enabled CPS using varied verification techniques over complex real-world environments. This paper introduces ScenicProver, a verification f...
ID: 2511.02164v1 cs.LO, cs.AI, cs.LG, cs.PL
Авторы:

Yinxi Li, Yuntian Deng, Pengyu Nie

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language models (LLMs) for code rely on subword tokenizers, such as byte-pair encoding (BPE), learned from mixed natural language text and programming language code but driven by statistics rather than grammar. As a result, semantically identical code snippets can be tokenized differently depending on superficial factors such as whitespace or identifier naming. To measure the impact of this misalignment, we introduce TokDrift, a framework that applies semantic-preserving rewrite rules to c...
ID: 2510.14972v1 cs.CL, cs.AI, cs.LG, cs.PL, cs.SE
Авторы:

Kadin Matotek, Heather Cassel, Md Amiruzzaman, Linh B. Ngo

## Контекст Область исследований, посвященная оценке локальных больших языковых моделей (LLMs) в решении сложных задач программирования, является ключевой для понимания их потенциала и ограничений в реальной практике. Существующие проблемы заключаются в том, что многие локальные LLMs страдают от нехватки ресурсов, ограниченности контекста и недостаточной точности при обработке сложных задач. Эти ограничения приводят к узкому применению в конкурентных программирующих задачах, где необходима высокая точность и полнота вывода. Мотивация заключается в том, чтобы оценить эффективность локальных LLMs и выявить потенциал их улучшения, чтобы они могли стать более конкурентоспособными в сравнении с проприетарными решениями. ## Метод Методология основывается на разработке и развитии Framework for AI-driven Code Generation Evaluation (FACE), который был адаптирован для работы в офлайн-режиме с использованием Ollama runtime. Это позволило сократить многоуровневую структуру данных на каждой задаче до нескольких сплошных JSON-файлов и внедрить систему резервного копирования для возобновления работы после сбоев. Исследования охватывают 3,589 задач из Kattis corpus, протестированные на 8 моделях с параметрами от 6.7 до 9 миллиардов. Данные были сгенерированы, отправлены и записаны в процессе экспериментов, чтобы оценить точность и достоверность решений. ## Результаты Результаты показали, что пропускная способность (pass@1 accuracy) локальных моделей в сравнении с проприетарными моделями Gemini 1.5 и ChatGPT-4 остается значительно ниже. Лучшие локальные модели достигли приблизительно половины точности проприетарных решений. Тем не менее, наблюдается улучшение открытых моделей, что демонстрирует их возможность расти и оптимизироваться в будущем. Результаты также подчеркивают необходимость развития более эффективных методов для обучения и оценки локальных LLMs. ## Значимость Полученные результаты имеют значимые применения в области развития инструментов для программистов, позволяя оценивать и улучшать локальные модели в условиях реалистичных задач. Эти модели могут использоваться в образовательных программах, курсах по программированию и конкурсах, где требуется высокая точность решения задач. Благодаря открытому коду и возможности повторения результатов на внутренней инфраструктуре, данный подход обеспечивает гибкость и удобство для организаций. ## Выводы Основные достижения заключаются в том, что локальные LLMs, несмотря на свои ограничения, демонстрируют улучшение в сравнении с предыдущими моделями и могут быть применены в решении конкретных задач программирования. Будущие исследования должны сконцентрироваться на улучшении точности и расширении контекста, а такж
Annotation:
This study examines the performance of today's open-source, locally hosted large-language models (LLMs) in handling complex competitive programming tasks with extended problem descriptions and contexts. Building on the original Framework for AI-driven Code Generation Evaluation (FACE), the authors retrofit the pipeline to work entirely offline through the Ollama runtime, collapsing FACE's sprawling per-problem directory tree into a handful of consolidated JSON files, and adding robust checkpoint...
ID: 2509.15283v1 cs.SE, cs.AI, cs.LG, cs.PL, I.2.7; F.2.2; I.2.2
Авторы:

Kaustuv Mukherji, Jaikrishna Manojkumar Patil, Dyuman Aditya, Paulo Shakarian, Devendra Parkar, Lahari Pokala, Clark Dorman, Gerardo I. Simari

## Контекст Область исследования, связанная с логикой, непрерывно развивается, с целью улучшения моделей открытых миров, включая те, что используются для распределенных систем и систем решения задач в игровых пространствах. Одной из ключевых проблем в этой области является недостаточность традиционных моделей поддержки надежных открытых миров, которые могут обрабатывать не только информацию о действиях, но и временную информацию, необходимую для написания логики, которая может справиться с динамическими и неопределенными условиями. Это приводит к необходимости в развитии новых подходов, которые могут объединять мощные методы рассуждения с гибкой моделью времени, чтобы обеспечить эффективное решение таких задач. ## Метод LAT Logic (Lattice Annotated Temporal Logic) представляет собой расширение Generalized Annotated Logic Programs (GAPs), которое включает в себя логику времени и работу с открытым миром, используя нижнюю латтиссовую структуру. В этой модели используется эффективная процедура вывода в сочетании с логикой программирования. Одним из основных моментов является то, что LAT Logic поддерживает не только Markovovские отношения, но и концепцию "открытого мира", что включает в себя возможность работы с бесконечным или высокообъемным константным пространством. Метод заключается в том, чтобы использовать эту латтиссовую структуру для эффективного описания и вывода во временных задачах, что позволяет обрабатывать открытые задачи с использованием сложных временных зависимостей. ## Результаты В рамках экспериментов, проведенных в рамках разработки LAT Logic, были использованы различные задачи, включающие в себя как логические задачи, так и задачи, основанные на знаниях, которые требуют работы в динамических средах. Для проверки имплементации использовался PyReason, модульный инструмент с машинно-уровневой оптимизацией и интеграцией с окружениями реинфорсментного обучения. Результаты экспериментов показали, что LAT Logic демонстрирует значительные улучшения в скорости работы и эффективности за счет эффективного использования памяти. В задачах, связанных с реинфорсментным обучением, LAT Logic достигла до трех порядков меньшей скорости симуляции, что позволило улучшить производительность агента на 26%. Эти результаты подтверждают мощность новой модели в области логики времени и открытых миров. ## Значимость Помимо теоретического вклада в развитие логики времени и теории открытых миров, LAT Logic имеет практическое применение в различных областях, включая моделирование динамических систем, интеллектуальные технологии, системы решения задач в игровых пространствах. Одной из основных преимуществ этой модели является
Annotation:
We introduce Lattice Annotated Temporal (LAT) Logic, an extension of Generalized Annotated Logic Programs (GAPs) that incorporates temporal reasoning and supports open-world semantics through the use of a lower lattice structure. This logic combines an efficient deduction process with temporal logic programming to support non-Markovian relationships and open-world reasoning capabilities. The open-world aspect, a by-product of the use of the lower-lattice annotation structure, allows for efficien...
ID: 2509.02958v1 cs.LO, cs.AI, cs.LG, cs.PL