📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Zhening Li, Armando Solar-Lezama, Yisong Yue, Stephan Zheng
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We introduce a new approach to agent programming, the development of LLM-based agents. Current approaches to agent programming often entangle two aspects of agent design: the core workflow logic and the inference-time strategy (e.g., tree search). We introduce "probabilistic angelic nondeterminism" ("PAN"), a programming model that disentangles these two concerns, allowing the programmer to describe the agent workflow and independently experiment with different inference-time strategies by simpl...
Авторы:
Chengpeng Li, Farnaz Behrang, August Shi, Peng Liu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Flaky tests that non-deterministically pass or fail waste developer time and slow release cycles. While large language models (LLMs) show promise for automatically repairing flaky tests, existing approaches like FlakyDoctor fail in industrial settings due to the context problem: providing either too little context (missing critical production code) or too much context (overwhelming the LLM with irrelevant information). We present FlakyGuard, which addresses this problem by treating code as a gra...
📄 ScenicProver: A Framework for Compositional Probabilistic Verification of Learning-Enabled Systems
2025-11-06Авторы:
Eric Vin, Kyle A. Miller, Inigo Incer, Sanjit A. Seshia, Daniel J. Fremont
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Full verification of learning-enabled cyber-physical systems (CPS) has long
been intractable due to challenges including black-box components and complex
real-world environments. Existing tools either provide formal guarantees for
limited types of systems or test the system as a monolith, but no general
framework exists for compositional analysis of learning-enabled CPS using
varied verification techniques over complex real-world environments. This paper
introduces ScenicProver, a verification f...
Авторы:
Yinxi Li, Yuntian Deng, Pengyu Nie
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language models (LLMs) for code rely on subword tokenizers, such as
byte-pair encoding (BPE), learned from mixed natural language text and
programming language code but driven by statistics rather than grammar. As a
result, semantically identical code snippets can be tokenized differently
depending on superficial factors such as whitespace or identifier naming. To
measure the impact of this misalignment, we introduce TokDrift, a framework
that applies semantic-preserving rewrite rules to c...
Авторы:
Kadin Matotek, Heather Cassel, Md Amiruzzaman, Linh B. Ngo
## Контекст
Область исследований, посвященная оценке локальных больших языковых моделей (LLMs) в решении сложных задач программирования, является ключевой для понимания их потенциала и ограничений в реальной практике. Существующие проблемы заключаются в том, что многие локальные LLMs страдают от нехватки ресурсов, ограниченности контекста и недостаточной точности при обработке сложных задач. Эти ограничения приводят к узкому применению в конкурентных программирующих задачах, где необходима высокая точность и полнота вывода. Мотивация заключается в том, чтобы оценить эффективность локальных LLMs и выявить потенциал их улучшения, чтобы они могли стать более конкурентоспособными в сравнении с проприетарными решениями.
## Метод
Методология основывается на разработке и развитии Framework for AI-driven Code Generation Evaluation (FACE), который был адаптирован для работы в офлайн-режиме с использованием Ollama runtime. Это позволило сократить многоуровневую структуру данных на каждой задаче до нескольких сплошных JSON-файлов и внедрить систему резервного копирования для возобновления работы после сбоев. Исследования охватывают 3,589 задач из Kattis corpus, протестированные на 8 моделях с параметрами от 6.7 до 9 миллиардов. Данные были сгенерированы, отправлены и записаны в процессе экспериментов, чтобы оценить точность и достоверность решений.
## Результаты
Результаты показали, что пропускная способность (pass@1 accuracy) локальных моделей в сравнении с проприетарными моделями Gemini 1.5 и ChatGPT-4 остается значительно ниже. Лучшие локальные модели достигли приблизительно половины точности проприетарных решений. Тем не менее, наблюдается улучшение открытых моделей, что демонстрирует их возможность расти и оптимизироваться в будущем. Результаты также подчеркивают необходимость развития более эффективных методов для обучения и оценки локальных LLMs.
## Значимость
Полученные результаты имеют значимые применения в области развития инструментов для программистов, позволяя оценивать и улучшать локальные модели в условиях реалистичных задач. Эти модели могут использоваться в образовательных программах, курсах по программированию и конкурсах, где требуется высокая точность решения задач. Благодаря открытому коду и возможности повторения результатов на внутренней инфраструктуре, данный подход обеспечивает гибкость и удобство для организаций.
## Выводы
Основные достижения заключаются в том, что локальные LLMs, несмотря на свои ограничения, демонстрируют улучшение в сравнении с предыдущими моделями и могут быть применены в решении конкретных задач программирования. Будущие исследования должны сконцентрироваться на улучшении точности и расширении контекста, а такж
Annotation:
This study examines the performance of today's open-source, locally hosted
large-language models (LLMs) in handling complex competitive programming tasks
with extended problem descriptions and contexts. Building on the original
Framework for AI-driven Code Generation Evaluation (FACE), the authors retrofit
the pipeline to work entirely offline through the Ollama runtime, collapsing
FACE's sprawling per-problem directory tree into a handful of consolidated JSON
files, and adding robust checkpoint...
Авторы:
Kaustuv Mukherji, Jaikrishna Manojkumar Patil, Dyuman Aditya, Paulo Shakarian, Devendra Parkar, Lahari Pokala, Clark Dorman, Gerardo I. Simari
## Контекст
Область исследования, связанная с логикой, непрерывно развивается, с целью улучшения моделей открытых миров, включая те, что используются для распределенных систем и систем решения задач в игровых пространствах. Одной из ключевых проблем в этой области является недостаточность традиционных моделей поддержки надежных открытых миров, которые могут обрабатывать не только информацию о действиях, но и временную информацию, необходимую для написания логики, которая может справиться с динамическими и неопределенными условиями. Это приводит к необходимости в развитии новых подходов, которые могут объединять мощные методы рассуждения с гибкой моделью времени, чтобы обеспечить эффективное решение таких задач.
## Метод
LAT Logic (Lattice Annotated Temporal Logic) представляет собой расширение Generalized Annotated Logic Programs (GAPs), которое включает в себя логику времени и работу с открытым миром, используя нижнюю латтиссовую структуру. В этой модели используется эффективная процедура вывода в сочетании с логикой программирования. Одним из основных моментов является то, что LAT Logic поддерживает не только Markovovские отношения, но и концепцию "открытого мира", что включает в себя возможность работы с бесконечным или высокообъемным константным пространством. Метод заключается в том, чтобы использовать эту латтиссовую структуру для эффективного описания и вывода во временных задачах, что позволяет обрабатывать открытые задачи с использованием сложных временных зависимостей.
## Результаты
В рамках экспериментов, проведенных в рамках разработки LAT Logic, были использованы различные задачи, включающие в себя как логические задачи, так и задачи, основанные на знаниях, которые требуют работы в динамических средах. Для проверки имплементации использовался PyReason, модульный инструмент с машинно-уровневой оптимизацией и интеграцией с окружениями реинфорсментного обучения. Результаты экспериментов показали, что LAT Logic демонстрирует значительные улучшения в скорости работы и эффективности за счет эффективного использования памяти. В задачах, связанных с реинфорсментным обучением, LAT Logic достигла до трех порядков меньшей скорости симуляции, что позволило улучшить производительность агента на 26%. Эти результаты подтверждают мощность новой модели в области логики времени и открытых миров.
## Значимость
Помимо теоретического вклада в развитие логики времени и теории открытых миров, LAT Logic имеет практическое применение в различных областях, включая моделирование динамических систем, интеллектуальные технологии, системы решения задач в игровых пространствах. Одной из основных преимуществ этой модели является
Annotation:
We introduce Lattice Annotated Temporal (LAT) Logic, an extension of
Generalized Annotated Logic Programs (GAPs) that incorporates temporal
reasoning and supports open-world semantics through the use of a lower lattice
structure. This logic combines an efficient deduction process with temporal
logic programming to support non-Markovian relationships and open-world
reasoning capabilities. The open-world aspect, a by-product of the use of the
lower-lattice annotation structure, allows for efficien...