📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Neurosymbolic Approach to Natural Language Formalization and Verification

2025-11-15

Авторы:

Sam Bayless, Stefano Buliani, Darion Cassel, Byron Cook, Duncan Clough, Rémi Delmas, Nafi Diallo, Ferhat Erata, Nick Feng, Dimitra Giannakopoulou, Aman Goel, Aditya Gokhale, Joe Hendrix, Marc Hudak, Dejan Jovanović, Andrew M. Kent, Benjamin Kiesl-Reiter, Jeffrey J. Kuna, Nadia Labai, Joseph Lilien, Divya Raghunathan, Zvonimir Rakamarić, Niloofar Razavi, Michael Tautschnig, Ali Torkamani, Nathaniel Weir, Michael W. Whalen, Jianan Yao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models perform well at natural language interpretation and reasoning, but their inherent stochasticity limits their adoption in regulated industries like finance and healthcare that operate under strict policies. To address this limitation, we present a two-stage neurosymbolic framework that (1) uses LLMs with optional human guidance to formalize natural language policies, allowing fine-grained control of the formalization process, and (2) uses inference-time autoformalization to ...

ID: 2511.09008v1 cs.CL, cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Are Language Models Efficient Reasoners? A Perspective from Logic Programming

2025-10-31

Авторы:

Andreas Opedal, Yanick Zengaffinen, Haruki Shirakami, Clemente Pasti, Mrinmaya Sachan, Abulhair Saparov, Ryan Cotterell, Bernhard Schölkopf

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Modern language models (LMs) exhibit strong deductive reasoning capabilities, yet standard evaluations emphasize correctness while overlooking a key aspect of human-like reasoning: efficiency. In real-world reasoning scenarios, much of the available information is irrelevant, and effective deductive inference requires identifying and ignoring such distractions. We propose a framework for assessing LM reasoning efficiency through the lens of logic programming, introducing a simple method to align...

ID: 2510.25626v1 cs.CL, cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Taming Silent Failures: A Framework for Verifiable AI Reliability

2025-10-29

Авторы:

Guan-Yan Yang, Farn Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The integration of Artificial Intelligence (AI) into safety-critical systems introduces a new reliability paradigm: silent failures, where AI produces confident but incorrect outputs that can be dangerous. This paper introduces the Formal Assurance and Monitoring Environment (FAME), a novel framework that confronts this challenge. FAME synergizes the mathematical rigor of offline formal synthesis with the vigilance of online runtime monitoring to create a verifiable safety net around opaque AI c...

ID: 2510.22224v1 cs.SE, cs.AI, cs.LG, cs.LO, cs.SY, eess.SY

arXiv PDF

📄 TGPO: Temporal Grounded Policy Optimization for Signal Temporal Logic Tasks

2025-10-05

Авторы:

Yue Meng, Fei Chen, Chuchu Fan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Learning control policies for complex, long-horizon tasks is a central challenge in robotics and autonomous systems. Signal Temporal Logic (STL) offers a powerful and expressive language for specifying such tasks, but its non-Markovian nature and inherent sparse reward make it difficult to be solved via standard Reinforcement Learning (RL) algorithms. Prior RL approaches focus only on limited STL fragments or use STL robustness scores as sparse terminal rewards. In this paper, we propose TGPO, T...

ID: 2510.00225v1 cs.RO, cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Overcoming Over-Fitting in Constraint Acquisition via Query-Driven Interactive Refinement

2025-10-01

Авторы:

Vasileios Balafas, Dimos Tsouros, Nikolaos Ploskas, Kostas Stergiou

## Контекст Процесс моделирования ограничений в конфронтическом программировании часто является значительным бутонном, который автоматизируется в рамках технологии Constraint Acquisition (CA). Однако, методы пассивного CA склонны к переобучению (over-fitting), что приводит к обнаружению спурановых глобальных ограничений при обучении на ограниченных данных. Активные методы, в свою очередь, могут требовать большого количества запросов, что усложняет их применение. Наша работа призвана решить проблему переобучения в CA, объединяя пассивные и активные методы в интерактивную модель, нацеленную на эффективность и точность. ## Метод Мы предлагаем гибридный подход к CA, включающий в себя следующие этапы: 1. **Пассивное обучение**: Используется машинное обучение для генерации начальных кандидатов ограничений. 2. **Интерактивный фаза рефинимента**: Здесь применяются полученные машинными методами приближенные вероятности для определения вероятности переобучения. Эти метрики помогают системе идентифицировать и удалять ложноположительные ограничения. 3. **Механизм исследования подмножеств**: Если кандидат отвергается, система исследует подмножества, находящиеся внутри него, чтобы выделить корректные ограничения. 4. **Активное обучение**: На этом этапе усилия направляются на достижение полноты модели и улучшение ее точности. ## Результаты Мы проверили нашу модель на различных наборах данных, включая задачи с ограниченным объемом примеров. Интерактивная фаза рефинимента позволила значительно сократить количество запросов, необходимых для достижения высокой точности и полноты модели. Эксперименты показали, что наш подход эффективен в борьбе с переобучением и хорошо справляется с ограниченным количеством примеров. ## Значимость Наш подход может быть применен в сферах, где данные ограничены, но требуется надежный и точный анализ ограничений. Одним из преимуществ является уменьшение количества запросов пользователю, что улучшает интерфейс. Будущие исследования будут направлены на улучшение механизма рефинимента и расширение применения гибридной модели к более сложным задачам моделирования ограничений. ## Выводы Мы представили новую гибридную модель CA, которая успешно использует пассивное обучение и интерактивные методы для решения проблемы переобучения. Наши результаты показали, что этот подход эффективен и практичен для задач с ограниченными данными. Мы продолжим исследовать способы улучшения интерактивных механизмов и расширение применения нашего подхода к более сложным задачам.

Annotation:

Manual modeling in Constraint Programming is a substantial bottleneck, which Constraint Acquisition (CA) aims to automate. However, passive CA methods are prone to over-fitting, often learning models that include spurious global constraints when trained on limited data, while purely active methods can be query-intensive. We introduce a hybrid CA framework specifically designed to address the challenge of over-fitting in CA. Our approach integrates passive learning for initial candidate generatio...

ID: 2509.24489v1 cs.AI, cs.LG, cs.LO, 68T20, 68Q25, I.2.8; F.2.2

arXiv PDF

📄 Transformers Can Learn Connectivity in Some Graphs but Not Others

2025-09-30

Авторы:

Amit Roy, Abulhair Saparov

## Контекст В последние годы трансформеры стали одной из самых популярных архитектур в области машинного обучения, особенно в сфере генерирования текста и обработки естественного языка. Одна из их ключевых сильных сторон — возможность выделять и обрабатывать зависимости в данных. Несмотря на это, их поverие в логических задачах, таких как распознавание транзитивных отношений, остается темной площадью. Транзитивные отношения — это отношения, которые можно вывести из других отношений, например, если известно, что "A вызывает B" и "B вызывает C", то "A вызывает C". Интерес к этой области возникает из-за важности логического разума для систем, которым требуется принятие обоснованных решений. Однако имеются ограничения в способности трансформеров решить такие задачи, особенно при работе с большими и неструктурированными данными. Это исследование фокусируется на рассмотрении способности трансформеров распознавать транзитивные отношения в различных типах графов. ## Метод Для изучения способности трансформеров распознавать транзитивные отношения были использованы директивные графы, которые представляют собой сетки (grid) с разным числом узлов и различной структурой связей. Сетки были сгенерированы в разных размерах, что позволило оценить возможности трансформеров в зависимости от размера и сложности графа. Были изучены модели различных размеров, чтобы провести сравнение моделей с меньшим и большим числом параметров. Для каждой модели был проведен тренировочный процесс, где модели получали графы в качестве входных данных, и тестировочный процесс, где они стремились извлечь транзитивные отношения. На основе этих экспериментов был проведен анализ показателей обучения и обобщения моделей. ## Результаты Результаты исследования показали, что трансформеры могут успешно учить и применять транзитивные отношения на "равномерных" графах вида сетка (grid), где каждый узел может быть вложен в низкоразмерное подпространство, а транзитивность легко выводится из позиций узлов. Такие графы хорошо соответствуют трансформерским моделям, которые способны обнаруживать такие структуры в данных. Однако, когда графы имели более сложную структуру, включая разбиение на отдельные компоненты, у трансформеров возникали серьезные трудности. Это особенно приметно при работе с большими графами, которые содержат много несоединенных компонент. Было также выявлено, что увеличение размера модели приводит к лучшей модели общей силы и полноте в области графов-сетей. ## Значимость Результаты экспериментов имеют важно

Annotation:

Reasoning capability is essential to ensure the factual correctness of the responses of transformer-based Large Language Models (LLMs), and robust reasoning about transitive relations is instrumental in many settings, such as causal inference. Hence, it is essential to investigate the capability of transformers in the task of inferring transitive relations (e.g., knowing A causes B and B causes C, then A causes C). The task of inferring transitive relations is equivalent to the task of connectiv...

ID: 2509.22343v1 cs.CL, cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Efficient & Correct Predictive Equivalence for Decision Trees

2025-09-26

Авторы:

Joao Marques-Silva, Alexey Ignatiev

## Контекст Область исследования, связанная с разработкой и анализом моделей деревьев решений (decision trees, DT), широко применяется в машинном обучении, анализе данных и технологиях принятия решений. Одной из ключевых проблем в этой области является сокращение необходимости и уменьшение размера DT, а также гарантирование поддержания точности исходных моделей. Одним из наиболее важных понятий в этой области является понятие **predictive equivalence** (предиктивной эквивалентности), которое определяет, являются ли две DT эквивалетными в том смысле, что обе дают идентичные предсказания для любого возможного входного значения. Однако рассматриваемый вопрос становится сложнее из-за того, что многие DT могут быть представлены в множестве значительного размера, что может привести к высокой необходимости выявления подобных эквивалентных моделей. Таким образом, необходимо выявить эффективные методы для решения этой проблемы. ## Метод Для решения проблемы предиктивной эквивалентности DT используется метод **Quine-McCluskey (QM)**, который предназначен для получения минимального представления в виде дизъюнктивной нормальной формы (DNF). Было предложено применять этот метод для сравнения DT, поиска минимальных представлений, а также для обработки данных с пропусками. Однако, необходимо учитывать, что метод QM является экспоненциально сложным в худшем случае, что может привести к увеличению времени выполнения и сложности памяти. Для улучшения эффективности применяется развитие новых подходов, которые позволяют решать задачи поиска предиктивной эквивалентности быстрее и более точно, чем в случае применения QM. ## Результаты Проведенные эксперименты показали, что использование QM в качестве основы для решения проблемы предиктивной эквивалентности может привести к проблемам, таким как высокая сложность вычислений и возможность неточности результатов. Однако новые методы, предложенные в этой работе, позволяют достичь значительного ускорения выполнения вычислений, особенно при работе с DT, которые имеют сложные структуры. Эти новые методы позволяют эффективно решать задачи, такие как выявление предиктивной эквивалентности, вычисление экспертных рекомендаций и работа с данными с пропусками, существенно сократив время выполнения в сравнении с QM. ## Значимость Результаты этого исследования имеют важное применение в многих областях, таких как классификация данных, выявление причинных связей в данных, а также в области обработки данных с пропусками. Благодаря повышенной эффективности новых методов, можно значительно сократить время работы и повысить точность решений в приложениях, где используются DT. Кроме того, эти результаты могут быть исполь

Annotation:

The Rashomon set of decision trees (DTs) finds importance uses. Recent work showed that DTs computing the same classification function, i.e. predictive equivalent DTs, can represent a significant fraction of the Rashomon set. Such redundancy is undesirable. For example, feature importance based on the Rashomon set becomes inaccurate due the existence of predictive equivalent DTs, i.e. DTs with the same prediction for every possible input. In recent work, McTavish et al. proposed solutions for se...

ID: 2509.17774v2 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Efficient & Correct Predictive Equivalence for Decision Trees

2025-09-24

Авторы:

Joao Marques-Silva, Alexey Ignatiev

## Контекст Одной из актуальных проблем в области машинного обучения является анализ и эффективное использование моделей, таких как деревья решений (далее DT). Эти модели широко применяются для задач классификации и регрессии. Одна из важных проблем, связанных с DT, — это определение их прозрачности и эффективности. Одним из ключевых понятий является **predictive equivalence** (эквивалентность классификации), которая означает, что два DT могут давать одинаковые предсказания для всех возможных входных данных. Эта эквивалентность важна для проверки моделей и понимания их внутренней структуры. Несмотря на важность этой проблемы, существуют проблемы с точностью и скоростью поиска таких эквивалентных моделей. Одно из значимых исследований в этой области — работа McTavish et al., которая предлагает метод Quine-McCluskey (QM) для решения этой задачи. Однако эта подход имеет существенные ограничения, включая возможную экспоненциальную сложность и возможность производить неточные результаты. В данной работе предлагается новый подход к решению проблемы эквивалентности классификации DT, который адресует ограничения существующих методов. ## Метод Чтобы оптимизировать процесс поиска эквивалентных DT, рассматривается альтернативная модель, основанная на представлении деревьев через минимальное DNF (дизъюнктивное нормальное выражение). Это представление позволяет эффективно сравнивать два DT на эквивалентность, так как DNF-формы могут быть быстро сравниваться в математическом смысле. Технический подход заключается в следующем: 1. Каждая ветвь DT представляется в виде булевой формулы. 2. Эти формулы комбинируются в DNF-форму, которая соответствует логике работы DT. 3. Для того чтобы проверить эквивалентность двух DT, их DNF-формулы сравниваются на равенство. Этот подход позволяет избежать использования QM-метода, который может быть экспоненциально неэффективным. Вместо этого используется более структурированная и гибкая модель, позволяющая решать задачу быстрее и более точно. ## Результаты Для проверки эффективности нового подхода проведены эксперименты на различных наборах данных и моделях DT. Опыт показал, что: 1. Новый подход работает на порядок быстрее, чем алгоритм QM, особенно при работе с большими DT. 2. Производительность нового подхода не зависит от сложности входных DT, так как он основывается на логических представлениях, а не на вычислениях по всем возможным входным данным. 3. Сравнительные эксперименты показали, что новый подход дает точные результаты, в то время как QM может производить неточности. Например, при использовании набо

Annotation:

ID: 2509.17774v1 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Neuro-Symbolic Agents with Modal Logic for Autonomous Diagnostics

2025-09-17

Авторы:

Antonin Sulc, Thorsten Hellert

## Контекст Одним из основных направлений развития искусственного интеллекта является создание автономных агентов, способных принимать рациональные решения в сложных и непредсказуемых средах. Это приложение находится в сервисе в сферах, таких как робототехника, телемедицина, а также в системах управления и мониторинга объектов, где автономность и точность принятия решений крайне важны. Однако существуют значительные проблемы, связанные с ограниченностью логической модели, которая используется в современных агентах. Например, многие агенты полагаются лишь на неструктурированные данные в виде текста или изображений, часто игнорируя систематическую и верифицируемую модель знаний. Эта проблема особенно актуальна при диагностике сложных систем, таких как частицеского ускорителя. Наша мотивация заключается в создании агента, который может объединить мощь нейросетевой модели и формального логического подхода. ## Метод Мы предлагаем нейро-символьную архитектуру, основанную на модальной логике, в которой верифицируемая логическая модель используется для формализации знаний о системе. Агенты в этой архитектуре имеют внутреннюю модель верифицируемости (Kripke-модель), которая позволяет им выражать возможность и необходимость в пределах модальной логики. Данные, которые используются для обучения, подготавливаются в виде доменно-специфичных фактов, которые являются неизменными и полностью удостоверенными. Логические ограничения, заданные этими фактами, используются для гипотезирования и проверки возможных выводов. Наш агент также использует языковые модели (LMs) для генерирования информации, которая активно учитывает логические ограничения и физические законы. ## Результаты Мы проверили нашу модель в симулированной среде частицеского ускорителя, где надо диагностировать сложные, последовательные неисправности. Наши эксперименты показали, что модель может стабильно выявлять корень проблемы, даже при запутанных ситуациях. Мы сравнили нашу модель с другими подходами, такими как только языковые модели без логического подкрепления. Результаты показали, что наш подход дает значительно более верные и точные выводы. Основной доказательство может служить сценарий, в котором агент корректно выявляет неисправность, которая возникает из-за нескольких сочетаний неполадок, что для других систем оказалось недоступно. ## Значимость Наш подход может быть применен в многих областях, где необходима точная диагностика и автономность. Например, в телемедицине, где необходимо выявить болезнь по нескольким симптомам, или в инженерии, г

Annotation:

The development of intelligent agents, particularly those powered by language models (LMs), has shown the critical role in various environments that require intelligent and autonomous decision. Environments are not passive testing grounds and they represent the data required for agents to learn and exhibit very challenging conditions that require adaptive, complex and autonomous capacity to make decisions. While the paradigm of scaling models and datasets has led to remarkable emergent capabilit...

ID: 2509.11943v1 cs.AI, cs.LG, cs.LO, cs.MA

arXiv PDF

📄 Autonomous Code Evolution Meets NP-Completeness

2025-09-11

Авторы:

Cunxi Yu, Rongjian Liang, Chia-Tung Ho, Haoxing Ren

willingness to pay for a utility bill in the form of cryptocurrencies. --- ## Контекст В последние годы системы управления и анализа данных получили значительный рост благодаря развитию искусственного интеллекта и глубокого обучения. Одним из актуальных направлений является исследование возможностей Легких языковых моделей (LLMs) в области кодирования и автоматизации разработки программного обеспечения. Несмотря на показательные результаты LLMs в изолированных задачах, таких как локальные алгоритмы и программные фрагменты, существует значительный трудность применения этих моделей к более широким исходным кодам, включающим сотни файлов и тысячи строк. Недостаток адаптации делает невозможным полноценное использование LLMs в реальных проектах. В этой статье мы затрагиваем проблему преодоления трудностей в использовании LLMs для выполнения кодовой эволюции на уровне полных репозиториев. Мы покажем, что новые подходы, основанные на Лингвистике и Математическом анализе, позволяют внедрять мощные средства кодовой эволюции в реальные процессы разработки. ## Метод Мы предлагаем SATLUTION — первую фреймворк для кодовой эволюции, основанной на Легких языковых моделях, расширенную до уровня полного репозитория. SATLUTION использует LLM-агентов, которые автоматически адаптируются для эволюции проектов на C/C++, состоящих из сотен файлов и десятков тысяч строк кода. Архитектура SATLUTION включает в себя модели активного управления потоками, систему мониторинга и оптимизации распределенного вычисления, а также механизмы эволюции политик и алгоритмов. Мы применяем SATLUTION к SAT Competition 2024 и показываем, что его реализации не только улучшают результаты лучших решений 2024 года, но и побеждают всех участников SAT Competition 2025. ## Результаты Мы проводим эксперименты на реальном проекте, состоящем из сотен файлов и тысяч строк. Наши результаты показывают, что SATLUTION автоматически улучшает существующие алгоритмы и решения в 40% случаев, достигая результатов, которые превышают решения лучших команд SAT Competition 2025. Мы также проводим эксперименты с другими системами в той же области и показываем, что SATLUTION значительно превосходит все известные альтернативы. ## Значимость Результаты SATLUTION открывают новые горизонты в области разработки программного обеспечения. Мы показываем, что LLM-агенты могут применяться в реальности для решения широкого спектра задач, включая проблемы NP-сложности. Это может привести к существенному повышению эффективности разработки программ и уменьшению человеческих усилий. ## Выводы Мы представляем SATLUTION — первую систему, которая успешно расширяет мощь LLMs на уровень

Annotation:

Large language models (LLMs) have recently shown strong coding abilities, enabling not only static code generation but also iterative code self-evolving through agentic frameworks. Recently, AlphaEvolve \cite{novikov2025alphaevolve} demonstrated that LLM-based coding agents can autonomously improve algorithms and surpass human experts, with scopes limited to isolated kernels spanning hundreds of lines of code. Inspired by AlphaEvolve, we present SATLUTION, the first framework to extend LLM-based...

ID: 2509.07367v1 cs.AI, cs.LG, cs.LO

arXiv PDF

Показано 1 - 10 из 16 записей