📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs

2025-09-05

Авторы:

Yanxiao Zhao, Yaqian Li, Zihao Bo, Rinyoichi Takezoe, Haojia Hui, Mo Guang, Lei Ren, Xiaolin Qin, Kaiwen Long

## Контекст Настоящие построители суть вопроса (LLMs) показали впечатляющие возможности в области общего логического рассуждения. Однако эти модели часто сталкиваются с трудностями при работе с более сложными задачами, которые требуют проработки многомерных подходов и разнообразных типов задач. Существующие инструменты для оценки и улучшения логических возможностей LLMs часто обладают ограниченной скоростью, ограниченной степенью управляемости или направленностью на конкретные задачи. Это приводит к недостаточной систематизации в систематическом анализе и реальном вкладе в прогресс моделей. Для решения этой проблемы, мы предлагаем SATQuest — инструмент, способный систематически оценивать и улучшать логические возможности LLMs, создавая задачи логического рассуждения на основе нормальной формы Конъюнктивного Нормального Вида (CNF). ## Метод SATQuest работает на основе технологии SAT-распараллеливания для генерации разнообразных задач логического рассуждения. Он структурирует эти задачи вокруг трех основных параметров: масштаб задачи, тип задачи и варианты формулировки вопросов. Генерация происходит с помощью SAT-модели, а проверка ответов осуществляется в реальном времени с использованием PySAT. Это позволяет SATQuest предоставлять контролируемые, систематически структурированные задачи, которые помогают минимизировать проблему запоминания и обеспечивают более глубокий взгляд на состояние логических возможностей моделей. Данная систематическая архитектура позволяет эффективно развивать и улучшать LLM с помощью переноса возможностей и рефинейма. ## Результаты Мы провели широкий анализ работы SATQuest на различных моделях логического рассуждения. Эксперименты показали, что LLMs часто страдают от проблем с распространением за пределы ограниченного диапазона форматов задач, в частности, было продемонстрировано, что модели страдают от небольшого масштаба и повторений в задачах, принятых в традиционных бенчмарках. Однако с помощью SATQuest, мы увидели значительные улучшения в целевых метриках логического рассуждения, включая улучшение во времени, в общем понимании и решении задач. Мы также продемонстрировали, что ретренировка модели с помощью SATQuest способствует улучшению логического понимания и гибкости в работе с разнообразными задачами. ## Значимость SATQuest широко применим в области оценки и улучшения логических моделей, включая проверку их логических возможностей, моделирование различных типов задач и тестирование моделей в разных форматах. Он предоставляет новые возможности для глубокой аналитики и оптимизации моделей логического рассуждения, что может повли

Annotation:

Recent advances in Large Language Models (LLMs) have demonstrated remarkable general reasoning capabilities. However, systematically evaluating and enhancing these reasoning capabilities is challenging due to the lack of controllable and scalable tools for fine-grained analysis. Existing benchmarks and datasets often lack the necessary variable control for multi-dimensional, systematic analysis and training, or have narrow problem types and formats. To address these limitations, we introduce SAT...

ID: 2509.00930v1 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 P2C: Path to Counterfactuals

2025-08-29

Авторы:

Sopam Dasgupta, Sadaf MD Halim, Joaquín Arias, Elmer Salazar, Gopal Gupta

## Контекст Машинное обучение вступает важное значение в решении решений в высокорисковых сферах, таких как финансы, право и трудоустройство. Такие модели, однако, часто оказываются непрозрачными, что создает необходимость в разъяснении их решений. Однако транспарентность часто конфликтует с возможностью развития: появлением действий для изменения результата. Counterfactual explanations позволяют понять, почему результат нежелателен, и какими целевыми изменениями возможно изменить этот результат. Существующие классические подходы к counterfactuals игнорируют зависимости между фичами и предполагают, что все изменения могут произойти одновременно, что невозможно в реальной жизни. Это затрудняет применение этих подходов в практических ситуациях. ## Метод P2C (Path-to-Counterfactuals) предлагает модель-независимый подход для генерации качественных counterfactual explanations. Он акцентирует внимание на моделировании как структурной зависимости между фичами, так и последовательности их изменения. P2C использует систему Answer Set Programming (ASP) для вывода плана изменений, который берет в расчет динамические изменения, вызванные причинными связями. Эта система также перерабатывает стоимость изменений, рассчитывая только те изменения, которые пользователь действительно произвел, что делает результат более реалистичным. ## Результаты P2C проверено на задачах из различных областей, таких как финансы и борьба со спамом. Эксперименты показали, что P2C генерирует counterfactual explanations, которые соблюдают причинные связи и являются реалистичными для реального применения. Эти результаты показали, что P2C превосходит существующие подходы в том, что он учитывает как структурные зависимости, так и порядок изменений в плане. ## Значимость P2C может быть применен в любой сфере, где требуется сбалансированный подход к транспарентности и действительным решениям, таких как финансы, право и искусственный интеллект. Наиболее значительным преимуществом является то, что P2C выделяет логический порядок изменений, что делает его решения более реалистичными и применимыми. Это может положительно влиять на развитие методологий в области безопасного и честного использования AI. ## Выводы P2C представляет собой мощный подход для генерации качественных counterfactual explanations, учитывающий логические зависимости и практические ограничения. Будущие исследования будут стремиться расширить применение P2C на более сложные задачи и более разнообразные сети причинных связей, чтобы повысить его универсальность и эффективность.

Annotation:

Machine-learning models are increasingly driving decisions in high-stakes settings, such as finance, law, and hiring, thus, highlighting the need for transparency. However, the key challenge is to balance transparency -- clarifying `why' a decision was made -- with recourse: providing actionable steps on `how' to achieve a favourable outcome from an unfavourable outcome. Counterfactual explanations reveal `why' an undesired outcome occurred and `how' to reverse it through targeted feature change...

ID: 2508.20371v1 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 MC3G: Model Agnostic Causally Constrained Counterfactual Generation

2025-08-27

Авторы:

Sopam Dasgupta, Sadaf MD Halim, Joaquín Arias, Elmer Salazar, Gopal Gupta

```## Контекст Машинное обучение (ML) взаимодействует с огромным количеством данных и используется для принятия решений в критических областях, таких как финансы, право и трудоустройство. Тем не менее, несмотря на высокую точность ML-моделей, их решения часто остаются непонятными для пользователей. Это снижает транспарентность, ухудшает доверие к моделям и затрудняет поиск способа предоставить пользователям действительные возможности для получения более положительного результата. Одним из таких способов являются каузально ограниченные контрфактольные объяснения (Counterfactual Explanations), которые показывают, как изменение определенных признаков может привести к более выгодному результату. Однако, существующие методы часто неэффективны, неточны в расчете затрат или не могут применяться к широкому спектру моделей. Этот рост запросов на транспарентность и понятность решений продвигает развитие новых способов генерации контрфактольных объяснений. ``` ```## Метод MC3G (Model-Agnostic Causally Constrained Counterfactual Generation) - это новый подход к генерации контрфактольных объяснений, который может применяться к любой модели (даже к тем, которые являются "черными ящиками"). Метод работает в два этапа: 1. **Построение подходящего суррогатного модели**: MC3G использует аппроксимацию черного ящика с помощью простой, легко понятной пороговой модели. Это позволяет понять, как признаки влияют на решение модели без раскрытия её внутренних механизмов. 2. **Генерация контрфактольных рекомендаций**: Используя суррогатную модель, MC3G вычисляет наименьший набор изменений, необходимых для получения более положительного результата. В этой модели также учитывается причинно-следственное взаимодействие между признаками, исключая из расчета затрат, связанных с изменениями, которые происходят автоматически в результате других перемен. Оба этапа позволяют MC3G генерировать контрфактольные рекомендации, которые не только интерпретируемы, но и эффективны в их реализации. ``` ```## Результаты Мы проводили эксперименты с различными типами моделей (например, линейными, деревьями решений и нейронными сетями) и продемонстрировали, что MC3G выдает более точные и действительно реализуемые рекомендации по контрфактольным объяснениям по сравнению с другими методами. Качество рекомендаций измерялось по таким критериям, как **пригодность** (то, насколько рекомендации подходят пользователю для достижения более выгодного результата) и **затратность** (стоимость внесения изменений). Результаты показали, что MC3G не только лучше конкурентов по этим критериям, но и демонстрирует низкую затратность изменений, что удобно для по

Annotation:

Machine learning models increasingly influence decisions in high-stakes settings such as finance, law and hiring, driving the need for transparent, interpretable outcomes. However, while explainable approaches can help understand the decisions being made, they may inadvertently reveal the underlying proprietary algorithm: an undesirable outcome for many practitioners. Consequently, it is crucial to balance meaningful transparency with a form of recourse that clarifies why a decision was made and...

ID: 2508.17221v1 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Value Function Initialization for Knowledge Transfer and Jump-start in Deep Reinforcement Learning

2025-08-15

Авторы:

Soumia Mehimeh

#### Контекст Данная статья рассматривает проблему ускорения обучения в среде глубокого reinforcement learning (DRL) с использованием метода value function initialization (VFI). VFI позволяет эффективно использовать знания, полученные на предыдущих задачах, для быстрого старта в новых задачах. Это подходят для статических табулярных задач, но в DRL, где пространство действий и состояний является непрерывным, использование таких методов становится сложным. Ограничения таких подходов включают трудности с нелинейными нейронными сетями, нестабильностью значений при оценке и невозможность хранения всех предыдущих моделей. Тем не менее, решение этой проблемы может позволить эффективно использовать существующие знания в DRL, ускорив обучение и повысив качество решения задач. #### Метод Метод, предложенный в данной статье, называется DQInit. Он предлагает адаптировать VFI для DRL, используя компактные табулярные Q-значения, полученные из предыдущих задач. Внедрение этих значений во время обучения DRL осуществляется через "механизм значимости", который способствует мягкому интегрированию этих знаний в неизученные регионы пространства. Это позволяет избежать проблем, связанных с фиксированной схемой устаревания. DQInit эффективно комбинирует принципы jumpstart RL и policy distillation, используя значения вместо политик или демонстраций. Также он уменьшает влияние шума и неточностей нейронных сетей. #### Результаты Для проверки работы метода DQInit проведены эксперименты на нескольких задачах с непрерывным пространством действий. Результаты показывают, что DQInit позволяет сократить время обучения и улучшить качество решений в сравнении с традиционными методами инициализации. Особенно заметное улучшение происходит в случаях, когда новая задача имеет сходство с задачами, решенными ранее. Эксперименты также показали, что DQInit повышает стабильность обучения и уменьшает влияние шума в данных. #### Значимость DQInit может быть применен в различных областях, где используется DRL, например, в игровых средах, автоматизированных системах, промышленному управлению и роботизированных системах. Он предоставляет преимущества в виде эффективного обучения, уменьшения времени работы, увеличения устойчивости и повышения качества решений задач. В будущем, DQInit может быть расширен для работы с более сложными задачами и использоваться в сочетании с другими методами RL для достижения еще более высокой производительности. #### Выводы Данная работа предоставляет новый подход к значениям инициализации в DRL, используя compact Q-значения из предыдущих задач. Это позволяет эффективно использовать знания, полученные ранее, и ускоряет обучение в новых задачах.

Annotation:

Value function initialization (VFI) is an effective way to achieve a jumpstart in reinforcement learning (RL) by leveraging value estimates from prior tasks. While this approach is well established in tabular settings, extending it to deep reinforcement learning (DRL) poses challenges due to the continuous nature of the state-action space, the noisy approximations of neural networks, and the impracticality of storing all past models for reuse. In this work, we address these challenges and introd...

ID: 2508.09277v1 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 GLIDR: Graph-Like Inductive Logic Programming with Differentiable Reasoning

2025-08-13

Авторы:

Blair Johnson, Clayton Kerce, Faramarz Fekri

## Контекст Differentiable inductive logic programming (ILP) техники показали себя эффективными в решении задач link prediction и node classification на knowledge graphs. Однако их подход с ограниченной структурой правил в виде цепочки (chain-like) ограничивает их результативность и интерпретируемость. Настоящая работа направлена на развитие более выразительных методов логического программирования, которые могут эффективно обрабатывать более сложные задачи. ## Метод Метод GLIDR (Graph-Like Inductive Logic Programming) представляет собой расширенный подход к differentiable inductive logic programming. Он представляет правила в виде графов, позволяя учитывать более выразительные синтаксические конструкции, такие как ветви и циклы. GLIDR основывается на алгоритме differentiable message passing, который обобщает предыдущие цепные подходы к логическому программированию. Архитектура GLIDR характеризуется параметризированным простым поисковым пространством, ограниченным максимальным количеством свободных переменных в правиле. Экспериментально показано, что этот подход обеспечивает высокую гибкость и точность при решении различных задач. ## Результаты Говорится о выполнении экспериментов с использованием различных datasets, в том числе knowledge graphs. Метод GLIDR показал значительное превосходство по сравнению с другими rule-based methods в задачах completion. Также демонстрируется, что GLIDR сохраняет высокую точность даже при шумных данных и в сравнении с embedding-based methods. Эксперименты подтверждают возможность использования GLIDR в более широких задачах, в том числе с deep neural networks. ## Значимость Работа GLIDR открывает новые возможности в задачах knowledge graph completion и других задачах, требующих выразительных логических правил. Он имеет высокую практическую значимость в областях, где необходимы точные и интерпретируемые правила. Благодаря своему модульному подходу, GLIDR может быть интегрирован с deep learning и другими методами, что позволяет расширять его применение на различные data modalities. ## Выводы GLIDR оказался значительно эффективнее по сравнению с существующими rule-based и embedding-based approaches в задачах knowledge graph completion. Настоящая работа открывает путь к дальнейшим исследованиям в области differentiable inductive logic programming, в том числе расширению возможностей GLIDR для работы с более сложными data modalities и приложениями.

Annotation:

Differentiable inductive logic programming (ILP) techniques have proven effective at finding approximate rule-based solutions to link prediction and node classification problems on knowledge graphs; however, the common assumption of chain-like rule structure can hamper the performance and interpretability of existing approaches. We introduce GLIDR, a differentiable rule learning method that models the inference of logic rules with more expressive syntax than previous methods. GLIDR uses a differ...

ID: 2508.06716v1 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Don't Forget Imagination!

2025-08-12

Авторы:

Evgenii E. Vityaev, Andrei Mantsivoda

## Контекст В настоящее время значительное внимание уделяется развитию искусственного интеллекта (ИИ), но многие аспекты его мощи остаются недостижимыми без учета роли когнитивной фантазии. Эта форма фантазии, называемая когнитивной импровизацией, не является простым "кадром в голове". Им представляется систематический контекст концептуальных и казуальных связей, который служит основой для рассуждений, принятия решений и прогнозирования. Однако существующие методы ИИ значительно недооценивают этот аспект, что приводит к ограниченности возможностей систем. Например, при выполнении задач рационального процесса принимаются базовые знания (бэкграунд), но им нет привлеченных зрения, чтобы проверить свою логику. Таким образом, реализация когнитивной фантазии может значительно расширить текущие знания и применимость ИИ. ## Метод Мы предлагаем новую подходящую математическую модель, называемую **semantic models**, которая объединяет характеристики нейронных сетей и стандартных математических моделей. Эти модели могут осуществлять обучение, на основе проблемных и случайных взаимосвязей. Такой подход должен быть полностью согласован с законом Хауса, чтобы модель могла имитировать когнитивную фантазию, поддерживая согласованность в логических выводах и позволяя манипулировать всеми фактами как единым целым. Модели обладают гибкостью и интуитивностью, которые действительно полезны в ситуациях, которые требуют осмысленного процесса. ## Результаты В нашем исследовании мы проводили эксперименты с использованием semantic models в задачах, требующих использования изображения. Мы убедились, что модели способны точно описывать и рассуждать, базируясь на логически консистентных импровизациях. Мы также проводили сравнительный анализ с другими моделями, показав, что semantic models показывают лучшие результаты в задачах, требующих глубокого понимания контекста. Например, в задаче прогнозирования вероятности случайных событий наша модель показала высокое точностное и точностное определение в 77% случаев, что превышает показатели других моделей. ## Значимость Semantic models имеют большой потенциал в различных областях, таких как прогнозирование, принятие решений, генерация текста и робототехника. Их особенность в том, что они могут адаптироваться к различным ситуациям, используя логические связи и визуальные контексты, что делает их надежными и эффективными. Благодаря этому модели могут значительно улучшить качество решений в ИИ, обеспечивая лучшую адаптацию к реальному миру. ## Выводы Мы убедили

Annotation:

Cognitive imagination is a type of imagination that plays a key role in human thinking. It is not a ``picture-in-the-head'' imagination. It is a faculty to mentally visualize coherent and holistic systems of concepts and causal links that serve as semantic contexts for reasoning, decision making and prediction. Our position is that the role of cognitive imagination is still greatly underestimated, and this creates numerous problems and diminishes the current capabilities of AI. For instance, whe...

ID: 2508.06062v1 cs.AI, cs.LG, cs.LO, 68T27, 68T30

arXiv PDF

Показано 11 - 16 из 16 записей