SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs

2509.00930v1 cs.AI, cs.LG, cs.LO 2025-09-05

Авторы:

Yanxiao Zhao, Yaqian Li, Zihao Bo, Rinyoichi Takezoe, Haojia Hui, Mo Guang, Lei Ren, Xiaolin Qin, Kaiwen Long

Резюме на русском

## Контекст Настоящие построители суть вопроса (LLMs) показали впечатляющие возможности в области общего логического рассуждения. Однако эти модели часто сталкиваются с трудностями при работе с более сложными задачами, которые требуют проработки многомерных подходов и разнообразных типов задач. Существующие инструменты для оценки и улучшения логических возможностей LLMs часто обладают ограниченной скоростью, ограниченной степенью управляемости или направленностью на конкретные задачи. Это приводит к недостаточной систематизации в систематическом анализе и реальном вкладе в прогресс моделей. Для решения этой проблемы, мы предлагаем SATQuest — инструмент, способный систематически оценивать и улучшать логические возможности LLMs, создавая задачи логического рассуждения на основе нормальной формы Конъюнктивного Нормального Вида (CNF). ## Метод SATQuest работает на основе технологии SAT-распараллеливания для генерации разнообразных задач логического рассуждения. Он структурирует эти задачи вокруг трех основных параметров: масштаб задачи, тип задачи и варианты формулировки вопросов. Генерация происходит с помощью SAT-модели, а проверка ответов осуществляется в реальном времени с использованием PySAT. Это позволяет SATQuest предоставлять контролируемые, систематически структурированные задачи, которые помогают минимизировать проблему запоминания и обеспечивают более глубокий взгляд на состояние логических возможностей моделей. Данная систематическая архитектура позволяет эффективно развивать и улучшать LLM с помощью переноса возможностей и рефинейма. ## Результаты Мы провели широкий анализ работы SATQuest на различных моделях логического рассуждения. Эксперименты показали, что LLMs часто страдают от проблем с распространением за пределы ограниченного диапазона форматов задач, в частности, было продемонстрировано, что модели страдают от небольшого масштаба и повторений в задачах, принятых в традиционных бенчмарках. Однако с помощью SATQuest, мы увидели значительные улучшения в целевых метриках логического рассуждения, включая улучшение во времени, в общем понимании и решении задач. Мы также продемонстрировали, что ретренировка модели с помощью SATQuest способствует улучшению логического понимания и гибкости в работе с разнообразными задачами. ## Значимость SATQuest широко применим в области оценки и улучшения логических моделей, включая проверку их логических возможностей, моделирование различных типов задач и тестирование моделей в разных форматах. Он предоставляет новые возможности для глубокой аналитики и оптимизации моделей логического рассуждения, что может повли

Abstract

Recent advances in Large Language Models (LLMs) have demonstrated remarkable general reasoning capabilities. However, systematically evaluating and enhancing these reasoning capabilities is challenging due to the lack of controllable and scalable tools for fine-grained analysis. Existing benchmarks and datasets often lack the necessary variable control for multi-dimensional, systematic analysis and training, or have narrow problem types and formats. To address these limitations, we introduce SATQuest, a systematic verifier designed to evaluate and enhance logical reasoning in LLMs by generating diverse, Satisfiability-based logical reasoning problems directly from Conjunctive Normal Form (CNF) instances. SATQuest structures these problems along three orthogonal dimensions: instance scale, problem type, and question format, employing randomized, SAT-based problem generation and objective answer verification via PySAT. This design mitigates memorization issues, allows for nuanced insights into reasoning performance, and enables effective reinforcement fine-tuning. Our extensive evaluation of various LLMs using SATQuest identified significant limitations in their logical reasoning, particularly in generalizing beyond familiar mathematical formats. Furthermore, we show that reinforcement fine-tuning with SATQuest rewards substantially improves targeted task performance and generalizes to more complex instances, while highlighting remaining challenges in cross-format adaptation. Through these demonstrations, we showcase SATQuest's potential as a foundational tool and a valuable starting point for advancing LLM logical reasoning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Efficient & Correct Predictive Equivalence for Decision Trees

Efficient & Correct Predictive Equivalence for Decision Trees

Autonomous Code Evolution Meets NP-Completeness

P2C: Path to Counterfactuals

MC3G: Model Agnostic Causally Constrained Counterfactual Generation

Навигация