Graph-R1: Unleashing LLM Reasoning with NP-Hard Graph Problems
2508.20373v1
cs.CL, cs.AI, cs.LG
2025-08-29
Авторы:
Yuyao Wang, Bowen Liu, Jianheng Tang, Nuo Chen, Yuhan Li, Qifan Zhang, Jia Li
Резюме на русском
## Контекст
В последние годы технологии Больших Лингвистических Моделей (LLMs) показали потрясающий прогресс в различных областях, в том числе в области логического и технического рассуждения. Однако, несмотря на эти успехи, развитие Long Chain-of-Thought (Long CoT) в LLMs остается сложным и затратным, в основном из-за необходимости использовать высококачественные, но дорогие и часто масштабно-ограниченные данные, такие как математические задачи и кодирование. Эти ограничения вводят значительные барьеры для более широкого использования LLMs в различных прикладных областях, где требуются действительно мощные и эффективные модели. Мы предлагаем новую подходящую технику, которая может решить эту проблему.
## Метод
В центре нашего подхода лежит использование NP-hard (NPH) graph problems как новых искусственных тренировочных данных, которые требуют глубокого и продолжительного рассуждения. Мы разработали двухэтапную фреймворк для пост-тренировки: (i) дополнительное тренирование с помощью традиционной техники Long CoT Supervised Fine-Tuning (SFT), где вводится новый подход с rejection-sampling для NPH graph problems, улучшая глубину и структуру рассуждений; (ii) использование Reinforcement Learning (RL) с применением новинки в системах вознаграждений для улучшения эффективности рассуждений. Модель Graph-R1-7B, разработанная нами, показала сильную общую универсальность в математике, программировании, STEM и логике, обгоняя QwQ-32B в области NPH graph problems.
## Результаты
Наши эксперименты показали, что модель Graph-R1-7B достигла выдающихся результатов в рассуждении, особенно в сложных задачах, требующих глубокого рассуждения. Она существенно выигрывает над QwQ-32B в точности и эффективности рассуждения в задачах NPH graph problems, показывая надежный подход к улучшению глубокого мышления в LLMs.
## Значимость
Наш подход может быть применен в широких областях, таких как математическое моделирование, логическое программирование, STEM, и даже задачи в повседневной жизни, где требуется высококлассный рассуждительный подход. Мы показали, что NPH graph problems могут служить эффективным и масштабируемым источником тренировочных данных для повышения глубины и эффективности рассуждений в LLMs.
## Выводы
Наша работа представляет собой новую технику для улучшения Long Chain-of-Thought reasoning в LLMs, определяя NPH graph problems как новый и эффективный источник данных для пост-тренировки моделей. В будущем, мы планируем расширить наш фреймворк на другие типы задач и области, повысив способность LLMs работать в сложных и нетривиальных задачах.
Abstract
Reasoning Large Language Models (RLLMs) have recently achieved remarkable
progress on complex reasoning tasks, largely enabled by their long
chain-of-thought (Long CoT) capabilities. However, developing these Long CoT
behaviors relies heavily on post-training with high-quality datasets, which are
typically costly and human-curated (e.g., mathematics and code), leaving
scalable alternatives unexplored. In this work, we introduce NP-hard (NPH)
graph problems as a novel synthetic training corpus, as they inherently require
deep reasoning, extensive exploration, and reflective strategies, which are
core characteristics of Long CoT reasoning. Building on this insight, we
develop a two-stage post-training framework: (i) Long CoT Supervised
Fine-Tuning (SFT) on rejection-sampled NPH graph instances, which substantially
enhances reasoning depth, and (ii) Reinforcement Learning (RL) with a
fine-grained reward design, which sharpens reasoning efficiency. Our flagship
model, Graph-R1-7B, demonstrates strong generalization across mathematics,
coding, STEM, and logic, and surpasses QwQ-32B on NPH graph problems in both
accuracy and reasoning efficiency. These results position NPH graph problems as
an effective and scalable resource for advancing Long CoT reasoning in LLMs,
opening a new frontier for LLM post-training. Our implementation is available
at https://github.com/Graph-Reasoner/Graph-R1, with models and datasets hosted
in our Hugging Face collection HKUST-DSAIL/Graph-R1.
Ссылки и действия
Дополнительные ресурсы: