Graph-R1: Unleashing LLM Reasoning with NP-Hard Graph Problems

2508.20373v1 cs.CL, cs.AI, cs.LG 2025-08-29
Авторы:

Yuyao Wang, Bowen Liu, Jianheng Tang, Nuo Chen, Yuhan Li, Qifan Zhang, Jia Li

Резюме на русском

## Контекст В последние годы технологии Больших Лингвистических Моделей (LLMs) показали потрясающий прогресс в различных областях, в том числе в области логического и технического рассуждения. Однако, несмотря на эти успехи, развитие Long Chain-of-Thought (Long CoT) в LLMs остается сложным и затратным, в основном из-за необходимости использовать высококачественные, но дорогие и часто масштабно-ограниченные данные, такие как математические задачи и кодирование. Эти ограничения вводят значительные барьеры для более широкого использования LLMs в различных прикладных областях, где требуются действительно мощные и эффективные модели. Мы предлагаем новую подходящую технику, которая может решить эту проблему. ## Метод В центре нашего подхода лежит использование NP-hard (NPH) graph problems как новых искусственных тренировочных данных, которые требуют глубокого и продолжительного рассуждения. Мы разработали двухэтапную фреймворк для пост-тренировки: (i) дополнительное тренирование с помощью традиционной техники Long CoT Supervised Fine-Tuning (SFT), где вводится новый подход с rejection-sampling для NPH graph problems, улучшая глубину и структуру рассуждений; (ii) использование Reinforcement Learning (RL) с применением новинки в системах вознаграждений для улучшения эффективности рассуждений. Модель Graph-R1-7B, разработанная нами, показала сильную общую универсальность в математике, программировании, STEM и логике, обгоняя QwQ-32B в области NPH graph problems. ## Результаты Наши эксперименты показали, что модель Graph-R1-7B достигла выдающихся результатов в рассуждении, особенно в сложных задачах, требующих глубокого рассуждения. Она существенно выигрывает над QwQ-32B в точности и эффективности рассуждения в задачах NPH graph problems, показывая надежный подход к улучшению глубокого мышления в LLMs. ## Значимость Наш подход может быть применен в широких областях, таких как математическое моделирование, логическое программирование, STEM, и даже задачи в повседневной жизни, где требуется высококлассный рассуждительный подход. Мы показали, что NPH graph problems могут служить эффективным и масштабируемым источником тренировочных данных для повышения глубины и эффективности рассуждений в LLMs. ## Выводы Наша работа представляет собой новую технику для улучшения Long Chain-of-Thought reasoning в LLMs, определяя NPH graph problems как новый и эффективный источник данных для пост-тренировки моделей. В будущем, мы планируем расширить наш фреймворк на другие типы задач и области, повысив способность LLMs работать в сложных и нетривиальных задачах.

Abstract

Reasoning Large Language Models (RLLMs) have recently achieved remarkable progress on complex reasoning tasks, largely enabled by their long chain-of-thought (Long CoT) capabilities. However, developing these Long CoT behaviors relies heavily on post-training with high-quality datasets, which are typically costly and human-curated (e.g., mathematics and code), leaving scalable alternatives unexplored. In this work, we introduce NP-hard (NPH) graph problems as a novel synthetic training corpus, as they inherently require deep reasoning, extensive exploration, and reflective strategies, which are core characteristics of Long CoT reasoning. Building on this insight, we develop a two-stage post-training framework: (i) Long CoT Supervised Fine-Tuning (SFT) on rejection-sampled NPH graph instances, which substantially enhances reasoning depth, and (ii) Reinforcement Learning (RL) with a fine-grained reward design, which sharpens reasoning efficiency. Our flagship model, Graph-R1-7B, demonstrates strong generalization across mathematics, coding, STEM, and logic, and surpasses QwQ-32B on NPH graph problems in both accuracy and reasoning efficiency. These results position NPH graph problems as an effective and scalable resource for advancing Long CoT reasoning in LLMs, opening a new frontier for LLM post-training. Our implementation is available at https://github.com/Graph-Reasoner/Graph-R1, with models and datasets hosted in our Hugging Face collection HKUST-DSAIL/Graph-R1.

Ссылки и действия