R-Zero: Self-Evolving Reasoning LLM from Zero Data

2508.05004v1 cs.LG, cs.AI, cs.CL 2025-08-09

Авторы:

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие ИИ привело к появлению мощных Large Language Models (LLMs), которые могут выполнять сложные задачи резонанса и логического вывода. Однако, несмотря на их способность к общению и решению задач, эти модели ограничены тем, что их обучение требует больших объемов человеческих данных, включая тщательно отмеченные наборы данных и человеческие образцы. Это создает серьезную проблему для развития ИИ, поскольку создание таких данных требует значительных ресурсов и человеческого вмешательства. Традиционные подходы, такие как fine-tuning и reinforcement learning, хорошо работают для доработки моделей, но они не могут обеспечить полностью автономное развитие моделей. Это становится ключевым ограничением для достижения супер-интеллектуальных систем, которые могли бы развиваться самостоятельно, не завися от человеческого вмешательства. Более того, большинство существующих подходов к обучению LLMs ограничены использованием данных, созданных человеком, что ограничивает возможности моделей в решении задач, которые выходят за рамки представленных данных. Мотивацией для разработки R-Zero является необходимость преодоления этого ограничения. Исследователи стремятся создать систему, которая может создавать, оптимизировать и улучшать свои собственные данные, без необходимости во внешних источниках. Такой подход может позволить LLMs развиваться в независимости от предоставленных человеком данных, что, в свою очередь, может привести к более сильным и автономным ИИ-системам. ## ПРЕДЛОЖЕННЫЙ МЕТОД R-Zero представляет собой новый фреймворк для автономного обучения LLMs, основанный на концепции самоэволюции. Он включает в себя два независимых модели: Challenger и Solver. Обе модели инициализируются на основе одной базовой LLM, но имеют разные роли. Challenger отвечает за генерацию задач, которые находятся на границе возможностей Solver, тогда как Solver пытается решить эти задачи. Процесс обучения основан на механизме взаимодействия между Challenger и Solver. Challenger получает награду за генерацию задач, которые Solver не может решить, но которые находятся на пределе его способностей. Это побуждает Challenger создавать все более сложные задачи. С другой стороны, Solver получает награду за успешное решение этих задач, что стимулирует его к постоянному улучшению. Этот процесс создает автономный куррикулум, который позволяет моделям эволюционировать вместе. Благодаря этому, R-Zero может работать без необходимости во внешних наборах данных, поскольку она генерирует свои собственные данные в процессе взаимодействия. Это позволяет моделям совершенствоваться в решении задач, которые имеют отношение к резонансу и логическому выводу, не требуя никаких внешних меток или человеческого вмешательства. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследователи провели эксперименты, чтобы оценить эффективность R-Zero. Они использовали разные базовые модели LLMs, включая Qwen3-4B-Base, для проверки улучшений в решении задач резонанса и логического вывода. Результаты показали, что R-Zero значительно улучшил результаты моделей в различных задачах. Например, на математических задачах резонанса, Qwen3-4B-Base показала улучшение на +6.49 по сравнению с базовой моделью. Также, на задачах общего домена, улучшение составило +7.54. Эти результаты демонстрируют, что R-Zero эффективен в улучшении способностей резонанса моделей, даже при отсутствии внешних данных. Это подтверждает, что метод самоэволюции может быть использован для повышения способностей LLMs в решении сложных задач, не требуя больших наборов данных или человеческого вмешательства. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ R-Zero имеет потенциал применения в различных областях, где необходимо улучшение способностей резонанса и логического вывода LLMs. Также, он может быть использован в задачах, где требуется автономная разработка данных или обучение моделей в условиях отсутствия внешних источников данных. Это может быть полезно в таких областях, как образование, медицина, финансы и другие сферы, где необходимо решать сложные задачи, не имея доступа к большим наборам данных. Преимущества R-Zero в том, что он позволяет создавать модели, которые могут развиваться самостоятельно, не требуя больших инвестиций в создание данных. Это может существенно упростить процесс разработки и обучения моделей, особенно в ситуациях, где человеческие ресурсы ограничены. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ R-Zero является важной шагом в развитии автономных LLMs, которые могут развиваться без необходимости во внешних данных. Он показывает, что самоэволюция может быть эффективным методом для улучшения способностей моделей в решении задач резонанса и логического вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении этой методологии, включая расширение ее применимости к другим типам задач и моделей, а также исследование возможностей для применения этого подхода в реальных ситуациях.

Abstract

Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

R-Zero: Self-Evolving Reasoning LLM from Zero Data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация