Self-Questioning Language Models

2508.03682v2 cs.LG, cs.AI 2025-08-09

Авторы:

Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие языковых моделей (Large Language Models, LLM) традиционно связано с их обучением на больших корпусах данных. Однако создание и поддержка таких наборов данных представляет собой сложную и ресурсоемкую задачу. Также существует проблема переобучения моделей на конкретных данных, что может ограничивать их способность к обобщению. Кроме того, существует требование к моделям быть способными к решению новых, невиданных задач, что требует развития их способностей к логическому мышлению и критическому анализу. В этой статье авторы предлагают Self-Questioning Language Models (SQLM), метод, который позволяет языковым моделям улучшать свои способности к логическому мышлению без доступа к внешним данным. Основная идея заключается в том, что модель может самостоятельно генерировать задачи и подзадачи, а затем пытаться решить их. Этот процесс позволяет модели развиваться за счет собственных внутренних ресурсов, не зависящих от внешних источников данных. Авторы сформулировали гипотезу, что при правильном подходе модель может улучшить свои способности к решению задач, просто генерируя сама задания и отвечая на них. Для этого используется метод asymmetric self-play, где две части модели — proposer (генерирующая задачи) и solver (решающая их) — взаимодействуют между собой. Этот подход позволяет модели развиваться в условиях, где у нее нет доступа к специально подготовленным данным. ## ПРЕДЛОЖЕННЫЙ МЕТОД Self-Questioning Language Models (SQLM) представляют собой фреймворк, основанный на asymmetric self-play. Этот метод включает в себя две основные компоненты: proposer и solver. Proposer отвечает за генерацию заданий (вопросов), а solver — за их решение. Обе компоненты обучаются с помощью reinforcement learning (обучения с подкреплением). Proposer получает заданную тему (например, "алгебра" или "программирование") и генерирует задачу, которую необходимо решить. Затем, solver пытается ответить на задачу. Proposer получает награду, если задача не слишком легкая и не слишком сложная для решения. Это позволяет поощрять генерацию задач, которые находятся на оптимальном уровне сложности. Solver, в свою очередь, получает награду на основе того, насколько правильно он решил задачу. Для этого используется метод "мажоритарного голосования" (majority voting), который служит прокси-метрикой для правильности ответа, когда нет доступа к "истинным" ответам. Для задач программирования, proposer может генерировать unit tests (модульные тесты), которые используются для проверки правильности решения solver. Это позволяет создать замкнутую систему, где модель может развиваться через самообучение. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на трех разных бенчмарках: 1. **Трехзначное умножение** (three-digit multiplication): Этот бенчмарк состоит из математических задач, требующих умножения трехзначных чисел. 2. **Алгебра** (OMEGA benchmark): Этот бенчмарк содержит более сложные алгебраические задачи. 3. **Программирование** (Codeforces): Этот бенчмарк включает задачи по программированию, которые требуют написания кода. Результаты показали, что SQLM может улучшить свои результаты на этих бенчмарках без использования внешних данных. Модель стала лучше в решении задач по мере того, как продолжалось обучение через asymmetric self-play. Это показывает, что модель может развиваться за счет собственных внутренних ресурсов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Self-Questioning Language Models (SQLM) могут быть применены в различных областях, где необходимо улучшение способностей моделей к логическому мышлению без доступа к внешним данным. Например, это может быть полезно в области образования, где модели могут генерировать сами задания для студентов и помогать им в решении. Кроме того, SQLM может быть полезен в области программирования, где модели могут генерировать unit tests и проверять код. Это может улучшить качество программных продуктов, уменьшив количество ошибок. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SQLM показывает, что языковые модели могут развиваться за счет собственных внутренних ресурсов, не требуя доступа к внешним данным. Это открывает новые перспективы для исследования и развития моделей, особенно в ситуациях, когда доступ к большим корпусам данных ограничен. В будущем, этот метод может быть расширен для решения более сложных задач, а также для исследования других форм самообучения. Это может привести к новым подходам в области обучения ИИ, где модели могут развиваться без необходимости постоянного обновления внешних наборов данных.

Abstract

Can large language models improve without external data -- by generating their own questions and answers? We hypothesize that a pre-trained language model can improve its reasoning skills given only a single prompt specifying the topic (e.g., algebra word problems) and asking the model to generate its own questions. To do this, we propose Self-Questioning Language Models (SQLM): an asymmetric self-play framework where a proposer is given the topic and generates a question for a solver, who tries to answer it. Both the proposer and solver are trained via reinforcement learning. The proposer receives a reward if the problem is not too easy or too difficult, and the solver receives a reward based on majority voting, a proxy for correctness in the absence of ground-truth answers. For coding, the proposer can instead generate unit tests which are used for verification. We study this asymmetric self-play framework on three benchmarks: three-digit multiplication, algebra problems from the OMEGA benchmark, and programming problems from Codeforces. By continually generating more interesting problems and attempting to solve them, language models can improve on downstream benchmarks without access to any curated training datasets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Self-Questioning Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация