Self-Questioning Language Models
2508.03682v1
cs.LG, cs.AI
2025-08-06
Авторы:
Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak
Резюме на русском
Исследование SQLM решает задачу самосовершенствования больших языковых моделей без внешних данных. Авторы предлагают асимметричный фреймворк самоигры, где «предлагающий» агент генерирует задачи по теме (умножение, алгебра, код), а «решающий» их решает. Обучение обеих сторон ведётся RL: предлагающий получает награду за «золотую середину» сложности, решающий — за согласие m-голосования или прохождение юнит-тестов. На трёх бенчмарках модель без кураторских данных улучшила точность, показывая, что генерация собственных задач и их решение позволяет LLM эффективно развивать рассуждения.
Abstract
Can large language models improve without external data -- by generating
their own questions and answers? We hypothesize that a pre-trained language
model can improve its reasoning skills given only a single prompt specifying
the topic (e.g., algebra word problems) and asking the model to generate its
own questions. To do this, we propose Self-Questioning Language Models (SQLM):
an asymmetric self-play framework where a proposer is given the topic and
generates a question for a solver, who tries to answer it. Both the proposer
and solver are trained via reinforcement learning. The proposer receives a
reward if the problem is not too easy or too difficult, and the solver receives
a reward based on majority voting, a proxy for correctness in the absence of
ground-truth answers. For coding, the proposer can instead generate unit tests
which are used for verification. We study this asymmetric self-play framework
on three benchmarks: three-digit multiplication, algebra problems from the
OMEGA benchmark, and programming problems from Codeforces. By continually
generating more interesting problems and attempting to solve them, language
models can improve on downstream benchmarks without access to any curated
training datasets.
Ссылки и действия
Дополнительные ресурсы: