📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Self-Questioning Language Models
2025-08-06Авторы:
Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak
Исследование SQLM решает задачу самосовершенствования больших языковых моделей без внешних данных. Авторы предлагают асимметричный фреймворк самоигры, где «предлагающий» агент генерирует задачи по теме (умножение, алгебра, код), а «решающий» их решает. Обучение обеих сторон ведётся RL: предлагающий получает награду за «золотую середину» сложности, решающий — за согласие m-голосования или прохождение юнит-тестов. На трёх бенчмарках модель без кураторских данных улучшила точность, показывая, что генерация собственных задач и их решение позволяет LLM эффективно развивать рассуждения.
Annotation:
Can large language models improve without external data -- by generating
their own questions and answers? We hypothesize that a pre-trained language
model can improve its reasoning skills given only a single prompt specifying
the topic (e.g., algebra word problems) and asking the model to generate its
own questions. To do this, we propose Self-Questioning Language Models (SQLM):
an asymmetric self-play framework where a proposer is given the topic and
generates a question for a solver, who tries...
Показано 2901 -
2901
из 2901 записей