Automated MCQA Benchmarking at Scale: Evaluating Reasoning Traces as Retrieval Sources for Domain Adaptation of Small Language Models
2509.10744v1
cs.CL, cs.AI, I.2.7; I.2.11
2025-09-17
Авторы:
Ozan Gokdemir, Neil Getty, Robert Underwood, Sandeep Madireddy, Franck Cappello, Arvind Ramanathan, Ian T. Foster, Rick L. Stevens
Резюме на русском
#### Контекст
В последние годы научный знаний растет с прежде невиданной скоростью, что приводит к изменению требований к методам оценки моделей языкового моделирования. Традиционные бенчмарки часто не отражают современные научные открытия, что снижает их актуальность. Задача создания новых бенчмарков требует значительных затрат времени и ресурсов. Наша цель — разработать модульный фреймворк для автоматизации генерации бенчмарков с несколькими выборками (MCQA) на основе больших корпусов научных статей. Этот подход позволяет эффективно отражать последние достижения науки в оценке языковых моделей и снизить необходимую работу вручную.
#### Метод
Мы предлагаем модульную архитектуру, которая автоматизирует все этапы создания MCQA: извлечение информации из PDF-файлов, семантическое кластеризация и фрагментирование, генерация вопросов и экспериментальная оценка. Мы применили этот подход для генерации бенчмарков по 22 000 статей в области радиационной и онкологической биологии. Для оценки моделей мы использовали три набора вопросов: синтетические, аннотированные экспертами и тесты Astro Radiation and Cancer Biology 2023. Модели тестировались в двух режимах: базовой аккуратности и в варианте с вспомогательным вспомогательным поиском (RAG), использующим семантические фрагменты и рассуждения, скопированные из GPT-4.1.
#### Результаты
Эксперименты показали, что 77% от вопросов были верно решены синтетическими бенчмарками, а 62% — экспертно аннотированными. Использование логики рассуждения из GPT-4.1 для поиска ответов повысило точность на 10% в сравнении с базовым подходом. Малые модели, например Модель А, показали высокую точность на тестах от 2023 года, даже превосходя GPT-4. Эти результаты указывают на эффективность использования рассуждений для повышения точности научных бенчмарков.
#### Значимость
Наш подход может быть применен в различных научных областях для создания наборов тестов, отражающих последние достижения. Он позволяет не только проверить модели, но и улучшить их подготовку на основе семантических фрагментов и логики рассуждения. Это особенно важно для моделей с малым количеством параметров, которые могут превосходить даже мощные системы, такие как GPT-4, в конкретных областях.
#### Выводы
Мы разработали мощный и модульный фреймворк для автоматического создания MCQA-бенчмарков, что позволяет адаптировать языковые модели к новым научным знаниям. Наши результаты показывают, что использование логики рассуждения для поиска ответов может значительно улучшить точность оценки моделей. Будущие исследования б
Abstract
As scientific knowledge grows at an unprecedented pace, evaluation benchmarks
must evolve to reflect new discoveries and ensure language models are tested on
current, diverse literature. We propose a scalable, modular framework for
generating multiple-choice question-answering (MCQA) benchmarks directly from
large corpora of scientific papers. Our pipeline automates every stage of MCQA
creation, including PDF parsing, semantic chunking, question generation, and
model evaluation. As a case study, we generate more than 16,000 MCQs from
22,000 open-access articles in radiation and cancer biology. We then evaluate a
suite of small language models (1.1B-14B parameters) on these questions,
comparing baseline accuracy with retrieval-augmented generation (RAG) from
paper-derived semantic chunks and from reasoning traces distilled from GPT-4.1.
We find that reasoning-trace retrieval consistently improves performance on
both synthetic and expert-annotated benchmarks, enabling several small models
to surpass GPT-4 on the 2023 Astro Radiation and Cancer Biology exam.