Automated MCQA Benchmarking at Scale: Evaluating Reasoning Traces as Retrieval Sources for Domain Adaptation of Small Language Models

2509.10744v1 cs.CL, cs.AI, I.2.7; I.2.11 2025-09-17
Авторы:

Ozan Gokdemir, Neil Getty, Robert Underwood, Sandeep Madireddy, Franck Cappello, Arvind Ramanathan, Ian T. Foster, Rick L. Stevens

Резюме на русском

#### Контекст В последние годы научный знаний растет с прежде невиданной скоростью, что приводит к изменению требований к методам оценки моделей языкового моделирования. Традиционные бенчмарки часто не отражают современные научные открытия, что снижает их актуальность. Задача создания новых бенчмарков требует значительных затрат времени и ресурсов. Наша цель — разработать модульный фреймворк для автоматизации генерации бенчмарков с несколькими выборками (MCQA) на основе больших корпусов научных статей. Этот подход позволяет эффективно отражать последние достижения науки в оценке языковых моделей и снизить необходимую работу вручную. #### Метод Мы предлагаем модульную архитектуру, которая автоматизирует все этапы создания MCQA: извлечение информации из PDF-файлов, семантическое кластеризация и фрагментирование, генерация вопросов и экспериментальная оценка. Мы применили этот подход для генерации бенчмарков по 22 000 статей в области радиационной и онкологической биологии. Для оценки моделей мы использовали три набора вопросов: синтетические, аннотированные экспертами и тесты Astro Radiation and Cancer Biology 2023. Модели тестировались в двух режимах: базовой аккуратности и в варианте с вспомогательным вспомогательным поиском (RAG), использующим семантические фрагменты и рассуждения, скопированные из GPT-4.1. #### Результаты Эксперименты показали, что 77% от вопросов были верно решены синтетическими бенчмарками, а 62% — экспертно аннотированными. Использование логики рассуждения из GPT-4.1 для поиска ответов повысило точность на 10% в сравнении с базовым подходом. Малые модели, например Модель А, показали высокую точность на тестах от 2023 года, даже превосходя GPT-4. Эти результаты указывают на эффективность использования рассуждений для повышения точности научных бенчмарков. #### Значимость Наш подход может быть применен в различных научных областях для создания наборов тестов, отражающих последние достижения. Он позволяет не только проверить модели, но и улучшить их подготовку на основе семантических фрагментов и логики рассуждения. Это особенно важно для моделей с малым количеством параметров, которые могут превосходить даже мощные системы, такие как GPT-4, в конкретных областях. #### Выводы Мы разработали мощный и модульный фреймворк для автоматического создания MCQA-бенчмарков, что позволяет адаптировать языковые модели к новым научным знаниям. Наши результаты показывают, что использование логики рассуждения для поиска ответов может значительно улучшить точность оценки моделей. Будущие исследования б

Abstract

As scientific knowledge grows at an unprecedented pace, evaluation benchmarks must evolve to reflect new discoveries and ensure language models are tested on current, diverse literature. We propose a scalable, modular framework for generating multiple-choice question-answering (MCQA) benchmarks directly from large corpora of scientific papers. Our pipeline automates every stage of MCQA creation, including PDF parsing, semantic chunking, question generation, and model evaluation. As a case study, we generate more than 16,000 MCQs from 22,000 open-access articles in radiation and cancer biology. We then evaluate a suite of small language models (1.1B-14B parameters) on these questions, comparing baseline accuracy with retrieval-augmented generation (RAG) from paper-derived semantic chunks and from reasoning traces distilled from GPT-4.1. We find that reasoning-trace retrieval consistently improves performance on both synthetic and expert-annotated benchmarks, enabling several small models to surpass GPT-4 on the 2023 Astro Radiation and Cancer Biology exam.

Ссылки и действия