SCI-Verifier: Scientific Verifier with Thinking

2509.24285v1 cs.AI, cs.CL, cs.LG 2025-10-01
Авторы:

Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye

Резюме на русском

## Контекст В последние годы широко распространяются применения бо LARGE LANGUAGE MODELS (LLMs) в области научной разума. Несмотря на их выдающиеся способности, они столкнулись с серьезными вызовами в области проверки ответов, которые могут принимать разнообразные формы и выражаться в разнонаучных дисциплинах. Особенно сложной в этой области оказалась задача проверки ответов, поскольку LLM-ов требуется понимать и корректно оценивать не только корректность ответов, но и разнообразные структуры выводов и способы представления информации. Дополнительной сложностью является то, что ответы часто могут быть эквивалентными в разных формах, но оценивать их вручную очень сложно из-за отсутствия систематизированных критериев и методов. Это породило необходимость в разработанном подходе, который позволил бы наиболее эффективно проверять ответы и совершенствовать модели LLM. ## Метод Для решения этих проблем были предложены два основных подхода: одним из них является построение комплексного бенчмарка, а другим – разработка модели, которая способна осуществлять углубленную логическую рассуждение. Бенчмарк получил название SCI-VerifyBench и охватывает широкий спектр дисциплин, включая математику, физику, биологию, химию и общую научную аналитику. Он создан на основе реальных ответов LLMs и включает в себя дополнительные дополнения, которые усиливают сложность и реалистичность задач. Также была разработана модель SCI-Verifier, которая использует логический подход к проверке и имеет возможность адаптироваться к различным дисциплинам. Она оптимизирована для устойчивого и простого вывода, что позволяет увеличить ее эффективность в сложных научных задачах. ## Результаты При проверке SCI-VerifyBench были использованы данные, подготовленные как с помощью генерации систематических трансформаций ответов, так и с помощью разных экспертов. Результаты показали, что SCI-Verifier эффективно работает в различных научных областях, показывая высокую точность и устойчивость в проверке ответов. Была показана его способность отображать не только корректность ответов, но также различные способы их представления, которые могут быть эквивалентными. Такой подход позволил улучшить качество проверки и увеличить общую надежность LLM-ов в научных задачах. ## Значимость SCI-VerifyBench и SCI-Verifier предлагают новый подход к проверке ответов, становятся ключевыми инструментами для оценки и совершенствования моделей LLM в научных задачах. Их применение может распространиться на многие дисциплины, так как они обеспечивают универсальный и систематический подход к проверке ответов. Эти решения не только улучшают качество проверки, но и повыша

Abstract

As large language models (LLMs) are increasingly applied to scientific reasoning, the complexity of answer formats and the diversity of equivalent expressions make answer verification a critical yet challenging task. Existing verification studies in scientific domains suffer from two major limitations: (a) the absence of systematic evaluation standards and insufficient disciplinary coverage, which hinders their comprehensive assessment; and (b) heavy reliance on cumbersome rule design or prompt engineering, which reduces their effectiveness in complex reasoning scenarios or limits their cross-disciplinary generalization. To address these challenges, we propose solutions at both the data and model levels. On the data side, we construct SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics, biology, chemistry, and general scientific QA. The benchmark is built from real LLM responses and enhanced with domain-specific equivalence transformations that generate challenging and realistic data. Model-based and expert annotations ensure both quality and diversity, enabling rigorous evaluation of verification ability. On the model side, we emphasize the importance of reasoning for verification and introduce SCI-Verifier, a unified reasoning-augmented verifier for scientific domains. Through post-training, SCI-Verifier demonstrates strong logical reasoning and equivalence judgment capabilities while maintaining concise and stable outputs. Together, SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific verification, offering both systematic evaluation and practical pathways to enhance the reliability and applicability of LLMs in scientific domains.

Ссылки и действия