SCI-Verifier: Scientific Verifier with Thinking
2509.24285v1
cs.AI, cs.CL, cs.LG
2025-10-01
Авторы:
Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye
Резюме на русском
## Контекст
В последние годы широко распространяются применения бо LARGE LANGUAGE MODELS (LLMs) в области научной разума. Несмотря на их выдающиеся способности, они столкнулись с серьезными вызовами в области проверки ответов, которые могут принимать разнообразные формы и выражаться в разнонаучных дисциплинах. Особенно сложной в этой области оказалась задача проверки ответов, поскольку LLM-ов требуется понимать и корректно оценивать не только корректность ответов, но и разнообразные структуры выводов и способы представления информации. Дополнительной сложностью является то, что ответы часто могут быть эквивалентными в разных формах, но оценивать их вручную очень сложно из-за отсутствия систематизированных критериев и методов. Это породило необходимость в разработанном подходе, который позволил бы наиболее эффективно проверять ответы и совершенствовать модели LLM.
## Метод
Для решения этих проблем были предложены два основных подхода: одним из них является построение комплексного бенчмарка, а другим – разработка модели, которая способна осуществлять углубленную логическую рассуждение. Бенчмарк получил название SCI-VerifyBench и охватывает широкий спектр дисциплин, включая математику, физику, биологию, химию и общую научную аналитику. Он создан на основе реальных ответов LLMs и включает в себя дополнительные дополнения, которые усиливают сложность и реалистичность задач. Также была разработана модель SCI-Verifier, которая использует логический подход к проверке и имеет возможность адаптироваться к различным дисциплинам. Она оптимизирована для устойчивого и простого вывода, что позволяет увеличить ее эффективность в сложных научных задачах.
## Результаты
При проверке SCI-VerifyBench были использованы данные, подготовленные как с помощью генерации систематических трансформаций ответов, так и с помощью разных экспертов. Результаты показали, что SCI-Verifier эффективно работает в различных научных областях, показывая высокую точность и устойчивость в проверке ответов. Была показана его способность отображать не только корректность ответов, но также различные способы их представления, которые могут быть эквивалентными. Такой подход позволил улучшить качество проверки и увеличить общую надежность LLM-ов в научных задачах.
## Значимость
SCI-VerifyBench и SCI-Verifier предлагают новый подход к проверке ответов, становятся ключевыми инструментами для оценки и совершенствования моделей LLM в научных задачах. Их применение может распространиться на многие дисциплины, так как они обеспечивают универсальный и систематический подход к проверке ответов. Эти решения не только улучшают качество проверки, но и повыша
Abstract
As large language models (LLMs) are increasingly applied to scientific
reasoning, the complexity of answer formats and the diversity of equivalent
expressions make answer verification a critical yet challenging task. Existing
verification studies in scientific domains suffer from two major limitations:
(a) the absence of systematic evaluation standards and insufficient
disciplinary coverage, which hinders their comprehensive assessment; and (b)
heavy reliance on cumbersome rule design or prompt engineering, which reduces
their effectiveness in complex reasoning scenarios or limits their
cross-disciplinary generalization. To address these challenges, we propose
solutions at both the data and model levels. On the data side, we construct
SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics,
biology, chemistry, and general scientific QA. The benchmark is built from real
LLM responses and enhanced with domain-specific equivalence transformations
that generate challenging and realistic data. Model-based and expert
annotations ensure both quality and diversity, enabling rigorous evaluation of
verification ability. On the model side, we emphasize the importance of
reasoning for verification and introduce SCI-Verifier, a unified
reasoning-augmented verifier for scientific domains. Through post-training,
SCI-Verifier demonstrates strong logical reasoning and equivalence judgment
capabilities while maintaining concise and stable outputs. Together,
SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific
verification, offering both systematic evaluation and practical pathways to
enhance the reliability and applicability of LLMs in scientific domains.
Ссылки и действия
Дополнительные ресурсы: