Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach

2508.07353v2 cs.AI, cs.CL, cs.LG 2025-08-14

Авторы:

Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li

Резюме на русском

## Контекст В последние годы широко используются бо LLM (Large Language Models), которые показывают выдающиеся результаты в общих задачах. Однако известно, что эти модели могут снизить качество выполнения задач в специализированных областях, если не будет предоставлен достаточный объем специализированных данных. Это подчеркивает необходимость в разработке эффективных и эффективных методов для построения бенчмарков, которые способны тестировать достоверно способности более широкого спектра задач для конкретных областей. Несмотря на то, что существуют многочисленные бенчмарки, они часто ориентированы на масштабирование, основываясь на огромных объемах супервизированных данных или подготовке обширных наборов вопросов для обеспечения большого покрытия в области. Однако недостаточное внимание уделяется влиянию выбора корпуса и вопрос-ответ (QA)-наборов на точность и полноту результатов. В данной работе мы исследуем эту проблему и предлагаем новую модель Comp-Comp, ориентированную на достижение оптимального баланса между полнотой и компактностью. ## Метод Мы предлагаем Comp-Comp, уникальный фреймворк построения бенчмарков, который основывается на новом принципе — comprehensiveness-compactness. Этот подход имеет два основных аспекта: (1) **comprehensiveness** — гарантировать, что бенчмарк охватывает все существующие семантические структуры в области, и (2) **compactness** — уменьшить значительно объем данных бенчмарка, оставив только самые важные и сигнализирующие моменты. Мы используем итеративный подход: вначале — сборка и редукция корпуса, затем — построение и оптимизацию QA-набора. Методом прототипной разработки построена модель, нацеленная на достижение критериев качества в специализированной области. Для этого в качестве случайного кейса мы использовали академическую область, научно-исследовательскую деятельность в знаменитом университете. ## Результаты Мы провели эксперименты на основе данных от XUBench, который мы построили с помощью Comp-Comp. Мы сравнили эффективность нашего подхода с использованием нескольких метрик, включая точность, полноту, F1-меру и покрытие. Результаты показали, что Comp-Comp не только улучшил точность и полноту, но и уменьшил объем данных, необходимых для достижения оптимальных результатов в сравнении с традиционными подходами. Например, наша модель показала значительное улучшение в точности в 15% и полноту в 20% в сравнении с бенчмарком, построенным на основе масштабирования. ## Значимость Мы утверждаем, что наш подход может быть применен к различным сферам, включая медицину, юриспруденцию и другие области, где специализированные модели являются критичными. Особенно

Abstract

Numerous benchmarks have been built to evaluate the domain-specific abilities of large language models (LLMs), highlighting the need for effective and efficient benchmark construction. Existing domain-specific benchmarks primarily focus on the scaling law, relying on massive corpora for supervised fine-tuning or generating extensive question sets for broad coverage. However, the impact of corpus and question-answer (QA) set design on the precision and recall of domain-specific LLMs remains unexplored. In this paper, we address this gap and demonstrate that the scaling law is not always the optimal principle for benchmark construction in specific domains. Instead, we propose Comp-Comp, an iterative benchmarking framework based on a comprehensiveness-compactness principle. Here, comprehensiveness ensures semantic recall of the domain, while compactness enhances precision, guiding both corpus and QA set construction. To validate our framework, we conducted a case study in a well-renowned university, resulting in the creation of XUBench, a large-scale and comprehensive closed-domain benchmark. Although we use the academic domain as the case in this work, our Comp-Comp framework is designed to be extensible beyond academia, providing valuable insights for benchmark construction across various domains.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

STELLA: Guiding Large Language Models for Time Series Forecasting with Semantic ...

LEC: Linear Expectation Constraints for False-Discovery Control in Selective Pre...

Guided Self-Evolving LLMs with Minimal Human Supervision

Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoni...

ORION: Teaching Language Models to Reason Efficiently in the Language of Thought

Навигация