Beyond Benchmark: LLMs Evaluation with an Anthropomorphic and Value-oriented Roadmap

2508.18646v1 cs.AI, cs.CL 2025-08-28
Авторы:

Jun Wang, Ninglun Gu, Kailai Zhang, Zijiao Zhang, Yelun Bao, Jin Yang, Xu Yin, Liwei Liu, Yihuan Liu, Pengyong Li, Gary G. Yen, Junchi Yan

Резюме на русском

## Контекст Появление больших языковых моделей (LLMs) стало решающим шагом в области искусственного интеллекта, применяемого в различных сферах жизнедеятельности. Однако существует противоречие: несмотря на выдающиеся результаты в бенчмарк-задачах, LLMs часто не удовлетворяют потребностям в реальном мире. Основная проблема заключается в том, что существующие фреймворки оценки не учитывают широту практических задач, включая экономическую эффективность, социальный вклад, этический компромисс и устойчивость к экологическим изменениям. Таким образом, требуется новый подход, который бы учитывал не только технические показатели, но и ценности, связанные с применением LLMs в реальных условиях. ## Метод Методология основана на том, чтобы перенести логику оценки LLMs на элементы, присущие человеческому разуму. Основу нового подхода составляет трехмерная система: 1. **Intelligence Quotient (IQ)** – оценка общей работоспособности модели, её обработки языка и решения простых задач. 2. **Emotional Quotient (EQ)** – оценка возможности модели взаимодействовать с людьми, соблюдая значения и эмоциональную грамотность. 3. **Professional Quotient (PQ)** – профессиональные навыки модели, включая специальные знания и компетенции в задачах специализированного характера. Для эффективного применения этой системы предлагается новый фреймворк, **Value-oriented Evaluation (VQ)**, который оценивает важность модели в трех сферах: экономической, социальной и экологической. Архитектура VQ включает в себя шесть модулей, каждый из которых отвечает за отдельный аспект оценки. ## Результаты Приложение нового подхода проверено на более чем 200 бенчмарк-экспериментах. Основные выводы: - **Обнаружены ключевые проблемы**, такие как недостаточная интерпретируемость результатов бенчмарков и несоответствие технических показателей реальным потребностям пользователей. - **Разработанная методология** дает возможность оценивать LLMs не только с точки зрения технических возможностей, но и с учетом их этической и практической стоимости. ## Значимость Новый подход может быть использован в различных областях, включая здравоохранение, образование, финансы и управление. Основные важные преимущества: - Включение этических факторов в оценку, что гарантирует соответствие нормам и экологическим требованиям. - Улучшение оптимизации моделей под конкретные реалии при их применении в жизнедеятельности. - Устойчивость моделей в условиях реального применения, когда техническая производительность должна сочетаться с социальной и экономической эффективностью. ## Вывод

Abstract

For Large Language Models (LLMs), a disconnect persists between benchmark performance and real-world utility. Current evaluation frameworks remain fragmented, prioritizing technical metrics while neglecting holistic assessment for deployment. This survey introduces an anthropomorphic evaluation paradigm through the lens of human intelligence, proposing a novel three-dimensional taxonomy: Intelligence Quotient (IQ)-General Intelligence for foundational capacity, Emotional Quotient (EQ)-Alignment Ability for value-based interactions, and Professional Quotient (PQ)-Professional Expertise for specialized proficiency. For practical value, we pioneer a Value-oriented Evaluation (VQ) framework assessing economic viability, social impact, ethical alignment, and environmental sustainability. Our modular architecture integrates six components with an implementation roadmap. Through analysis of 200+ benchmarks, we identify key challenges including dynamic assessment needs and interpretability gaps. It provides actionable guidance for developing LLMs that are technically proficient, contextually relevant, and ethically sound. We maintain a curated repository of open-source evaluation resources at: https://github.com/onejune2018/Awesome-LLM-Eval.

Ссылки и действия