AECBench: A Hierarchical Benchmark for Knowledge Evaluation of Large Language Models in the AEC Field

2509.18776v1 cs.CL, cs.AI, cs.LG 2025-09-25
Авторы:

Chen Liang, Zhaoqi Huang, Haofen Wang, Fu Chai, Chunying Yu, Huanhuan Wei, Zhengjie Liu, Yanpeng Li, Hongjun Wang, Ruifeng Luo, Xianzhong Zhao

Резюме на русском

## Контекст В свойственной скорости развитии и широком применении, large language models (LLMs) набирают обороты в архитектурно-строительном комплексе (AEC). Они демонстрируют возможность оптимизировать процессы в рамках жизненного цикла зданий. Однако, в стабильности и надежности LLMs в такой специализированной и безопасность-ориентированной сфере нет полного оценивания. Для решения этой проблемы, авторы представляют AECBench — комплексный бенчмарк, предназначенный для измерения сил и слабых мест современных LLMs в AEC. Он определяет 23 задачи в пятиуровневой фреймворке оценки, основанной на психологических процессах: Запоминание Знаний, Обработка Знаний, Рассуждения, Расчеты, Применение. Задачи были извлечены из реальных практических задач AEC, включая поиск кодов и создание специализированных документов. Для точного оценивания была создана база данных в виде 4800 вопросов различных форматов, подготовленных и проверенных экспертами. Была также представлена LLM-as-a-Judge методика, обеспечивающая структурированную и скейлируемую оценку длинных ответов. ## Метод AECBench основывается на пятиуровневом фреймворке, включающем 23 задач, касающихся разного уровня знаний. Эта методология охватывает: 1. **Запоминание Знаний**: Задачи, связанные с восстановлением конкретных фактов и сведений из текста и таблиц. 2. **Обработка Знаний**: Оценка возможности LLMs в интерпретации и синтезе знаний. 3. **Рассуждения**: Решение задач, требующих сложного анализа и вывода. 4. **Расчеты**: Оценка умения LLMs выполнять математические и аналитические задачи. 5. **Применение**: Задачи, включающие создание документов и соблюдение регламентов. Для каждой задачи была создана база данных с разнообразными видами вопросов, включая открытые, и проверена экспертами. Метод LLM-as-a-Judge позволяет ресурсозатратную и точную оценку ответов, даже на длинных текстах. Это дает возможность последовательно сравнить различные модели. ## Результаты С помощью AECBench, 9 моделей LLMs были оценены, и отчетливо выявлены их слабые места. Модели проявили высокую точность в задачах вроде запоминания кодов и основных знаний (Knowledge Memorization) и в обработке текстов (Understanding). Однако, модели испытали значительные сложности в задачах, требующих сложного рассуждения, вычислений, и специализированного документирования. Например, LLMs сталкивались с проблемами в интерпретации таблиц в building codes и выполнении многостадийных вычислений. Это подтверждает, что, несмотря на прогресс, LLMs еще не достигли надежности для применения в критически важных задачах AEC. ## Значи

Abstract

Large language models (LLMs), as a novel information technology, are seeing increasing adoption in the Architecture, Engineering, and Construction (AEC) field. They have shown their potential to streamline processes throughout the building lifecycle. However, the robustness and reliability of LLMs in such a specialized and safety-critical domain remain to be evaluated. To address this challenge, this paper establishes AECBench, a comprehensive benchmark designed to quantify the strengths and limitations of current LLMs in the AEC domain. The benchmark defines 23 representative tasks within a five-level cognition-oriented evaluation framework encompassing Knowledge Memorization, Understanding, Reasoning, Calculation, and Application. These tasks were derived from authentic AEC practice, with scope ranging from codes retrieval to specialized documents generation. Subsequently, a 4,800-question dataset encompassing diverse formats, including open-ended questions, was crafted primarily by engineers and validated through a two-round expert review. Furthermore, an LLM-as-a-Judge approach was introduced to provide a scalable and consistent methodology for evaluating complex, long-form responses leveraging expert-derived rubrics. Through the evaluation of nine LLMs, a clear performance decline across five cognitive levels was revealed. Despite demonstrating proficiency in foundational tasks at the Knowledge Memorization and Understanding levels, the models showed significant performance deficits, particularly in interpreting knowledge from tables in building codes, executing complex reasoning and calculation, and generating domain-specific documents. Consequently, this study lays the groundwork for future research and development aimed at the robust and reliable integration of LLMs into safety-critical engineering practices.

Ссылки и действия