CEQuest: Benchmarking Large Language Models for Construction Estimation

2508.16081v1 cs.CL, cs.LG 2025-08-26

Авторы:

Yanzhao Wu, Lufan Wang, Rui Liu

Резюме на русском

## Контекст Область конструкционных зданий и сооружений характеризуется высокой степенью спецификации и специализации. В этой области ключевой роль играют компьютерные технологии, которые помогают упростить процессы, улучшить точность и эффективность. Одна из сложностей в этой сфере заключается в необходимости интерпретации конструкционных чертежей и проведения вычислений. Хотя большие языковые модели (LLMs) доказали свою эффективность в общих задачах, их применимость к специфическим таким областям, как конструкционная инженерия, остается практически не исследована. Это вызвано отсутствием специальных данных и бенчмарков для оценки моделей в этой сфере. Для устранения этой проблемы необходимо создание специальных данных, которые позволят измерить точность и корректность ответов моделей на задачи, связанные с сектором конструкционных зданий. ## Метод CEQuest представляет собой новую бенчмарк-среду, которая создана непосредственно для оценки возможностей LLMs в области конструкционных действий. Данное решение включает в себя создание большого объема данных, содержащих вопросы и задания, связанные с пониманием конструкционных чертежей и выполнением вычислительных задач в этой сфере. Для проведения экспериментов использовались пять современных LLMs: Gemma 3, Phi4, LLaVA, Llama 3.3 и GPT-4.1. Оценивались параметры, такие как точность ответов, время выполнения и размер модели. Для создания CEQuest были использованы специальные стратегии для моделирования и имитации реальных сценариев в конструкторской сфере. ## Результаты В результате экспериментов была получена подробная оценка точности и эффективности работы пяти LLMs на задачах, связанных с конструкционными чертежами и расчетами. Были измерены параметры, такие как точность ответов в различных условиях, время работы моделей и их размер. Эксперименты показали, что применительно к специальным задачам, таким как интерпретация конструкционных чертежей и расчеты, текущие модели LLMs имеют недостатки, особенно в сфере корректности и скорости выполнения задач. Было выявлено, что модели, включающие дополнительные доменные знания, показывают лучшие результаты. ## Значимость CEQuest может быть применен в сфере конструкционных и дизайнерских проектов, где необходима точная интерпретация конструкционных чертежей и корректные вычисления. Данный бенчмарк позволяет оценить и улучшить работу LLMs в сфере конструкционной инженерии, предоставляя возможность разработки более эффективных и специализированных моделей. Была отмечена важность интеграции доменных знаний, что может привести к улучшению качества решений в этой обла

Abstract

Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of general-domain tasks. However, their effectiveness in specialized fields, such as construction, remains underexplored. In this paper, we introduce CEQuest, a novel benchmark dataset specifically designed to evaluate the performance of LLMs in answering construction-related questions, particularly in the areas of construction drawing interpretation and estimation. We conduct comprehensive experiments using five state-of-the-art LLMs, including Gemma 3, Phi4, LLaVA, Llama 3.3, and GPT-4.1, and evaluate their performance in terms of accuracy, execution time, and model size. Our experimental results demonstrate that current LLMs exhibit considerable room for improvement, highlighting the importance of integrating domain-specific knowledge into these models. To facilitate further research, we will open-source the proposed CEQuest dataset, aiming to foster the development of specialized large language models (LLMs) tailored to the construction domain.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CEQuest: Benchmarking Large Language Models for Construction Estimation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация