Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking

2508.07286v1 cs.CL, cs.IR 2025-08-13

Авторы:

Jian Chen, Jinbao Tian, Yankui Li, Zhou Li

Резюме на русском

## Контекст Название статьи — Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking. Авторы: Jian Chen, Jinbao Tian, Yankui Li, Zhou Li. Основная цель — решение проблемы точного извлечения информации из специализированных текстов, в частности, для автоматизированного проверки правил (ARC) в сфере архитектуры, инженерии и строительства (AEC). Несмотря на развитие методов предобучения моделей на обширных текстовых корпусах, стандартные модели всё же сталкиваются с проблемами, связанными с границей домена. Они сталкиваются с трудностями при понимании специальной терминологии и сложных связей в AEC-текстах. Решение этой проблемы через дополнительное предобучение на доменных корпусах требует значительных ресурсов и времени. В этом контексте роль генерации знаний с использованием крупных языковых моделей (LLM) становится ключевой. Однако, необходимо разработать эффективный подход для повышения эффективности меньших моделей, таких как RoBERTa, с помощью знаний, генерируемых моделями LLM. ## Метод Предложенный подход ARCE (Augmented RoBERTa with Contextualized Elucidations) состоит из двух этапов: 1) генерация простых, ясных объяснений с помощью LLM в виде корпуса, названного Cote (Contextualized Explanations); 2) применение этого корпуса для дополнительного предобучения модели RoBERTa. Основной идеей является то, что простые объяснения помогают модели лучше понять специальную терминологию и связи в AEC-данных. Модель ARCE включает в себя ряд технических решений, которые улучшают процесс предобучения и работы модели на задаче NER в сфере AEC. ## Результаты Авторы провели эксперименты на бенчмарк-датасете AEC. Модель ARCE показала результат Macro-F1 77.20%, установив новый состояние технологии для этого задания. Эксперименты также продемонстрировали, что простые, напрямую понятные объяснения (Cote) дают более эффективные результаты, чем более сложные, ролевые рационализации. Эта модель демонстрирует высокую эффективность в извлечении специальных сущностей из сложных текстов AEC. ## Значимость Решение ARCE может быть применено во многих областях, где требуется точное извлечение информации из специализированных текстов, включая АЭК и другие технические сферы. Основное преимущество ARCE заключается в своей эффективности и простоте. Вместо сложных ролевых моделей, он использует простые объяснения, что упрощает понимание модели и повышает точность. Это может существенно снизить затраты на обучение и развитие моделей для сложных доменов. Будущие исследования будут сфокусированы на расширении этого подхода к другим доменам и моделям. ## Выводы Результаты ARCE подтверждают зна

Abstract

Accurate information extraction from specialized texts is a critical challenge, particularly for named entity recognition (NER) in the architecture, engineering, and construction (AEC) domain to support automated rule checking (ARC). The performance of standard pre-trained models is often constrained by the domain gap, as they struggle to interpret the specialized terminology and complex relational contexts inherent in AEC texts. Although this issue can be mitigated by further pre-training on large, human-curated domain corpora, as exemplified by methods like ARCBERT, this approach is both labor-intensive and cost-prohibitive. Consequently, leveraging large language models (LLMs) for automated knowledge generation has emerged as a promising alternative. However, the optimal strategy for generating knowledge that can genuinely enhance smaller, efficient models remains an open question. To address this, we propose ARCE (augmented RoBERTa with contextualized elucidations), a novel approach that systematically explores and optimizes this generation process. ARCE employs an LLM to first generate a corpus of simple, direct explanations, which we term Cote, and then uses this corpus to incrementally pre-train a RoBERTa model prior to its fine-tuning on the downstream task. Our extensive experiments show that ARCE establishes a new state-of-the-art on a benchmark AEC dataset, achieving a Macro-F1 score of 77.20%. This result also reveals a key finding: simple, explanation-based knowledge proves surprisingly more effective than complex, role-based rationales for this task. The code is publicly available at:https://github.com/nxcc-lab/ARCE.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

AR-Med: Automated Relevance Enhancement in Medical Search via LLM-Driven Informa...

Mitigating the Threshold Priming Effect in Large Language Model-Based Relevance ...

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

Towards Unification of Hallucination Detection and Fact Verification for Large L...

Навигация