ALLabel: Three-stage Active Learning for LLM-based Entity Recognition using Demonstration Retrieval

2509.07512v1 cs.CL, cs.AI, cs.IR 2025-09-11

Авторы:

Zihan Chen, Lei Shi, Weize Wu, Qiji Zhou, Yue Zhang

Резюме на русском

## Контекст Одним из ключевых задач в научных исследованиях, таких как химия и материаловедение, является высокоточное распознавание сущностей (entity recognition) в больших научных данных. Эта задача требует больших вычислительных мощностей и подверждается ошибкам, когда сущности неправильно распознаются. Большие языковые модели (LLM) становятся популярнее для решения этой задачи, но их применение часто связано с высокими затратами, особенно в процессе файн-тюнинга. Из-за этого нуждается в разработке более эффективных подходов, которые бы уменьшили затраты, не ухудшая качество распознавания. ## Метод Мы предлагаем ALLabel — трехэтапную модель для активного обучения (active learning), которая применяет технологию воспроизведения демонстраций (demonstration retrieval) для повышения эффективности. В первом этапе модель выбирает самые сложные и неоднозначные примеры для аннотации, чтобы имитировать их ввод в модель. Во втором этапе эти примеры используются для создания корпуса для включения в контекстное обучение (in-context learning) модели. На третьем этапе ALLabel использует три различных стратегии активного обучения для последовательного улучшения качества распознавания сущностей. ## Результаты Мы провёрили эффективность ALLabel на трёх датасетах специализированных областей: химия, материаловедение и биология. Наши эксперименты показали, что ALLabel показывает высокую эффективность, требуя только 5-10% аннотаций для достижения результатов, которые не уступают базовым моделям, работавшим с полной аннотацией. Мы также провели анализы и исследовали различные аспекты модели, чтобы подтвердить её общие возможности и ликвидность в различных ситуациях. ## Значимость ALLabel может применяться во многих научных областях, где требуется высокоточное распознавание сущностей, таких как химия, материаловедение и биология. Она эффективно решает проблему высоких затрат на воспроизводство демонстраций и обучения моделей, снижая необходимый объём данных для тренировки. Это приводит к сокращению затрат на предобучение и высокому качеству распознавания сущностей. ## Выводы ALLabel демонстрирует свою эффективность в активном обучении для LLM-based entity recognition. Наши результаты показали, что модель успешно решает задачу распознавания сущностей с минимальными затратами, не уменьшая качество распознавания. В дальнейших исследованиях планируется расширить её применимость к другим специализированным областям, а также улучшить процессы выбора и аннотации данных.

Abstract

Many contemporary data-driven research efforts in the natural sciences, such as chemistry and materials science, require large-scale, high-performance entity recognition from scientific datasets. Large language models (LLMs) have increasingly been adopted to solve the entity recognition task, with the same trend being observed on all-spectrum NLP tasks. The prevailing entity recognition LLMs rely on fine-tuned technology, yet the fine-tuning process often incurs significant cost. To achieve a best performance-cost trade-off, we propose ALLabel, a three-stage framework designed to select the most informative and representative samples in preparing the demonstrations for LLM modeling. The annotated examples are used to construct a ground-truth retrieval corpus for LLM in-context learning. By sequentially employing three distinct active learning strategies, ALLabel consistently outperforms all baselines under the same annotation budget across three specialized domain datasets. Experimental results also demonstrate that selectively annotating only 5\%-10\% of the dataset with ALLabel can achieve performance comparable to the method annotating the entire dataset. Further analyses and ablation studies verify the effectiveness and generalizability of our proposal.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ALLabel: Three-stage Active Learning for LLM-based Entity Recognition using Demonstration Retrieval

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ADORE: Autonomous Domain-Oriented Relevance Engine for E-commerce

Evidence-Guided Schema Normalization for Temporal Tabular Reasoning

SEDA: A Self-Adapted Entity-Centric Data Augmentation for Boosting Gird-based Di...

Principled Context Engineering for RAG: Statistical Guarantees via Conformal Pre...

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Inform...

Навигация