ALLabel: Three-stage Active Learning for LLM-based Entity Recognition using Demonstration Retrieval
2509.07512v1
cs.CL, cs.AI, cs.IR
2025-09-11
Авторы:
Zihan Chen, Lei Shi, Weize Wu, Qiji Zhou, Yue Zhang
Резюме на русском
## Контекст
Одним из ключевых задач в научных исследованиях, таких как химия и материаловедение, является высокоточное распознавание сущностей (entity recognition) в больших научных данных. Эта задача требует больших вычислительных мощностей и подверждается ошибкам, когда сущности неправильно распознаются. Большие языковые модели (LLM) становятся популярнее для решения этой задачи, но их применение часто связано с высокими затратами, особенно в процессе файн-тюнинга. Из-за этого нуждается в разработке более эффективных подходов, которые бы уменьшили затраты, не ухудшая качество распознавания.
## Метод
Мы предлагаем ALLabel — трехэтапную модель для активного обучения (active learning), которая применяет технологию воспроизведения демонстраций (demonstration retrieval) для повышения эффективности. В первом этапе модель выбирает самые сложные и неоднозначные примеры для аннотации, чтобы имитировать их ввод в модель. Во втором этапе эти примеры используются для создания корпуса для включения в контекстное обучение (in-context learning) модели. На третьем этапе ALLabel использует три различных стратегии активного обучения для последовательного улучшения качества распознавания сущностей.
## Результаты
Мы провёрили эффективность ALLabel на трёх датасетах специализированных областей: химия, материаловедение и биология. Наши эксперименты показали, что ALLabel показывает высокую эффективность, требуя только 5-10% аннотаций для достижения результатов, которые не уступают базовым моделям, работавшим с полной аннотацией. Мы также провели анализы и исследовали различные аспекты модели, чтобы подтвердить её общие возможности и ликвидность в различных ситуациях.
## Значимость
ALLabel может применяться во многих научных областях, где требуется высокоточное распознавание сущностей, таких как химия, материаловедение и биология. Она эффективно решает проблему высоких затрат на воспроизводство демонстраций и обучения моделей, снижая необходимый объём данных для тренировки. Это приводит к сокращению затрат на предобучение и высокому качеству распознавания сущностей.
## Выводы
ALLabel демонстрирует свою эффективность в активном обучении для LLM-based entity recognition. Наши результаты показали, что модель успешно решает задачу распознавания сущностей с минимальными затратами, не уменьшая качество распознавания. В дальнейших исследованиях планируется расширить её применимость к другим специализированным областям, а также улучшить процессы выбора и аннотации данных.
Abstract
Many contemporary data-driven research efforts in the natural sciences, such
as chemistry and materials science, require large-scale, high-performance
entity recognition from scientific datasets. Large language models (LLMs) have
increasingly been adopted to solve the entity recognition task, with the same
trend being observed on all-spectrum NLP tasks. The prevailing entity
recognition LLMs rely on fine-tuned technology, yet the fine-tuning process
often incurs significant cost. To achieve a best performance-cost trade-off, we
propose ALLabel, a three-stage framework designed to select the most
informative and representative samples in preparing the demonstrations for LLM
modeling. The annotated examples are used to construct a ground-truth retrieval
corpus for LLM in-context learning. By sequentially employing three distinct
active learning strategies, ALLabel consistently outperforms all baselines
under the same annotation budget across three specialized domain datasets.
Experimental results also demonstrate that selectively annotating only 5\%-10\%
of the dataset with ALLabel can achieve performance comparable to the method
annotating the entire dataset. Further analyses and ablation studies verify the
effectiveness and generalizability of our proposal.
Ссылки и действия
Дополнительные ресурсы: