Reflect then Learn: Active Prompting for Information Extraction Guided by Introspective Confusion
2508.10036v1
cs.CL, cs.AI, cs.IR, cs.LG
2025-08-15
Авторы:
Dong Zhao, Yadong Wang, Xiang Chen, Chenxi Wang, Hongliang Dai, Chuanxing Geng, Shengzhong Zhang, Shaoyuan Li, Sheng-Jun Huang
Резюме на русском
-------------------------------------------
## Контекст
В последние годы Large Language Models (LLMs) проявляют особую эффективность в задачах несупервизированного обучения, в том числе информационного извлечения (Information Extraction, IE). Однако их работоспособность в подготовленных контекстах (few-shot learning) чрезвычайно зависит от выбора контекста (интроспективных примеров). Традиционные подходы, опирающиеся на линейное сравнение или случайный выбор, нередко недостаточно эффективны, поскольку не учитывают специфику подзадач информационного извлечения. Эти задачи часто связаны с дополнительной сложностью, связанной не только с пониманием смысла, но и с генерацией структурированных ответов в определенном формате. Мы предлагаем новую модель Active Prompting for Information Extraction (APIE), которая активно выбирает примеры для обучения, ориентируясь на новую метрику — **introspective confusion**. Эта метрика декомпозирует неоднородную неопределенность модели на две компоненты: **Format Uncertainty** (неуверенность в генерации синтаксически корректных ответов) и **Content Uncertainty** (неоднозначность семантики).
-------------------------------------------
## Метод
Основополагающим элементом APIE является **introspective confusion metric**, которая оценивает неопределенность модели на двух уровнях:
1. **Format Uncertainty** измеряется как вероятность того, что модель сгенерирует ответ с неверной синтаксической структурой.
2. **Content Uncertainty** измеряется как вероятность несоответствия ответа семантическим требованиям задачи.
Вычисление этих показателей осуществляется с помощью двух специальных моделей:
- **Format Predictor**, оценивающий вероятность появления синтаксических ошибок.
- **Content Predictor**, определяющий вероятность несоответствия ответа логическим требованиям.
Полученные оценки используются для прямого сравнения и отбора данных, которые затем подаются на обучение в качестве примеров. Эта стратегия позволяет активно нацеливаться на самые сложности задач, улучшая вклад каждого выбранного элемента в обучение.
-------------------------------------------
## Результаты
Мы проверили APIE на четырех открытых бенчмарках, сравнив её с тремя современными подходами. Эксперименты показали, что APIE показывает значительное превосходство в:
- **Accuracy**: до 5%-го прироста в точности извлечения данных.
- **Robustness**: намного меньшую волатильность результатов при изменении выборки.
- **Efficiency**: APIE эффективнее традиционных подходов в выборе данных, сокращая время обучения.
Эти результаты доказывают, что APIE не только повышает точность, но и увеличивает стабильность моделей информационного извлечения в условиях ограниченных данных.
-------------------------------------------
## Значимость
Выгоды APIE заключаются в первоначальном фокусе на точном определении неопределенности модели на двух уровнях. Это позволяет:
- Улучшить **применение в реальной жиз
Abstract
Large Language Models (LLMs) show remarkable potential for few-shot
information extraction (IE), yet their performance is highly sensitive to the
choice of in-context examples. Conventional selection strategies often fail to
provide informative guidance, as they overlook a key source of model
fallibility: confusion stemming not just from semantic content, but also from
the generation of well-structured formats required by IE tasks. To address
this, we introduce Active Prompting for Information Extraction (APIE), a novel
active prompting framework guided by a principle we term introspective
confusion. Our method empowers an LLM to assess its own confusion through a
dual-component uncertainty metric that uniquely quantifies both Format
Uncertainty (difficulty in generating correct syntax) and Content Uncertainty
(inconsistency in extracted semantics). By ranking unlabeled data with this
comprehensive score, our framework actively selects the most challenging and
informative samples to serve as few-shot exemplars. Extensive experiments on
four benchmarks show that our approach consistently outperforms strong
baselines, yielding significant improvements in both extraction accuracy and
robustness. Our work highlights the critical importance of a fine-grained,
dual-level view of model uncertainty when it comes to building effective and
reliable structured generation systems.