Reflect then Learn: Active Prompting for Information Extraction Guided by Introspective Confusion

2508.10036v1 cs.CL, cs.AI, cs.IR, cs.LG 2025-08-15
Авторы:

Dong Zhao, Yadong Wang, Xiang Chen, Chenxi Wang, Hongliang Dai, Chuanxing Geng, Shengzhong Zhang, Shaoyuan Li, Sheng-Jun Huang

Резюме на русском

------------------------------------------- ## Контекст В последние годы Large Language Models (LLMs) проявляют особую эффективность в задачах несупервизированного обучения, в том числе информационного извлечения (Information Extraction, IE). Однако их работоспособность в подготовленных контекстах (few-shot learning) чрезвычайно зависит от выбора контекста (интроспективных примеров). Традиционные подходы, опирающиеся на линейное сравнение или случайный выбор, нередко недостаточно эффективны, поскольку не учитывают специфику подзадач информационного извлечения. Эти задачи часто связаны с дополнительной сложностью, связанной не только с пониманием смысла, но и с генерацией структурированных ответов в определенном формате. Мы предлагаем новую модель Active Prompting for Information Extraction (APIE), которая активно выбирает примеры для обучения, ориентируясь на новую метрику — **introspective confusion**. Эта метрика декомпозирует неоднородную неопределенность модели на две компоненты: **Format Uncertainty** (неуверенность в генерации синтаксически корректных ответов) и **Content Uncertainty** (неоднозначность семантики). ------------------------------------------- ## Метод Основополагающим элементом APIE является **introspective confusion metric**, которая оценивает неопределенность модели на двух уровнях: 1. **Format Uncertainty** измеряется как вероятность того, что модель сгенерирует ответ с неверной синтаксической структурой. 2. **Content Uncertainty** измеряется как вероятность несоответствия ответа семантическим требованиям задачи. Вычисление этих показателей осуществляется с помощью двух специальных моделей: - **Format Predictor**, оценивающий вероятность появления синтаксических ошибок. - **Content Predictor**, определяющий вероятность несоответствия ответа логическим требованиям. Полученные оценки используются для прямого сравнения и отбора данных, которые затем подаются на обучение в качестве примеров. Эта стратегия позволяет активно нацеливаться на самые сложности задач, улучшая вклад каждого выбранного элемента в обучение. ------------------------------------------- ## Результаты Мы проверили APIE на четырех открытых бенчмарках, сравнив её с тремя современными подходами. Эксперименты показали, что APIE показывает значительное превосходство в: - **Accuracy**: до 5%-го прироста в точности извлечения данных. - **Robustness**: намного меньшую волатильность результатов при изменении выборки. - **Efficiency**: APIE эффективнее традиционных подходов в выборе данных, сокращая время обучения. Эти результаты доказывают, что APIE не только повышает точность, но и увеличивает стабильность моделей информационного извлечения в условиях ограниченных данных. ------------------------------------------- ## Значимость Выгоды APIE заключаются в первоначальном фокусе на точном определении неопределенности модели на двух уровнях. Это позволяет: - Улучшить **применение в реальной жиз

Abstract

Large Language Models (LLMs) show remarkable potential for few-shot information extraction (IE), yet their performance is highly sensitive to the choice of in-context examples. Conventional selection strategies often fail to provide informative guidance, as they overlook a key source of model fallibility: confusion stemming not just from semantic content, but also from the generation of well-structured formats required by IE tasks. To address this, we introduce Active Prompting for Information Extraction (APIE), a novel active prompting framework guided by a principle we term introspective confusion. Our method empowers an LLM to assess its own confusion through a dual-component uncertainty metric that uniquely quantifies both Format Uncertainty (difficulty in generating correct syntax) and Content Uncertainty (inconsistency in extracted semantics). By ranking unlabeled data with this comprehensive score, our framework actively selects the most challenging and informative samples to serve as few-shot exemplars. Extensive experiments on four benchmarks show that our approach consistently outperforms strong baselines, yielding significant improvements in both extraction accuracy and robustness. Our work highlights the critical importance of a fine-grained, dual-level view of model uncertainty when it comes to building effective and reliable structured generation systems.

Ссылки и действия