Retrieval Enhanced Feedback via In-context Neural Error-book
2508.16313v2
cs.LG, cs.AI, cs.CL
2025-08-27
Авторы:
Jongyeop Hyun, Bumsoo Kim
Резюме на русском
#### Контекст
Огромные модели языка (LLMs) показали огромный потенциал в логической обработке текста и многомодальных задачах. Одним из ключевых подходов является **in-context learning (ICL)**, который позволяет модели учиться без тренировки заново, используя примеры в запросе. Несмотря на эти прогрессы, существуют проблемы, такие как неэффективность в обработке ошибок. Это особенно актуально для многомодальных моделей (MLLMs), где обработка сложных визуальных и текстовых данных добавляет сложности. Эти трудности могут привести к неточным выводам и неэффективности. Таким образом, необходимо разработать методы, способные анализировать ошибки и формировать правильные коррективы, особенно в многомодальных задачах.
#### Метод
Мы предлагаем **REFINE: Retrieval-Enhanced Feedback via In-context Neural Error-book**, который является **teacher-student framework** для структурированной обработки ошибок и формирования направленного обратного в suggestions. REFINE использует три специальных запроса:
- **Feed-Target**: Определяет целевую многомодальную цель для обработки.
- **Feed-Check**: Анализирует и выявляет ошибки в модели.
- **Feed-Path**: Формирует хорошо структурированные направленные коррективы.
REFINE оптимизирует процесс поиска информации для в suggestions, уменьшая необходимые ресурсы и улучшая эффективность. Метод использует **structured feedback retrieval**, что позволяет работать быстрее и эффективнее, с меньшим потреблением ресурсов.
#### Результаты
Мы провели эксперименты с REFINE на различных многомодальных задачах, включая моделирование текстов и визуальных данных. Мы сравнили наши результаты с текущими методами, которые не использовали структурированные коррективы. Обнаружено, что REFINE показывает существенный ускорение вычислений (до 30% скорости) и экономию ресурсов (до 20% потребления токенов). Это свидетельствует о том, что структурированные коррективы не только улучшают точность, но и существенно повышают эффективность. Также мы проверили общую обработку визуальных задач, и REFINE показал устойчивость и улучшение в разных сценариях.
#### Значимость
REFINE может применяться в различных областях, где требуется оптимальная обработка многомодальных задач, таких как медицинская интерпретация сигналов, вывод решений в финансах и прогнозирование в машинном обучении. Его основное преимущество заключается в **точной обработке ошибок и эффективном использовании ресурсов**. Это может позволить расширить пределы точности и эффективности во многих приложениях, где требуется высокая скорость реакции и малое потребление ресурсов.
#### Выводы
Наши результаты показывают, что **REFINE** является новым эффективным подходом для **структурирован
Abstract
Recent advancements in Large Language Models (LLMs) have significantly
improved reasoning capabilities, with in-context learning (ICL) emerging as a
key technique for adaptation without retraining. While previous works have
focused on leveraging correct examples, recent research highlights the
importance of learning from errors to enhance performance. However, existing
methods lack a structured framework for analyzing and mitigating errors,
particularly in Multimodal Large Language Models (MLLMs), where integrating
visual and textual inputs adds complexity. To address this issue, we propose
REFINE: Retrieval-Enhanced Feedback via In-context Neural Error-book, a
teacher-student framework that systematically structures errors and provides
targeted feedback. REFINE introduces three systematic queries to construct
structured feedback -- Feed-Target, Feed-Check, and Feed-Path -- to enhance
multimodal reasoning by prioritizing relevant visual information, diagnosing
critical failure points, and formulating corrective actions. Unlike prior
approaches that rely on redundant retrievals, REFINE optimizes structured
feedback retrieval, improving inference efficiency, token usage, and
scalability. Our results demonstrate substantial speedup, reduced computational
costs, and successful generalization, highlighting REFINE's potential for
enhancing multimodal reasoning.
Ссылки и действия
Дополнительные ресурсы: