Retrieval Enhanced Feedback via In-context Neural Error-book

2508.16313v2 cs.LG, cs.AI, cs.CL 2025-08-27
Авторы:

Jongyeop Hyun, Bumsoo Kim

Резюме на русском

#### Контекст Огромные модели языка (LLMs) показали огромный потенциал в логической обработке текста и многомодальных задачах. Одним из ключевых подходов является **in-context learning (ICL)**, который позволяет модели учиться без тренировки заново, используя примеры в запросе. Несмотря на эти прогрессы, существуют проблемы, такие как неэффективность в обработке ошибок. Это особенно актуально для многомодальных моделей (MLLMs), где обработка сложных визуальных и текстовых данных добавляет сложности. Эти трудности могут привести к неточным выводам и неэффективности. Таким образом, необходимо разработать методы, способные анализировать ошибки и формировать правильные коррективы, особенно в многомодальных задачах. #### Метод Мы предлагаем **REFINE: Retrieval-Enhanced Feedback via In-context Neural Error-book**, который является **teacher-student framework** для структурированной обработки ошибок и формирования направленного обратного в suggestions. REFINE использует три специальных запроса: - **Feed-Target**: Определяет целевую многомодальную цель для обработки. - **Feed-Check**: Анализирует и выявляет ошибки в модели. - **Feed-Path**: Формирует хорошо структурированные направленные коррективы. REFINE оптимизирует процесс поиска информации для в suggestions, уменьшая необходимые ресурсы и улучшая эффективность. Метод использует **structured feedback retrieval**, что позволяет работать быстрее и эффективнее, с меньшим потреблением ресурсов. #### Результаты Мы провели эксперименты с REFINE на различных многомодальных задачах, включая моделирование текстов и визуальных данных. Мы сравнили наши результаты с текущими методами, которые не использовали структурированные коррективы. Обнаружено, что REFINE показывает существенный ускорение вычислений (до 30% скорости) и экономию ресурсов (до 20% потребления токенов). Это свидетельствует о том, что структурированные коррективы не только улучшают точность, но и существенно повышают эффективность. Также мы проверили общую обработку визуальных задач, и REFINE показал устойчивость и улучшение в разных сценариях. #### Значимость REFINE может применяться в различных областях, где требуется оптимальная обработка многомодальных задач, таких как медицинская интерпретация сигналов, вывод решений в финансах и прогнозирование в машинном обучении. Его основное преимущество заключается в **точной обработке ошибок и эффективном использовании ресурсов**. Это может позволить расширить пределы точности и эффективности во многих приложениях, где требуется высокая скорость реакции и малое потребление ресурсов. #### Выводы Наши результаты показывают, что **REFINE** является новым эффективным подходом для **структурирован

Abstract

Recent advancements in Large Language Models (LLMs) have significantly improved reasoning capabilities, with in-context learning (ICL) emerging as a key technique for adaptation without retraining. While previous works have focused on leveraging correct examples, recent research highlights the importance of learning from errors to enhance performance. However, existing methods lack a structured framework for analyzing and mitigating errors, particularly in Multimodal Large Language Models (MLLMs), where integrating visual and textual inputs adds complexity. To address this issue, we propose REFINE: Retrieval-Enhanced Feedback via In-context Neural Error-book, a teacher-student framework that systematically structures errors and provides targeted feedback. REFINE introduces three systematic queries to construct structured feedback -- Feed-Target, Feed-Check, and Feed-Path -- to enhance multimodal reasoning by prioritizing relevant visual information, diagnosing critical failure points, and formulating corrective actions. Unlike prior approaches that rely on redundant retrievals, REFINE optimizes structured feedback retrieval, improving inference efficiency, token usage, and scalability. Our results demonstrate substantial speedup, reduced computational costs, and successful generalization, highlighting REFINE's potential for enhancing multimodal reasoning.

Ссылки и действия