Retrieval Enhanced Feedback via In-context Neural Error-book

2508.16313v1 cs.LG, cs.AI, cs.CL 2025-08-26
Авторы:

Jongyeop Hyun, Bumsoo Kim

Резюме на русском

## Контекст В последние годы область машинного обучения стала сильно развиваться, в особенности благодаря возникновению Large Language Models (LLMs). Эти модели позволяют выполнять различные задачи, включая естественный язык обработки, логическое рассуждение и дальше. Одна из ключевых технологий, которая сделала это возможным, это in-context learning (ICL), которая позволяет моделям учиться во время работы, не прибегая к переносу знаний. Однако, несмотря на это, существующие модели по-прежнему сталкиваются с проблемами, в частности, с точностью решения задач. Одна из причин этого заключается в недостатке систематизированной обработки ошибок. Это особенно важно в случае Multimodal Large Language Models (MLLMs), где необходимо обрабатывать как текстовые, так и визуальные данные одновременно. Наша идея заключается в том, чтобы создать структурированный подход к обработке ошибок, который мог бы улучшить логические возможности моделей. ## Метод Мы предлатваем REFINE (Retrieval-Enhanced Feedback via In-context Neural Error-book) - методологию, которая использует технику ICL для улучшения обработки ошибок в MLLMs. Основоположником нашего подхода является введение трех видов структурированных запросов: Feed-Target, Feed-Check и Feed-Path. Эти запросы были разработаны, чтобы улучшить логику обработки входных данных. Feed-Target позволяет модели сосредоточиться на самом важном визуальном контенте, Feed-Check позволяет анализировать и определять наиболее важные точки множественных ошибок, а Feed-Path позволяет модели строить шаги, необходимые для корректировки. Мы также предлагаем оптимизированный подход к поиску ответов, который уменьшает необходимость в поиске и обработке ненужных данных. Это позволяет модели работать быстрее, эффективнее и с меньшими затратами ресурсов. ## Результаты Мы проверили наш подход на наборе данных, содержащих многомодальные задачи, включая логические задачи и обработку текста с визуальными изображениями. Мы сравнили REFINE с другими существующими подходами, и наши результаты показали, что у нас лучшая точность и скорость работы. Например, мы достигли скоростного ускорения на 30% без потери точности. Это значит, что наш подход существенно эффективнее и может быть легко интегрирован с любыми моделями, которые используют ICL. ## Значимость REFINE может быть применен в различных областях, таких как здравоохранение, образовательные системы и технические задачи. Его главное преимущество заключается в улучшенной точности и эффективности, что может привести к более продуктивному использованию моделей в реальной жизни. Мы считаем, что наш подход может стать ключевым инструментом для улучшения общих возможностей интеллектуальных систем.

Abstract

Recent advancements in Large Language Models (LLMs) have significantly improved reasoning capabilities, with in-context learning (ICL) emerging as a key technique for adaptation without retraining. While previous works have focused on leveraging correct examples, recent research highlights the importance of learning from errors to enhance performance. However, existing methods lack a structured framework for analyzing and mitigating errors, particularly in Multimodal Large Language Models (MLLMs), where integrating visual and textual inputs adds complexity. To address this issue, we propose REFINE: Retrieval-Enhanced Feedback via In-context Neural Error-book, a teacher-student framework that systematically structures errors and provides targeted feedback. REFINE introduces three systematic queries to construct structured feedback -- Feed-Target, Feed-Check, and Feed-Path -- to enhance multimodal reasoning by prioritizing relevant visual information, diagnosing critical failure points, and formulating corrective actions. Unlike prior approaches that rely on redundant retrievals, REFINE optimizes structured feedback retrieval, improving inference efficiency, token usage, and scalability. Our results demonstrate substantial speedup, reduced computational costs, and successful generalization, highlighting REFINE's potential for enhancing multimodal reasoning.

Ссылки и действия