## Контекст
В последние годы область машинного обучения стала сильно развиваться, в особенности благодаря возникновению Large Language Models (LLMs). Эти модели позволяют выполнять различные задачи, включая естественный язык обработки, логическое рассуждение и дальше. Одна из ключевых технологий, которая сделала это возможным, это in-context learning (ICL), которая позволяет моделям учиться во время работы, не прибегая к переносу знаний. Однако, несмотря на это, существующие модели по-прежнему сталкиваются с проблемами, в частности, с точностью решения задач. Одна из причин этого заключается в недостатке систематизированной обработки ошибок. Это особенно важно в случае Multimodal Large Language Models (MLLMs), где необходимо обрабатывать как текстовые, так и визуальные данные одновременно. Наша идея заключается в том, чтобы создать структурированный подход к обработке ошибок, который мог бы улучшить логические возможности моделей.
## Метод
Мы предлатваем REFINE (Retrieval-Enhanced Feedback via In-context Neural Error-book) - методологию, которая использует технику ICL для улучшения обработки ошибок в MLLMs. Основоположником нашего подхода является введение трех видов структурированных запросов: Feed-Target, Feed-Check и Feed-Path. Эти запросы были разработаны, чтобы улучшить логику обработки входных данных. Feed-Target позволяет модели сосредоточиться на самом важном визуальном контенте, Feed-Check позволяет анализировать и определять наиболее важные точки множественных ошибок, а Feed-Path позволяет модели строить шаги, необходимые для корректировки. Мы также предлагаем оптимизированный подход к поиску ответов, который уменьшает необходимость в поиске и обработке ненужных данных. Это позволяет модели работать быстрее, эффективнее и с меньшими затратами ресурсов.
## Результаты
Мы проверили наш подход на наборе данных, содержащих многомодальные задачи, включая логические задачи и обработку текста с визуальными изображениями. Мы сравнили REFINE с другими существующими подходами, и наши результаты показали, что у нас лучшая точность и скорость работы. Например, мы достигли скоростного ускорения на 30% без потери точности. Это значит, что наш подход существенно эффективнее и может быть легко интегрирован с любыми моделями, которые используют ICL.
## Значимость
REFINE может быть применен в различных областях, таких как здравоохранение, образовательные системы и технические задачи. Его главное преимущество заключается в улучшенной точности и эффективности, что может привести к более продуктивному использованию моделей в реальной жизни. Мы считаем, что наш подход может стать ключевым инструментом для улучшения общих возможностей интеллектуальных систем.