A Curriculum Learning Approach to Reinforcement Learning: Leveraging RAG for Multimodal Question Answering
2508.10337v1
cs.AI, cs.LG
2025-08-16
Авторы:
Chenliang Zhang, Lin Wang, Yuanyuan Lu, Yusheng Qi, Kexin Wang, Peixu Hou, Wenshi Chen
Резюме на русском
## Контекст
В последние годы технологии машинного обучения постепенно вошли во многие сферы нашего общества. Одной из актуальных областей этого развития является многомодальное вопрос-ответ (Multi-Modal Question Answering, MMQA), которое предполагает распознавание и обработку информации из различных модальностей, таких как текст, изображения и аудио. Одна из главных проблем в этой области заключается в том, что существующие методы часто сталкиваются с проблемами качества и точности ответов, особенно при работе с многообразными источниками данных и высокочастотными, сложными запросами. Эти факторы побудили разработчиков искать новые подходы, которые могли бы улучшить точность и универсальность систем многомодального вопроса-ответа.
## Метод
Наш подход основывается на идее **Curriculum Learning** в сочетании с **Reinforcement Learning (RL)**. Curriculum Learning позволяет системе научиться постепенно, начиная с простых задач и плавно переходя к более сложным. Мы использовали **Reinforcement Learning** для точного управления поведением модели, делая ее более эффективной в динамических условиях. Также в нашей модели применялся **Retrieval-Augmented Generation (RAG)**, который объединяет технологии восстановления и покопательного построения ответов. Для обучения и применения модели мы использовали **knowledge graphs** и **web search APIs**, что помогало модели повысить точность и глубину ответов.
## Результаты
Мы провели эксперименты на множестве данных, включая многомодальные задачи вопроса-ответа. Наша модель показала выдающиеся результаты в Task 1, где она достигла **первого места**, показав прирост точности ответов на **52.38%** по сравнению с конкурирующими решениями. Этого достиглось благодаря эффективному интегрированию curriculum learning в процесс обучения RL. Также, в Task 3, наша система достигла **третьего места**, что демонстрирует ее устойчивость и мощь в обработке многообразных многомодальных запросов.
## Значимость
Наш подход имеет широкое применение в сферах, где необходима точная обработка многомодальных запросов, таких как интеллектуальные помощники, системы управления здравоохранением, интеллектуальные системы в сфере транспорта и логистики. Одним из основных преимуществ является увеличение точности ответов благодаря использованию **knowledge graphs** и **web search APIs**, что позволяет системе быть более устойчивой к новым, нестандартным запросам. Это улучшение имеет потенциал для улучшения качества услуг и увеличения удобства для пользователей.
## Выводы
В результате наших исследований, мы доказали, что использование **Curriculum Learning** в сочетании с **Reinforcement Learning** позволяет значительно улучшить качество и точность ответов в области многомодального вопроса-ответа. Мы также показали, что интеграция **RAG** с **knowledge graphs** и **web search APIs** по
Abstract
This paper describes the solutions of the Dianping-Trust-Safety team for the
META CRAG-MM challenge. The challenge requires building a comprehensive
retrieval-augmented generation system capable for multi-modal multi-turn
question answering. The competition consists of three tasks: (1) answering
questions using structured data retrieved from an image-based mock knowledge
graph, (2) synthesizing information from both knowledge graphs and web search
results, and (3) handling multi-turn conversations that require context
understanding and information aggregation from multiple sources. For Task 1,
our solution is based on the vision large language model, enhanced by
supervised fine-tuning with knowledge distilled from GPT-4.1. We further
applied curriculum learning strategies to guide reinforcement learning,
resulting in improved answer accuracy and reduced hallucination. For Task 2 and
Task 3, we additionally leveraged web search APIs to incorporate external
knowledge, enabling the system to better handle complex queries and multi-turn
conversations. Our approach achieved 1st place in Task 1 with a significant
lead of 52.38\%, and 3rd place in Task 3, demonstrating the effectiveness of
the integration of curriculum learning with reinforcement learning in our
training pipeline.
Ссылки и действия
Дополнительные ресурсы: