A Curriculum Learning Approach to Reinforcement Learning: Leveraging RAG for Multimodal Question Answering

2508.10337v1 cs.AI, cs.LG 2025-08-16
Авторы:

Chenliang Zhang, Lin Wang, Yuanyuan Lu, Yusheng Qi, Kexin Wang, Peixu Hou, Wenshi Chen

Резюме на русском

## Контекст В последние годы технологии машинного обучения постепенно вошли во многие сферы нашего общества. Одной из актуальных областей этого развития является многомодальное вопрос-ответ (Multi-Modal Question Answering, MMQA), которое предполагает распознавание и обработку информации из различных модальностей, таких как текст, изображения и аудио. Одна из главных проблем в этой области заключается в том, что существующие методы часто сталкиваются с проблемами качества и точности ответов, особенно при работе с многообразными источниками данных и высокочастотными, сложными запросами. Эти факторы побудили разработчиков искать новые подходы, которые могли бы улучшить точность и универсальность систем многомодального вопроса-ответа. ## Метод Наш подход основывается на идее **Curriculum Learning** в сочетании с **Reinforcement Learning (RL)**. Curriculum Learning позволяет системе научиться постепенно, начиная с простых задач и плавно переходя к более сложным. Мы использовали **Reinforcement Learning** для точного управления поведением модели, делая ее более эффективной в динамических условиях. Также в нашей модели применялся **Retrieval-Augmented Generation (RAG)**, который объединяет технологии восстановления и покопательного построения ответов. Для обучения и применения модели мы использовали **knowledge graphs** и **web search APIs**, что помогало модели повысить точность и глубину ответов. ## Результаты Мы провели эксперименты на множестве данных, включая многомодальные задачи вопроса-ответа. Наша модель показала выдающиеся результаты в Task 1, где она достигла **первого места**, показав прирост точности ответов на **52.38%** по сравнению с конкурирующими решениями. Этого достиглось благодаря эффективному интегрированию curriculum learning в процесс обучения RL. Также, в Task 3, наша система достигла **третьего места**, что демонстрирует ее устойчивость и мощь в обработке многообразных многомодальных запросов. ## Значимость Наш подход имеет широкое применение в сферах, где необходима точная обработка многомодальных запросов, таких как интеллектуальные помощники, системы управления здравоохранением, интеллектуальные системы в сфере транспорта и логистики. Одним из основных преимуществ является увеличение точности ответов благодаря использованию **knowledge graphs** и **web search APIs**, что позволяет системе быть более устойчивой к новым, нестандартным запросам. Это улучшение имеет потенциал для улучшения качества услуг и увеличения удобства для пользователей. ## Выводы В результате наших исследований, мы доказали, что использование **Curriculum Learning** в сочетании с **Reinforcement Learning** позволяет значительно улучшить качество и точность ответов в области многомодального вопроса-ответа. Мы также показали, что интеграция **RAG** с **knowledge graphs** и **web search APIs** по

Abstract

This paper describes the solutions of the Dianping-Trust-Safety team for the META CRAG-MM challenge. The challenge requires building a comprehensive retrieval-augmented generation system capable for multi-modal multi-turn question answering. The competition consists of three tasks: (1) answering questions using structured data retrieved from an image-based mock knowledge graph, (2) synthesizing information from both knowledge graphs and web search results, and (3) handling multi-turn conversations that require context understanding and information aggregation from multiple sources. For Task 1, our solution is based on the vision large language model, enhanced by supervised fine-tuning with knowledge distilled from GPT-4.1. We further applied curriculum learning strategies to guide reinforcement learning, resulting in improved answer accuracy and reduced hallucination. For Task 2 and Task 3, we additionally leveraged web search APIs to incorporate external knowledge, enabling the system to better handle complex queries and multi-turn conversations. Our approach achieved 1st place in Task 1 with a significant lead of 52.38\%, and 3rd place in Task 3, demonstrating the effectiveness of the integration of curriculum learning with reinforcement learning in our training pipeline.

Ссылки и действия