## Контекст
В нынешнем контексте развития искусственного интеллекта (ИИ) возникает необходимость в развитии систем, которые способны решать сложные задачи, включающие несколько этапов, сочетая различные инструменты и подходы. Эти системы, известные как deep research systems, являются agentic AI, которые умеют выполнять тяжелые задачи, объединяя принятие решений, поиск в открытом интернете и в локальных файлах пользователя, а также использование различных инструментов. Однако развитие таких систем сталкивается с рядом проблем. Существующие подходы, такие как supervised fine-tuning (SFT) и динамический преференциальный оптимизатор (DPO), сталкиваются с рядом ограничений. Они часто требуют ручной разработки схем, подразумевают использование ограниченного количества программных инструментов и страдают от проблем с трудным кредитным присвоением и транспарентностью решений. На этой заднней сцене роль реинфорсмент-лернинга (reinforcement learning, RL) становится важной, так как он позволяет подходить к задачам в замкнутом цикле и использовать оптимизацию траекторий, что дает возможность эффективно использовать различные инструменты и решать задачи с трудным кредитным присвоением, а также обеспечивать более предсказуемое и прозрачное поведение системы.
## Метод
В этом исследовании рассматривается методология развития deep research systems, основанных на reinforcement learning. Основным подходом является использование RL для обучения agentic research systems. Методом является разработка многоуровневой архитектуры, включающей планировщика, координатора и исполнителей, которые реализуют различные аспекты обучения и исполнения. Для обучения RL используются различные методы, такие как преобразование траекторий, для того чтобы обеспечить стабильность и эффективность обучения. Также в работе добавляется рассмотрение различных средств, таких как многоmodalный подход, для улучшения качества решений. Одним из ключевых моментов является использование техник, таких как reward shaping и credit assignment, которые позволяют системе эффективно выполнять задачи, даже в трудных ситуациях с многообъективным оптимизационным подходом.
## Результаты
В рамках этого исследования проводились ряд экспериментов, направленных на развитие и оценку RL-based approaches в рамках deep research systems. Были рассмотрены различные данные, включая текстовые данные, изображения и многоmodalные данные. Результаты показали, что RL-based approaches, в частности, такие как PPO и RADIAL, позволяют эффективно решать задачи, включающие многошаговое решение и инструментальные интеракции. Особенно примечателен факт, что RL позволяет снизить зависимость от создания сложных схем и ручного кредитного присвоения, что значитель