LLM-I: LLMs are Naturally Interleaved Multimodal Creators

2509.13642v1 cs.LG, cs.CV 2025-09-19
Авторы:

Zirun Guo, Feng Zhang, Kai Jia, Tao Jin

Резюме на русском

## Контекст В последние годы становится все более очевидным, что текстовые генеративные модели (LLM) способны не только выводить текстовую информацию, но и взаимодействовать с визуальными данными. Однако существуют серьезные ограничения, связанные с тем, что существующие модели часто ограничиваются синтетическими изображениями и страдают от нехватки точности и фактического знания при работе с реальными задачами. Эта проблема называется "одно-инструментный бутафор" и ограничивает потенциал генеративных моделей в решении реальных задач. Мы предлагаем LLM-I (LLM-Interleaved), новую архитектуру, которая преодолевает эту проблему, превращая задачу интеллектуального использования инструментов в инструмент генеративной модели. ## Метод LLM-I представляет собой динамическую и гибкую систему, которая использует центральную LLM или MLLM-агента, чтобы интеллектуально управлять различными специализированными визуальными инструментами. Эти инструменты включают в себя поиск изображений, диффузионную генерацию, выполнение программного кода и редактирование изображений. Мы используем Reinforcement Learning (RL) для обучения агента, который выбирает и применяет инструменты с помощью гибкой системы наград. Наша система обучается на новой датасете, содержащей данные для четырех разных моделей. Это позволяет LLM-I адаптироваться к различным задачам и окружениям. ## Результаты Мы проводили эксперименты на четырех различных бенчмарках, включая задачи синтеза изображений, редактирования, программирования и поиска. Наши результаты показывают, что LLM-I превосходит существующие методы во всех задачах, показывая значительную выгоду в точности и качестве генерируемых результатов. Мы также применили новую стратегию скольжения степенной характеристики, которая дает дополнительный прирост производительности во время выполнения. ## Значимость LLM-I открывает новые возможности для генеративных моделей, которые могут теперь не только выводить текст, но и работать с реальными визуальными задачами. Это может быть применено в различных областях, таких как медицина, промышленность, образование и многие другие. Наше решение предоставляет большую гибкость и мощь, которая отсутствует в существующих моделях. Мы также показываем, что наше решение может быть скорректировано для различных специализированных задач, что делает его универсальным инструментом для разработчиков и исследователей. ## Выводы Мы представляем LLM-I, новую архитектуру, которая использует центральную LLM для управления различными визуальными инструментами. Мы показали сво

Abstract

We propose LLM-Interleaved (LLM-I), a flexible and dynamic framework that reframes interleaved image-text generation as a tool-use problem. LLM-I is designed to overcome the "one-tool" bottleneck of current unified models, which are limited to synthetic imagery and struggle with tasks requiring factual grounding or programmatic precision. Our framework empowers a central LLM or MLLM agent to intelligently orchestrate a diverse toolkit of specialized visual tools, including online image search, diffusion-based generation, code execution, and image editing. The agent is trained to select and apply these tools proficiently via a Reinforcement Learning (RL) framework that features a hybrid reward system combining rule-based logic with judgments from LLM and MLLM evaluators. Trained on a diverse new dataset using four different model backbones, LLM-I demonstrates state-of-the-art performance, outperforming existing methods by a large margin across four benchmarks. We also introduce a novel test-time scaling strategy that provides further performance gains. Project Page: https://github.com/ByteDance-BandAI/LLM-I.

Ссылки и действия