LLM-I: LLMs are Naturally Interleaved Multimodal Creators
2509.13642v1
cs.LG, cs.CV
2025-09-19
Авторы:
Zirun Guo, Feng Zhang, Kai Jia, Tao Jin
Резюме на русском
## Контекст
В последние годы становится все более очевидным, что текстовые генеративные модели (LLM) способны не только выводить текстовую информацию, но и взаимодействовать с визуальными данными. Однако существуют серьезные ограничения, связанные с тем, что существующие модели часто ограничиваются синтетическими изображениями и страдают от нехватки точности и фактического знания при работе с реальными задачами. Эта проблема называется "одно-инструментный бутафор" и ограничивает потенциал генеративных моделей в решении реальных задач. Мы предлагаем LLM-I (LLM-Interleaved), новую архитектуру, которая преодолевает эту проблему, превращая задачу интеллектуального использования инструментов в инструмент генеративной модели.
## Метод
LLM-I представляет собой динамическую и гибкую систему, которая использует центральную LLM или MLLM-агента, чтобы интеллектуально управлять различными специализированными визуальными инструментами. Эти инструменты включают в себя поиск изображений, диффузионную генерацию, выполнение программного кода и редактирование изображений. Мы используем Reinforcement Learning (RL) для обучения агента, который выбирает и применяет инструменты с помощью гибкой системы наград. Наша система обучается на новой датасете, содержащей данные для четырех разных моделей. Это позволяет LLM-I адаптироваться к различным задачам и окружениям.
## Результаты
Мы проводили эксперименты на четырех различных бенчмарках, включая задачи синтеза изображений, редактирования, программирования и поиска. Наши результаты показывают, что LLM-I превосходит существующие методы во всех задачах, показывая значительную выгоду в точности и качестве генерируемых результатов. Мы также применили новую стратегию скольжения степенной характеристики, которая дает дополнительный прирост производительности во время выполнения.
## Значимость
LLM-I открывает новые возможности для генеративных моделей, которые могут теперь не только выводить текст, но и работать с реальными визуальными задачами. Это может быть применено в различных областях, таких как медицина, промышленность, образование и многие другие. Наше решение предоставляет большую гибкость и мощь, которая отсутствует в существующих моделях. Мы также показываем, что наше решение может быть скорректировано для различных специализированных задач, что делает его универсальным инструментом для разработчиков и исследователей.
## Выводы
Мы представляем LLM-I, новую архитектуру, которая использует центральную LLM для управления различными визуальными инструментами. Мы показали сво
Abstract
We propose LLM-Interleaved (LLM-I), a flexible and dynamic framework that
reframes interleaved image-text generation as a tool-use problem. LLM-I is
designed to overcome the "one-tool" bottleneck of current unified models, which
are limited to synthetic imagery and struggle with tasks requiring factual
grounding or programmatic precision. Our framework empowers a central LLM or
MLLM agent to intelligently orchestrate a diverse toolkit of specialized visual
tools, including online image search, diffusion-based generation, code
execution, and image editing. The agent is trained to select and apply these
tools proficiently via a Reinforcement Learning (RL) framework that features a
hybrid reward system combining rule-based logic with judgments from LLM and
MLLM evaluators. Trained on a diverse new dataset using four different model
backbones, LLM-I demonstrates state-of-the-art performance, outperforming
existing methods by a large margin across four benchmarks. We also introduce a
novel test-time scaling strategy that provides further performance gains.
Project Page: https://github.com/ByteDance-BandAI/LLM-I.
Ссылки и действия
Дополнительные ресурсы: