Simple o3: Towards Interleaved Vision-Language Reasoning
2508.12109v1
cs.CV, cs.AI
2025-08-19
Авторы:
Ye Wang, Qianglong Chen, Zejun Li, Siyuan Wang, Shijie Guo, Zhirui Zhang, Zhongyu Wei
Резюме на русском
#### Контекст
В последние годы видение-языковые (визаулизованные) задачи, такие как обработка данных видео и синтез текста, приобрели неизменное значение в области искусственного интеллекта. Особенно заметно это в области компьютерного зрения, где модели используют текст для описания изображений, выявления объектов и даже контроля роботов. Однако существуют проблемы, связанные с недостаточным использованием визуальных контекстов, а также с ограниченными возможностями в реализации динамического обучения. Многие модели способны только ограниченно выполнять визуально-языковые логические задачи, особенно когда требуется длительный цепной роутинг (Chain-of-Thought, CoT). Многие текущие модели не могут работать с реальными изображениями в реальном времени. Мы предлагаем Simple o3, модель, которая объединяет визуальные и языковые операции в одной структуре, чтобы улучшить возможности модели в работе с визуальными данными.
#### Метод
Simple o3 — это модель, реализующая динамический подход к визуально-языковому резонью. Она нацелена на улучшение возможностей MLLMs (от Multimodal Large Language Models) при работе с изображениями. Метод основывается на OpenAI's "o3", который использует итеративные трансформации визуальных данных и языковые операции для реализации человеческих "воображений с изображениями". Мы внедрили новый подход к методу CoT, используя интерлейдированный (разбитый на этапы) визуально-языковой подход, который позволяет модели более эффективно работать с изображениями. Модель основывается на выполнении трех типов операций: cropping, zooming и reusing, что позволяет модели динамически обрабатывать изображения в течение всего процесса рассуждений. Мы также разработали уникальную архитектуру для того, чтобы модель могла учитывать сложные визуальные задачи, используя только небольшое количество раундов рассуждений. Мы подготавливаем набор данных TWI-Tools-146K, который включает в себя высококачественные интерлейдированные визуально-языковые задачи, с использованием технологии "observe-reason-act" и строгих верификаций.
#### Результаты
Мы провели ряд экспериментов на различных бенчмарках для визуально-языковых задач, в том числе на задаче Visual Question Answering (VQA). Модель Simple o3 показала существенное улучшение по сравнению с другими моделями, в том числе LXMERT и ViLT. Мы проверили, как различные виды визуально-языковых операций влияют на подготовленные результаты. Например, мы провели эксперименты с разными видами режимов cropping, zooming и reusing, и выявили, что точное cropping, опираясь на ключевые определения, позволяет модели более точно определять объекты и регионы. Мы также протестировали
Abstract
Multimodal Large Language Models (MLLMs) have shown impressive performance on
vision-language tasks, but their long Chain-of-Thought (CoT) capabilities in
multimodal scenarios remain underexplored. Inspired by OpenAI's o3 model, which
emulates human-like ''thinking with image'' through iterative visual
transformations and linguistic reasoning, we propose Simple o3, an end-to-end
framework that integrates dynamic tool interactions (e.g., cropping, zooming,
and reusing) into interleaved vision-language reasoning via supervised
fine-tuning (SFT). Our approach features a scalable data synthesis pipeline
that generates high-quality interleaved vision-language reasoning chains via an
''observe-reason-act'' cycle, complete with executable visual operations and
rigorous verification, yielding the open-source TWI-Tools-146K dataset.
Experimental results demonstrate Simple o3's superior performance on diverse
benchmarks, outperforming existing approaches. By combining enhanced reasoning
capabilities, Simple o3 establishes a powerful yet computationally affordable
paradigm for advancing multimodal reasoning. Remarkably, we provide the first
in-depth analysis of different interleaved reasoning strategies, offering
insights into their impact on model performance. We found that by introducing
additional visual tokens for interleaved vision-language reasoning, reusing and
magnifying the original image significantly improves the model's visual
reasoning and fine-grained perception, while image cropping based on precise
visual grounding allows the model to effectively focus on key entities or
regions, further enhancing its capabilities.
Ссылки и действия
Дополнительные ресурсы: