Simple o3: Towards Interleaved Vision-Language Reasoning

2508.12109v1 cs.CV, cs.AI 2025-08-19
Авторы:

Ye Wang, Qianglong Chen, Zejun Li, Siyuan Wang, Shijie Guo, Zhirui Zhang, Zhongyu Wei

Резюме на русском

#### Контекст В последние годы видение-языковые (визаулизованные) задачи, такие как обработка данных видео и синтез текста, приобрели неизменное значение в области искусственного интеллекта. Особенно заметно это в области компьютерного зрения, где модели используют текст для описания изображений, выявления объектов и даже контроля роботов. Однако существуют проблемы, связанные с недостаточным использованием визуальных контекстов, а также с ограниченными возможностями в реализации динамического обучения. Многие модели способны только ограниченно выполнять визуально-языковые логические задачи, особенно когда требуется длительный цепной роутинг (Chain-of-Thought, CoT). Многие текущие модели не могут работать с реальными изображениями в реальном времени. Мы предлагаем Simple o3, модель, которая объединяет визуальные и языковые операции в одной структуре, чтобы улучшить возможности модели в работе с визуальными данными. #### Метод Simple o3 — это модель, реализующая динамический подход к визуально-языковому резонью. Она нацелена на улучшение возможностей MLLMs (от Multimodal Large Language Models) при работе с изображениями. Метод основывается на OpenAI's "o3", который использует итеративные трансформации визуальных данных и языковые операции для реализации человеческих "воображений с изображениями". Мы внедрили новый подход к методу CoT, используя интерлейдированный (разбитый на этапы) визуально-языковой подход, который позволяет модели более эффективно работать с изображениями. Модель основывается на выполнении трех типов операций: cropping, zooming и reusing, что позволяет модели динамически обрабатывать изображения в течение всего процесса рассуждений. Мы также разработали уникальную архитектуру для того, чтобы модель могла учитывать сложные визуальные задачи, используя только небольшое количество раундов рассуждений. Мы подготавливаем набор данных TWI-Tools-146K, который включает в себя высококачественные интерлейдированные визуально-языковые задачи, с использованием технологии "observe-reason-act" и строгих верификаций. #### Результаты Мы провели ряд экспериментов на различных бенчмарках для визуально-языковых задач, в том числе на задаче Visual Question Answering (VQA). Модель Simple o3 показала существенное улучшение по сравнению с другими моделями, в том числе LXMERT и ViLT. Мы проверили, как различные виды визуально-языковых операций влияют на подготовленные результаты. Например, мы провели эксперименты с разными видами режимов cropping, zooming и reusing, и выявили, что точное cropping, опираясь на ключевые определения, позволяет модели более точно определять объекты и регионы. Мы также протестировали

Abstract

Multimodal Large Language Models (MLLMs) have shown impressive performance on vision-language tasks, but their long Chain-of-Thought (CoT) capabilities in multimodal scenarios remain underexplored. Inspired by OpenAI's o3 model, which emulates human-like ''thinking with image'' through iterative visual transformations and linguistic reasoning, we propose Simple o3, an end-to-end framework that integrates dynamic tool interactions (e.g., cropping, zooming, and reusing) into interleaved vision-language reasoning via supervised fine-tuning (SFT). Our approach features a scalable data synthesis pipeline that generates high-quality interleaved vision-language reasoning chains via an ''observe-reason-act'' cycle, complete with executable visual operations and rigorous verification, yielding the open-source TWI-Tools-146K dataset. Experimental results demonstrate Simple o3's superior performance on diverse benchmarks, outperforming existing approaches. By combining enhanced reasoning capabilities, Simple o3 establishes a powerful yet computationally affordable paradigm for advancing multimodal reasoning. Remarkably, we provide the first in-depth analysis of different interleaved reasoning strategies, offering insights into their impact on model performance. We found that by introducing additional visual tokens for interleaved vision-language reasoning, reusing and magnifying the original image significantly improves the model's visual reasoning and fine-grained perception, while image cropping based on precise visual grounding allows the model to effectively focus on key entities or regions, further enhancing its capabilities.

Ссылки и действия