#### Контекст
В последние годы видение-языковые (визаулизованные) задачи, такие как обработка данных видео и синтез текста, приобрели неизменное значение в области искусственного интеллекта. Особенно заметно это в области компьютерного зрения, где модели используют текст для описания изображений, выявления объектов и даже контроля роботов. Однако существуют проблемы, связанные с недостаточным использованием визуальных контекстов, а также с ограниченными возможностями в реализации динамического обучения. Многие модели способны только ограниченно выполнять визуально-языковые логические задачи, особенно когда требуется длительный цепной роутинг (Chain-of-Thought, CoT). Многие текущие модели не могут работать с реальными изображениями в реальном времени. Мы предлагаем Simple o3, модель, которая объединяет визуальные и языковые операции в одной структуре, чтобы улучшить возможности модели в работе с визуальными данными.
#### Метод
Simple o3 — это модель, реализующая динамический подход к визуально-языковому резонью. Она нацелена на улучшение возможностей MLLMs (от Multimodal Large Language Models) при работе с изображениями. Метод основывается на OpenAI's "o3", который использует итеративные трансформации визуальных данных и языковые операции для реализации человеческих "воображений с изображениями". Мы внедрили новый подход к методу CoT, используя интерлейдированный (разбитый на этапы) визуально-языковой подход, который позволяет модели более эффективно работать с изображениями. Модель основывается на выполнении трех типов операций: cropping, zooming и reusing, что позволяет модели динамически обрабатывать изображения в течение всего процесса рассуждений. Мы также разработали уникальную архитектуру для того, чтобы модель могла учитывать сложные визуальные задачи, используя только небольшое количество раундов рассуждений. Мы подготавливаем набор данных TWI-Tools-146K, который включает в себя высококачественные интерлейдированные визуально-языковые задачи, с использованием технологии "observe-reason-act" и строгих верификаций.
#### Результаты
Мы провели ряд экспериментов на различных бенчмарках для визуально-языковых задач, в том числе на задаче Visual Question Answering (VQA). Модель Simple o3 показала существенное улучшение по сравнению с другими моделями, в том числе LXMERT и ViLT. Мы проверили, как различные виды визуально-языковых операций влияют на подготовленные результаты. Например, мы провели эксперименты с разными видами режимов cropping, zooming и reusing, и выявили, что точное cropping, опираясь на ключевые определения, позволяет модели более точно определять объекты и регионы. Мы также протестировали