Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision
2508.05606v1
cs.CV, cs.CL
2025-08-09
Авторы:
Luozheng Qin, Jia Gong, Yuqing Sun, Tianjiao Li, Mengping Yang, Xiaomeng Yang, Chao Qu, Zhiyu Tan, Hao Li
Резюме на русском
Универсальная цепочка-мышлия (Uni-CoT) — это проработанная фреймворк для объединенного многомодального логического мышления, который позволяет объединить моделирование текста и изображений в одной модели. Деление логического процесса на высокоуровневую планировку (Macro-Level CoT) и низкоуровневую реализацию (Micro-Level CoT) позволяет эффективно распределить ресурсы и сократить вычислительные затраты. Эта модель использует модель распознавания и порождения изображений для анализа и генерации визуальных состояний, что обеспечивает корректное моделирование визуальных процессов. Основная инновация в Uni-CoT — внедрение структурированной подготовки модели с интерлейсом обучения на текстовых и изображениевых данных для макроуровня и многозадачного обучения для микроуровня. Эксперименты по бенчмаркам WISE, RISE и KRIS показали, что Uni-CoT показывает лидирующие результаты, доказав свою эффективность и гибкость в многомодальном логическом мышлении.
Abstract
Chain-of-Thought (CoT) reasoning has been widely adopted to enhance Large
Language Models (LLMs) by decomposing complex tasks into simpler, sequential
subtasks. However, extending CoT to vision-language reasoning tasks remains
challenging, as it often requires interpreting transitions of visual states to
support reasoning. Existing methods often struggle with this due to limited
capacity of modeling visual state transitions or incoherent visual trajectories
caused by fragmented architectures.
To overcome these limitations, we propose Uni-CoT, a Unified Chain-of-Thought
framework that enables coherent and grounded multimodal reasoning within a
single unified model. The key idea is to leverage a model capable of both image
understanding and generation to reason over visual content and model evolving
visual states. However, empowering a unified model to achieve that is
non-trivial, given the high computational cost and the burden of training. To
address this, Uni-CoT introduces a novel two-level reasoning paradigm: A
Macro-Level CoT for high-level task planning and A Micro-Level CoT for subtask
execution. This design significantly reduces the computational overhead.
Furthermore, we introduce a structured training paradigm that combines
interleaved image-text supervision for macro-level CoT with multi-task
objectives for micro-level CoT. Together, these innovations allow Uni-CoT to
perform scalable and coherent multi-modal reasoning. Furthermore, thanks to our
design, all experiments can be efficiently completed using only 8 A100 GPUs
with 80GB VRAM each. Experimental results on reasoning-driven image generation
benchmark (WISE) and editing benchmarks (RISE and KRIS) indicates that Uni-CoT
demonstrates SOTA performance and strong generalization, establishing Uni-CoT
as a promising solution for multi-modal reasoning. Project Page and Code:
https://sais-fuxi.github.io/projects/uni-cot/
Ссылки и действия
Дополнительные ресурсы: