VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

2508.09945v1 cs.CL, cs.AI, cs.CV 2025-08-15

Авторы:

Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei

Резюме на русском

#### Контекст Multimodal large language models (MLLMs) позволяют объединить процессы визуального и текстового понимания, но их возможности генерировать код на основе многомодальных входных данных до сих пор ограничены. Эта проблема в узком контексте генерации кода с графическими входными данными остается актуальной. Многие текущие модели страдают от лимитов в обработке разных модальностей, что приводит к неточностям в результатах. Наша мотивация заключается в создании модели, которая могла бы эффективно объединять визуальные и текстовые данные для генерации кода, обеспечивая высокую точность и универсальность. #### Метод VisCodex — это универсальная модель, которая объединяет сильные модели обработки текста и визуального содержимого. Мы внедрили стандартное моделирование задач (task vector-based model merging) для интеграции лучших свойств кодинговой модели с визуально-языковой моделью. Эта стратегия позволяет VisCodex успешно решать задачи, требующие как глубокого текстового анализа, так и визуальной интерпретации. Мы также представили Multimodal Coding Dataset (MCD), содержащий более 598 тысяч примеров, включая HTML-код, связи изображений-кода, а также задачи с изображениями для StackOverflow. Для оценки, мы предложили InfiBench-V — новый, сложный бенчмарк для оценки моделей на реальных программируемых задачах, требующих глубокого понимания текста и визуальных сценариев. #### Результаты Мы провели эксперименты на многочисленных многомодальных задачах, включая генерацию кода для HTML, интеграцию изображений с текстом, а также решение программируемых задач. Результаты показывают, что VisCodex выдает лучшие результаты среди открытых MLLMs и приближается к показателям закрытых моделей, таких как GPT-4o. Мы также демонстрируем, что наша модель эффективно решает задачи в InfiBench-V, которые требуют визуального и текстового анализа. Это показывает, что VisCodex может оптимизировать генерацию кода в разных контекстах. #### Значимость VisCodex может применяться в сферах, где необходима интеграция визуальных и текстовых данных для генерации кода, такие как разработка программного обеспечения, диагностика технических проблем и создание интерактивных систем. Ее преимущества заключаются в универсальности, повышенной точности и возможности использования в различных сценариях. Мы считаем, что VisCodex может стать ключевым инструментом для развития будущих моделей генерации кода, влияя на области AI, программирования и разработки. #### Выводы В результате нашей работы, мы создали VisCodex — модель, которая внедрила новые способы объединения визуальных и текстовых данных для генерации кода. Она показала высокую эфф

Abstract

Multimodal large language models (MLLMs) have significantly advanced the integration of visual and textual understanding. However, their ability to generate code from multimodal inputs remains limited. In this work, we introduce VisCodex, a unified framework that seamlessly merges vision and coding language models to empower MLLMs with strong multimodal code generation abilities. Leveraging a task vector-based model merging technique, we integrate a state-of-the-art coding LLM into a strong vision-language backbone, while preserving both visual comprehension and advanced coding skills. To support training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a large-scale and diverse collection of 598k samples, including high-quality HTML code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic problems. Furthermore, we propose InfiBench-V, a novel and challenging benchmark specifically designed to assess models on visually-rich, real-world programming questions that demand a nuanced understanding of both textual and visual contexts. Extensive experiments show that VisCodex achieves state-of-the-art performance among open-source MLLMs and approaches proprietary models like GPT-4o, highlighting the effectiveness of our model merging strategy and new datasets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Jina-VLM: Small Multilingual Vision Language Model

Jina-VLM: Small Multilingual Vision Language Model

Lost in Translation and Noise: A Deep Dive into the Failure Modes of VLMs on Rea...

SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation

Multimodal Evaluation of Russian-language Architectures

Навигация