Vision Language Models Are Not (Yet) Spelling Correctors

2509.17418v1 cs.CL, cs.CV 2025-09-24
Авторы:

Junhong Liang, Bojun Zhang

Резюме на русском

## Контекст Vision Language Models (VLMs) становятся все более широко применяемыми в различных задачах, включая распознавание и взаимодействие с образами. Одним из важных подходов является визуальное знакование, которое включает не только распознавание текста в изображениях, но и его коррекцию. Несмотря на необходимость, существуют ограничения в том, насколько хорошо VLMs способны выполнять задачи визуального знакования. Одна из трудностей заключается в том, что VLMs должны не только находить ошибки в тексте, но и исправлять их. Это создает проблемы, так как современные модели могут быть неэффективными в обработке текста, содержащегося в изображениях. Этот раздел исследования сосредоточен на улучшении визуального знакования, особенно в условиях реального мира, где ошибки в тексте являются частым явлением. ## Метод Мы представляем ReViCo (Real Visual Correction), первый бенчмарк, посвященный оценке VLMs в реальных условиях визуального знакования. ReViCo включает в себя естественные ошибки, собранные из реального изображения, и предлагает тщательную оценку на уровне изображений и токенов. Мы проводим эксперименты с открытыми моделями, такими как Qwen и InternVL, а также закрытыми системами, такими как GPT-4o и Claude. Мы также рассматриваем две основные стратегии для улучшения результатов: Joint OCR-Correction Pipeline, которая объединяет обработку текста и корректировку в одном процессе, и Background Information Enhanced Approach, который использует контекстные сведения для повышения точности. ## Результаты Через тщательные эксперименты, мы показали, что текущие VLMs показывают существенное расхождение с человеческой высокой точностью в задачах визуального знакования, особенно в корректировке. Наша оценка показывает, что даже самые продвинутые модели, такие как GPT-4o и Claude, далеки от совершенства, особенно в области корректировки ошибок. Мы также продемонстрировали, что стратегии, такие как Joint OCR-Correction Pipeline и Background Information Enhanced Approach, дают значительные повышения производительности, но не достигают совершенства. ## Значимость Эта работа имеет важное значение в области визуального знакования и редактирования текста. Она может быть применима в различных сферах, таких как системы управления информацией, мобильные приложения, интеллектуальные технологии, и даже в сфере образования. Мы убеждены, что продвижение этой области может принёсти значительные преимущества, включая улучшение качества обработки текста в реальном времени, повышение точности и эффективности программных систем. В будущем, мы планируем расширить ReViCo, добавив более разнообразные данные и улучшив его многомодальные возможности. ## Выводы Мы представили ReViCo, первый б

Abstract

Spelling correction from visual input poses unique challenges for vision language models (VLMs), as it requires not only detecting but also correcting textual errors directly within images. We present ReViCo (Real Visual Correction), the first benchmark that systematically evaluates VLMs on real-world visual spelling correction across Chinese and English. ReViCo contains naturally occurring errors collected from real-world image data and supports fine-grained evaluation at both image and token levels. Through comprehensive experiments on representative cascaded (Qwen) and native (InternVL) open-source models, as well as closed-source systems (GPT-4o, Claude), we show that current VLMs fall significantly short of human performance, particularly in correction. To address these limitations, we explore two solution paradigms: a Joint OCR-Correction pipeline and a Background Information enhanced approach, both of which yield consistent performance gains. Our analysis highlights fundamental limitations of existing architectures and provides actionable insights for advancing multimodal spelling correction.

Ссылки и действия