📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs

2025-09-17

Авторы:

Feilong Chen, Yijiang Liu, Yi Huang, Hao Wang, Miren Tian, Ya-Qi Yu, Minghui Liao, Jihao Wu

#### Контекст Современное развитие искусственного интеллекта способствует появлению моделей, обладающих многомодальными возможностями. Однако обучение таких моделей становится сложным из-за необходимости обработки различных типов данных, включая текст, изображения и таблицы. Это приводит к высоким требованиям к вычислительной мощности и эффективности обучения. Особенно сложной является задача обеспечения высокого качества результатов при ограничении используемых ресурсов. #### Метод MindVL — это многомодальная модель текстового понимания, разработанная для обучения на Ascend NPUs. Она включает в себя собственное разрешение изображений, благодаря чему может обрабатывать изображения в их оригинальном состоянии, не прибегая к традиционному сегментированию на куски. Эта архитектура позволяет сохранить тонкие детали и глобальные характеристики, которые важны для обработки сложных графических контентов. Для эффективного использования Ascend NPUs разработана распределенная фреймворк Mindspeed-MLLM, который обеспечивает устойчивость и точность обучения. MindVL проходит трехфазное обучение: начальная фаза налаживает основы, затем происходит многозадачное обучение, а в конце — инструкционный tuning. Для повышения производительности во время обучения вводятся технологии мультимодального упакования данных и гибридного параллелизма. #### Результаты Эксперименты показали, что MindVL сохраняет высокую точность при меньшем потреблении данных и ресурсов. Она показала результаты схожие с Qwen2.5-VL в общем понимании мультимодальных данных, а также при парсинге документов и таблиц. Особенно выдает удаленные результаты на задачах OCR. Это демонстрирует инновационность архитектуры и ее высокую эффективность в решении задач, требующих глубокого понимания мультимодальных задач. #### Значимость MindVL может применяться в различных областях, таких как разработка систем понимания документов, табличных данных и OCR. Она не только экономит ресурсы, но и предоставляет высококачественные результаты. Это делает ее привлекательной для задач, где необходима эффективность вычислений и точность. #### Выводы MindVL позволяет достичь новых завершений в области обучения многомодальных моделей на малом объеме ресурсов. Будущие исследования будут сфокусированы на том, как расширить типы данных, поддерживаемых моделью, и доработать ее для обработки еще более глубоких задач.

Annotation:

We propose MindVL, a multimodal large langauge model trained on Ascend NPUs. Similar to Qwen2.5-VL, MindVL adopts native-resolution Vision Transformers, which enables it to process images at their original variable resolutions. This design avoids the degradation caused by fixed-resolution tiling while preserving fine-grained details and global layouts, which is crucial for visually dense content such as complex charts and diagrams. To ensure the smooth training of MindVL on Ascend NPUs, we devel...

ID: 2509.11662v1 cs.CV, cs.AI, cs.CL, eess.IV

arXiv PDF

📄 Recurrence Meets Transformers for Universal Multimodal Retrieval

2025-09-13

Авторы:

Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

#### Контекст Современные мультимодальные задачи восстановления (multimodal retrieval) широко применяются в области глубокого обучения, включая текстовую и изображения связующие модели типа LLMs. Эти задачи включают поиск документов, сочетающих текст и изображения, что сильно усложняет выполнение поисковых запросов. На данный момент, большинство методов опираются на задачи-специфичное оптимизацию визуально-языковых моделей (vision-language models), ограничиваясь единой моделью для работы с единственной моделью. Это приводит к неэффективности в обработке более сложных задач, требующих обработки нескольких моделей. Данная работа предлагает новую модель ReT-2, которая объединяет в себе несколько моделей для работы с мультимодальными запросами и документами. #### Метод Методология ReT-2 основывается на использовании рекуррентной архитектуры Transformer с LSTM-подобными механизмами. Эта модель включает в себя несколько слоев, которые динамически интегрируют информацию из разных моделей и моделей-рекейверов (retrievers). Модель ReT-2 позволяет обрабатывать входные данные в формате изображения и текста, а также выполнять поиск по мультимодальным документам, где входные данные сочетаются в разных форматах. Для эффективного обработки нескольких входных моделей, ReT-2 использует многоуровневые представления, что позволяет более тонко анализировать объекты и текст. #### Результаты Результаты экспериментов были получены на двух основных мультимодальных наборах данных: M2KR и M-BEIR. Модель ReT-2 показала свою способность получать точные результаты в разных конфигурациях поисковых запросов. Она достигла лучших результатов по сравнению с предыдущими моделями в задачах мультимодального поиска. Была проведена сравнительная оценка времени исполнения и использования памяти, где видно было, что ReT-2 работает быстрее и эффективнее, чем предыдущие модели. Также было произведено исследование интеграции модели ReT-2 в задачи вспомогательной генерации знаний (retrieval-augmented generation), где также был доказан повышенный результат в задачах типа Encyclopedic-VQA и InfoSeek. #### Значимость Модель ReT-2 может быть применена в различных областях, включая поисковые системы, где необходима обработка мультимодальных запросов, в область обучения машин по мультимодальным данным, а также в создании новых систем для визуального поиска в интернете. Особым преимуществом является улучшенная скорость и эффективность, которая обеспечивает быстрый поиск в больших мультимодальных наборах данных. Также, модель может повысить точность решения задач, связанных с визуальным поиском и связыванием изображений с текстом. Данный по

Annotation:

With the rapid advancement of multimodal retrieval and its application in LLMs and multimodal LLMs, increasingly complex retrieval tasks have emerged. Existing methods predominantly rely on task-specific fine-tuning of vision-language models and are limited to single-modality queries or documents. In this paper, we propose ReT-2, a unified retrieval model that supports multimodal queries, composed of both images and text, and searches across multimodal document collections where text and images ...

ID: 2509.08897v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on Materials Characterization

2025-09-13

Авторы:

Zhengzhao Lai, Youbin Zheng, Zhenyang Cai, Haonan Lyu, Jinpu Yang, Hongqing Liang, Yan Hu, Benyou Wang

## Контекст Исследования в области материаловедения становятся все более важной частью самого материаловедческого процесса. Целью является получение полного понимания материалов в различных состояниях и условиях, чтобы раскрыть свойства, связанные с процессом их изготовления, микроструктурой и поведением в различных приложениях. Однако с тех пор, как материаловедение стало более цифровой, возникла необходимость в автоматизации и улучшении концептуального понимания материалов. Одна из самых трудных задач в этой области - это понимание изображений, полученных в результате различных методов материаловедческого анализа. Несмотря на то, что модели языка и изображений в последние годы достигли невероятных успехов, их применимость к материаловедческой области, особенно для решения задач, требующих высокой степени специализации, остается недостаточно изученной. Это привело к необходимости в развитии бенчмарков, которые могут эффективно помочь в изучении этих проблем. ## Метод Для решения этой задачи был разработан бенчмарк под названием MatCha, который представляет собой набор вопросов, разработанных специалистами в области материаловедения. Эти вопросы требуют высокого уровня знаний и опыта в области материаловедения, чтобы они могли быть однозначно решены. MatCha включает в себя четыре основных этапа материаловедения, включая 21 отдельных задач, касающихся различных аспектов материаловедческого анализа, включая изображения, визуальные данные и другие связанные с ними задачи. Эталонные модели, которым полагается MatCha, построены на базе многомодальных язучих моделей (MLLMs), которые используют изображения и текст вместе для анализа и понимания сложных материаловедческих задач. ## Результаты В ходе экспериментов, проведенных на базе MatCha, было определено, что существует существенное различие между моделями МЛЛМ и человеческим опытом в решении задач, требующих высокого уровня концептуального понимания. Эти модели работают лучше на задачах, требующих простого логического анализа, но сталкиваются с проблемами при работе с данными, требующими высокого уровня специализации и визуальной подготовки. Например, модели MLLMs сталкиваются с трудностями при выявлении тонких отличий в изображениях, требующих высокого уровня знаний и опыта в области материаловедения. Таким образом, эти результаты показывают, что текущие модели МЛЛМ не могут работать на уровне человеческого опыта в области материаловедческого анализа. ## Значимость MatCha может использоваться в различных сферах, включая автоматизацию и улучшение процессов ма

Annotation:

Materials characterization is fundamental to acquiring materials information, revealing the processing-microstructure-property relationships that guide material design and optimization. While multimodal large language models (MLLMs) have recently shown promise in generative and predictive tasks within materials science, their capacity to understand real-world characterization imaging data remains underexplored. To bridge this gap, we present MatCha, the first benchmark for materials characteriza...

ID: 2509.09307v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

2025-09-11

Авторы:

Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao

#### Контекст В последние годы визуальные поисковые задачи набирают всё большую популярность, вследствие развития технологий и систем, основанных на AI. Однако существующие решения часто страдают от ограниченности в логических паттернах и возможностях для итеративных запросов. Это препятствует решению сложных задач, требующих глубокого исследования, испытаний и ошибок. Целью данного исследования является развитие методологии, позволяющей эффективно решать подобные задачи с помощью системы, которая может проводить глубокое многократное обдумывание. #### Метод Мы предлагаем Mini-o3, систему, которая основывается на многократных итерациях визуальной проверки и глубоком логическом процессе. Методология включает в себя три основных компонента: 1. **Visual Probe Dataset**: набор тысяч визуальных задач, разработанных для исследования многоуровневой логики. 2. **Итеративная коллекция данных**: выполнение опытов для получения разнообразных логических траекторий, включая depth-first search, trial-and-error, и goal maintenance. 3. **Over-Turn Masking Strategy**: метод, препятствующий отбрасыванию траекторий, которые достигают максимума по времени интеракции во время обучения, чтобы повысить эффективность в тестировании. #### Результаты Мы провели эксперименты на Visual Probe Dataset, где Mini-o3 показал сильный показатель в решении сложных задач с результатом 95% точности. Особенно примечателен тот факт, что модель прироста точности всегда сопряжена с увеличением числа итераций. Метод показал высокую степень гибкости и переносимости, чтобы решать различные визуальные поисковые задачи. #### Значимость Mini-o3 может применяться в различных областях, таких как визуальный поиск, обработка изображений и системы распознавания. Его выдающаяся способность к глубокому рассуждению открывает новые возможности для решения задач, требующих многоуровневого исследования. Эта модель может иметь влияние в сфере интеллектуальных систем, AI-ориентированных решений, а также в области компьютерного зрения. #### Выводы Mini-o3 достигает новых высот в полях визуального поиска и многократной интеракции. Он предлагает мощные траектории логического мышления и может решать сложные задачи более эффективно. Мы планируем дальнейшие исследования в сторону улучшения скорости обработки и расширения возможностей модели.

Annotation:

Recent advances in large multimodal models have leveraged image-based tools with reinforcement learning to tackle visual problems. However, existing open-source approaches often exhibit monotonous reasoning patterns and allow only a limited number of interaction turns, making them inadequate for difficult tasks that require trial-and-error exploration. In this work, we address this limitation by scaling up tool-based interactions and introduce Mini-o3, a system that executes deep, multi-turn rea...

ID: 2509.07969v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Interleaving Reasoning for Better Text-to-Image Generation

2025-09-10

Авторы:

Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin

#### Контекст В последние годы улучшение текстово-изображественных генераторов стало одной из наиболее активных областей исследований в области машинного обучения и искусственного интеллекта. Особенно заметны улучшения в области текстово-изображественных моделей, которые объединяют в себе функции понимания и синтеза. Однако существуют заметные проблемы в области следования инструкциям и хранения деталей при генерации изображений. Такие модели, как GPT-4, в свою очередь, показывают значительный прогресс в области синтеза изображений, но имеют свои ограничения в понимании инструкций. Таким образом, для достижения более высокого уровня качества и подробности в текстово-изображественной генерации необходима более глубокая интеграция текстового понимания и генерации изображений. #### Метод Мы предлагаем Interleaving Reasoning Generation (IRG), фреймворк, который реализует универсальную многорежимную модель понимания и генерации. Работа IRG основывается на методе "интерлеавенг реасионинг". Модель вначале генерирует текстовую интерпретацию изображения (thinking), затем, основываясь на этой интерпретации, генерирует изображение. Далее, модель проводит текстовую рефлексию (reflection), анализируя результат и выявляя мелкие детали, которые необходимо улучшить. Эти детали рефлексии включают в себя оценку визуальной ценности, корректности акцентов и точность описания. Обучение IRG происходит в два этапа: первый этап нацелен на создание графических данных, включая визуальное описание и текстовую интерпретацию, второй этап — на точку рефининга, чтобы гарантировать качество и точность в итоговой генерации. #### Результаты Мы проводили эксперименты на различных данных, в том числе на многорежимных датасетах, подтвердив высокую эффективность IRG. Модель показала важное улучшение в генерации изображений с высоким детализированным характером. Также мы провели метрические оценки, которые показали, что IRG получил высокие результаты на таких метриках, как GenEval, WISE, TIIF и другие. Мы также оценили качество генерируемых изображений по тестам сгенерированных изображений в контексте текста. Наши результаты показали значительное улучшение качества изображений, в том числе в улучшении точности деталей и визуальной четкости генерируемых изображений. #### Значимость Interleaving Reasoning Generation может быть применен в различных областях, включая генерацию высококачественных изображений для коммерческих и розничных приложений, синтез изображений для искусственных зрения и генерацию изображений в области полязии и компьютерного зрения. Это модель

Annotation:

Unified multimodal understanding and generation models recently have achieve significant improvement in image generation capability, yet a large gap remains in instruction following and detail preservation compared to systems that tightly couple comprehension with generation such as GPT-4o. Motivated by recent advances in interleaving reasoning, we explore whether such reasoning can further improve Text-to-Image (T2I) generation. We introduce Interleaving Reasoning Generation (IRG), a framework ...

ID: 2509.06945v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

2025-09-10

Авторы:

Jaemin Son, Sujin Choi, Inyong Yun

## Контекст Исследования в области визуально-языковых моделей (Vision-Language Models, VLMs) демонстрируют впечатляющие результаты в области распознавания документов. Однако эти модели характеризуются высоким потреблением вычислительных ресурсов, что становится большой проблемой при их применении в реальных сценариях. Особенно заметна эта проблема при обработке документов, где большая часть изображения состоит из неинформативных областей. Это приводит к ненужным вычислениям и увеличивает затраты на ресурсы. Исследователи стремятся найти методы, позволяющие эффективно оптимизировать работу VLMs, сохранив высокую точность. ## Метод Для решения этой проблемы предлагается инновационный подход — **Index-Preserving Lightweight Token Pruning**. Основной элемент этого подхода — **binary patch-level classifier**, который отфильтровывает некритичные области документа, такие как фоновые изображения или непонятные символы. Затем, для восстановления логической структуры текста, используется **max-pooling refinement step**, который объединяет разделенные части текста в единое целое. Такой подход позволяет снизить вычислительные затраты, не ухудшая точность работы VLMs. Архитектура системы оптимизирована для работы с документными изображениями, используя специальные методы для повышения точности и эффективности распознавания. ## Результаты На базе реальных документных данных проведено ряд экспериментов для оценки эффективности предложенного подхода. Было сравнено поведение VLMs с использованием предлагаемого метода и без него. Результаты показали, что использование **Index-Preserving Lightweight Token Pruning** приводит к значительной снижению вычислительных затрат — до 30% в сравнении с базовым подходом. Тем не менее, точность распознавания остается высокой и соответствует уровню без применения оптимизации. Это демонстрирует эффективность фреймворка в сокращении ненужных вычислений без потери качества работы. ## Значимость Предложенный подход может быть применен в различных областях, где требуется эффективная обработка документов, например, в системах автоматического документооборота, в системах текстового поиска и в системах анализа документов в сетях Интернета. Важное преимущество этого подхода — снижение требований к вычислительным ресурсам, что делает его применимым для быстродействующих систем и мобильных приложений. Это может положительно сказаться на развитии технологий обработки документов, улучшении их доступности и эффективности в работе с большими объемами данных. ## Выводы Результаты работы показали, что **Index-Preserving Lightweight Token Pruning** является эффективным методом для оптимизации работы VLMs при обработке документов. Оно позволяет значительно снизить вычислительные за

Annotation:

Recent progress in vision-language models (VLMs) has led to impressive results in document understanding tasks, but their high computational demands remain a challenge. To mitigate the compute burdens, we propose a lightweight token pruning framework that filters out non-informative background regions from document images prior to VLM processing. A binary patch-level classifier removes non-text areas, and a max-pooling refinement step recovers fragmented text regions to enhance spatial coherence...

ID: 2509.06415v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Interleaving Reasoning for Better Text-to-Image Generation

2025-09-10

Авторы:

#### Контекст Современные мультимодальные модели, объединяющие понимание и генерацию изображений, показали заметный прогресс в области текст-к-изображению (T2I). Однако, несмотря на это, остается заметное различие в способности следовать инструкциям и сохранять детали в сравнении с моделями, где понимание и генерация тесно связаны, такими как GPT-4. Это снижает их эффективность в реализации точных и абстрактных пожеланий пользователей. Данная работа ориентируется на исследование роли интерлейвинга (interleaving reasoning) — методики, где модель анализирует текстовые подсказки, генерирует изображение, а затем проводит внутренний анализ для доработки деталей и качества. Мы задаем вопрос: могут ли такие подходы улучшить тексто-к-изображению? #### Метод Мы предлагаем **Interleaving Reasoning Generation (IRG)** — рамформу, в которой модель построчно следует циклу "мысль — генерация изображения — отработка деталей". В первом этапе, модель производит рассуждения на основе текста, чтобы направить начальную генерацию изображения. Во втором этапе, после проверки результата, модель вносит корректировки, выражаясь в текстовой форме, чтобы улучшить детали, цветовую гамму, визуальную атмосферу и соблюдение семантики. Для обучения IRG мы разрабатываем **Interleaving Reasoning Generation Learning (IRGL)** — методологию, которая разделяет обучение на два этапа: 1. Укрепление "мысли-генерации" для гарантии устойчивости и качества генерируемых изображений; 2. Обеспечение точной рефлексии текстовых корректировок и их внедрения в изображение. Мы создали **IRGL-300K** — большущую выборку, состоящую из шести разделенных подсистем, покрывающих обучение текстовым рассуждениям и полной траектории "мысль-генерация". Наша модель, основанная на универсальной модели с возможностью вывода на разных уровнях (текст и изображение), проходит два этапа обучения: - Обучение научиться "мыслить" и "генерировать"; - Оптимизация всего процесса "мысль-генерация-рефлексия-генерация". #### Результаты Мы провели многочисленные эксперименты на различных б BENCHMARKS (таких как GenEval, WISE, TIIF, GenAI-Bench, OneIG-EN) и сравнили наш результат с современными моделями. Удался определённый прогресс: - Общий показатель GenEval возрос на 5–10 баллов в разных условиях; - Улучшение в метрике WISE, отражающей способность следовать инструкциям; - Значительное улучшение в TIIF, которая оценивает подробности и визуальную точность; - Значительные показатели в GenAI-Bench и OneIG-EN. Также было замечено улучшение визуального качества и точности в деталях, что демонстрирует эффективность нашего подхода в сохранении сем

Annotation:

ID: 2509.06945v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Promptception: How Sensitive Are Large Multimodal Models to Prompts?

2025-09-06

Авторы:

Mohamed Insaf Ismithdeen, Muhammad Uzair Khattak, Salman Khan

## Контекст В последние годы Large Multimodal Models (LMMs) показали выдающиеся результаты в области многомодального понимания и вывода. Однако, дизайн инструкций (prompts) для LMMs в задачах Multiple-Choice Question Answering (MCQA) остается значительной недоработкой. Исследования показывают, что даже незначительные изменения в формулировке и структуре инструкций могут привести к существенным отклонениям в точности решения задач — до 15%. Это выносит в угрозу честность и транспарентность оценки LMM, так как модели часто отчётливо показывают свои лучшие результаты, оптимизировав инструкции. Для снятия этой проблемы мы предлагаем Promptception — новую систематическую модель для оценки чувствительности LMM к инструкциям. ## Метод Promptception представляет собой развитый фреймворк, включающий 61 типа инструкций, разделенных на 15 категорий и 6 суперкатегорий. Каждая категория нацелена на конкретный аспект формулировки инструкций. Мы использовали этот фреймворк для оценки точности 10 LMMs, включая опенсорсные модели и самые современные проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro. Эксперименты проводились на трёх бенчмарках MCQA: MMStar, MMMU-Pro и MVBench. Это позволило нам выявить различия в чувствительности к инструкциям между моделями, а также выявить специфику работы проприетарных и опенсорсных моделей. ## Результаты Наши результаты показали, что проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro, чувствительнее к тонкостям формулировки инструкций, что свидетельствует о более глубокой инструкционной алигнентах. Отклонения в их результатах достигают 15%. Опенсорсные модели, такие как LLaMA и Falcon, показали более стабильные, но менее точные результаты при сложном дизайне инструкций. Мы также выявили, что чувствительность к формулировке сильно зависит от типа задачи и модели, что подтверждает необходимость развития специальных принципов дизайна инструкций для различных моделей. ## Значимость Результаты Promptception имеют высокую значимость для разработчиков и отрасли AI в целом. Наша работа подчёркивает важность тщательной оценки инструкций для достижения честных и транспарентных результатов в экспериментах с LMM. Мы предлагаем Prompting Principles, которые могут помочь улучшить честность экспериментов и сделать результаты более сравнимыми. Эти находки могут быть применены в области обучения с подкреплением, видеоанализа, мультимодального понимания и других многомодальных задачах. ## Выводы Мы показали, что Promptception даёт новые возможности для понимания и оценки чувствительности LMM к инструкциям. Наши результаты подтверждают, что чувствительность к формулировке инструкций может в

Annotation:

Despite the success of Large Multimodal Models (LMMs) in recent years, prompt design for LMMs in Multiple-Choice Question Answering (MCQA) remains poorly understood. We show that even minor variations in prompt phrasing and structure can lead to accuracy deviations of up to 15% for certain prompts and models. This variability poses a challenge for transparent and fair LMM evaluation, as models often report their best-case performance using carefully selected prompts. To address this, we introduc...

ID: 2509.03986v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks

2025-09-05

Авторы:

Nils Hoehing, Mayug Maniparambil, Ellen Rushe, Noel E. O'Connor, Anthony Ventresque

#### Контекст Область исследования, связанная с проблемами распознавания пространственных отношений, является ключевой в обучении машинам и искусственному интеллекту. Несмотря на прогресс в области визуальных языковых моделей (VLM), существуют затруднения в понимании пространственных отношений, таких как порядок предметов, их расположение и взаимосвязь. Эти недостатки существенно ограничивают применение VLM в реальных ситуациях, где пространственное понимание является критическим. Эта проблема мотивирует развитие новых методологий и данных для эффективного пространственного распознавания. #### Метод Разработана методика RocketScience, открытой основной системы бенчмарка для проверки пространственного понимания. Она включает в себя совершенно новые реальные изображения и текстовые описания, охватывающие широкий спектр пространственных отношений и порядка объектов. Бенчмарк спроектирован таким образом, чтобы быть легким для людей, но сложным для нынешних VLM. Эта сложность подтверждена эмпирическими результатами. Чтобы продемонстрировать вклад каждого компонента, включая локализацию объектов и пространственное рассуждение, проведена детализированная аналитическая раздробленности в моделях с цепочкой мыслей. #### Результаты Эксперименты проводились с использованием изображений и текстовых данных из RocketScience. Открытые и коммерческие VLM показали значительные ограничения в пространственном понимании, но тем не менее удачно справлялись с локализацией объектов. В отличие от этого, реализованные модели рассуждений показали выдающиеся результаты в пространственном понимании. Разделяющий анализ подтвердил, что проблематичным для моделей является именно пространственное рассуждение, а не задачи локализации объектов. #### Значимость Предложенный бенчмарк и результаты могут быть применены в различных областях, включая визуальное распознавание, робототехнику, проектирование интерьеров и другие сферы, требующие точного пространственного понимания. Из преимуществ можно отметить то, что RocketScience предлагает новый подход к оценке моделей и выявляет слабые места в нынешних VLM. Это может привести к улучшению моделей и дальнейшему развитию интеллектуальных систем. #### Выводы Результаты показывают, что существующие модели часто столкнутся с трудностями в пространственном понимании, а именно в рассуждениях об отношениях между объектами. Бенчмарк RocketScience может стать ключевым инструментом для измерения развития моделей в этой области. Будущие исследования должны ориентироваться на улучшение пространственных моделей рассуждений для достижения более высокой точности и реа

Annotation:

We propose RocketScience, an open-source contrastive VLM benchmark that tests for spatial relation understanding. It is comprised of entirely new real-world image-text pairs covering mostly relative spatial understanding and the order of objects. The benchmark is designed to be very easy for humans and hard for the current generation of VLMs, and this is empirically verified. Our results show a striking lack of spatial relation understanding in open source and frontier commercial VLMs and a surp...

ID: 2509.02175v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Why Stop at Words? Unveiling the Bigger Picture through Line-Level OCR

2025-09-02

Авторы:

Shashank Vempati, Nishit Anand, Gaurav Talebailkar, Arpan Garai, Chetan Arora

Данная работа определяет проблему неоптимальной точности и эффективности существующих технологий OCR, связанных с ошибками в квадратурном сегментации слов. Авторы предлагают перейти от строчного к линейному сегментированию, используя модели перевода последовательностей для распознавания целых строк. Эта стратегия обходит ошибки в детектировании слов и позволяет использовать более эффективные модели естественных языков для повышения точности. Авторы представляют собственный датасет с 251 изображениями страниц для обучения и тестирования, доказав улучшение точности на 5,4% и эффективность на 4 раз по сравнению с существующими подходами. Результаты указывают на перспективу такого подхода для документов и перспективы его улучшения в сочетании с ростом мощности технологий LLMs.

Annotation:

Conventional optical character recognition (OCR) techniques segmented each character and then recognized. This made them prone to error in character segmentation, and devoid of context to exploit language models. Advances in sequence to sequence translation in last decade led to modern techniques first detecting words and then inputting one word at a time to a model to directly output full words as sequence of characters. This allowed better utilization of language models and bypass error-prone ...

ID: 2508.21693v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

Показано 121 - 130 из 161 записей