📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Interleaving Reasoning for Better Text-to-Image Generation

2025-09-10

Авторы:

Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin

#### Контекст В последние годы улучшение текстово-изображественных генераторов стало одной из наиболее активных областей исследований в области машинного обучения и искусственного интеллекта. Особенно заметны улучшения в области текстово-изображественных моделей, которые объединяют в себе функции понимания и синтеза. Однако существуют заметные проблемы в области следования инструкциям и хранения деталей при генерации изображений. Такие модели, как GPT-4, в свою очередь, показывают значительный прогресс в области синтеза изображений, но имеют свои ограничения в понимании инструкций. Таким образом, для достижения более высокого уровня качества и подробности в текстово-изображественной генерации необходима более глубокая интеграция текстового понимания и генерации изображений. #### Метод Мы предлагаем Interleaving Reasoning Generation (IRG), фреймворк, который реализует универсальную многорежимную модель понимания и генерации. Работа IRG основывается на методе "интерлеавенг реасионинг". Модель вначале генерирует текстовую интерпретацию изображения (thinking), затем, основываясь на этой интерпретации, генерирует изображение. Далее, модель проводит текстовую рефлексию (reflection), анализируя результат и выявляя мелкие детали, которые необходимо улучшить. Эти детали рефлексии включают в себя оценку визуальной ценности, корректности акцентов и точность описания. Обучение IRG происходит в два этапа: первый этап нацелен на создание графических данных, включая визуальное описание и текстовую интерпретацию, второй этап — на точку рефининга, чтобы гарантировать качество и точность в итоговой генерации. #### Результаты Мы проводили эксперименты на различных данных, в том числе на многорежимных датасетах, подтвердив высокую эффективность IRG. Модель показала важное улучшение в генерации изображений с высоким детализированным характером. Также мы провели метрические оценки, которые показали, что IRG получил высокие результаты на таких метриках, как GenEval, WISE, TIIF и другие. Мы также оценили качество генерируемых изображений по тестам сгенерированных изображений в контексте текста. Наши результаты показали значительное улучшение качества изображений, в том числе в улучшении точности деталей и визуальной четкости генерируемых изображений. #### Значимость Interleaving Reasoning Generation может быть применен в различных областях, включая генерацию высококачественных изображений для коммерческих и розничных приложений, синтез изображений для искусственных зрения и генерацию изображений в области полязии и компьютерного зрения. Это модель

Annotation:

Unified multimodal understanding and generation models recently have achieve significant improvement in image generation capability, yet a large gap remains in instruction following and detail preservation compared to systems that tightly couple comprehension with generation such as GPT-4o. Motivated by recent advances in interleaving reasoning, we explore whether such reasoning can further improve Text-to-Image (T2I) generation. We introduce Interleaving Reasoning Generation (IRG), a framework ...

ID: 2509.06945v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Interleaving Reasoning for Better Text-to-Image Generation

2025-09-10

Авторы:

#### Контекст Современные мультимодальные модели, объединяющие понимание и генерацию изображений, показали заметный прогресс в области текст-к-изображению (T2I). Однако, несмотря на это, остается заметное различие в способности следовать инструкциям и сохранять детали в сравнении с моделями, где понимание и генерация тесно связаны, такими как GPT-4. Это снижает их эффективность в реализации точных и абстрактных пожеланий пользователей. Данная работа ориентируется на исследование роли интерлейвинга (interleaving reasoning) — методики, где модель анализирует текстовые подсказки, генерирует изображение, а затем проводит внутренний анализ для доработки деталей и качества. Мы задаем вопрос: могут ли такие подходы улучшить тексто-к-изображению? #### Метод Мы предлагаем **Interleaving Reasoning Generation (IRG)** — рамформу, в которой модель построчно следует циклу "мысль — генерация изображения — отработка деталей". В первом этапе, модель производит рассуждения на основе текста, чтобы направить начальную генерацию изображения. Во втором этапе, после проверки результата, модель вносит корректировки, выражаясь в текстовой форме, чтобы улучшить детали, цветовую гамму, визуальную атмосферу и соблюдение семантики. Для обучения IRG мы разрабатываем **Interleaving Reasoning Generation Learning (IRGL)** — методологию, которая разделяет обучение на два этапа: 1. Укрепление "мысли-генерации" для гарантии устойчивости и качества генерируемых изображений; 2. Обеспечение точной рефлексии текстовых корректировок и их внедрения в изображение. Мы создали **IRGL-300K** — большущую выборку, состоящую из шести разделенных подсистем, покрывающих обучение текстовым рассуждениям и полной траектории "мысль-генерация". Наша модель, основанная на универсальной модели с возможностью вывода на разных уровнях (текст и изображение), проходит два этапа обучения: - Обучение научиться "мыслить" и "генерировать"; - Оптимизация всего процесса "мысль-генерация-рефлексия-генерация". #### Результаты Мы провели многочисленные эксперименты на различных б BENCHMARKS (таких как GenEval, WISE, TIIF, GenAI-Bench, OneIG-EN) и сравнили наш результат с современными моделями. Удался определённый прогресс: - Общий показатель GenEval возрос на 5–10 баллов в разных условиях; - Улучшение в метрике WISE, отражающей способность следовать инструкциям; - Значительное улучшение в TIIF, которая оценивает подробности и визуальную точность; - Значительные показатели в GenAI-Bench и OneIG-EN. Также было замечено улучшение визуального качества и точности в деталях, что демонстрирует эффективность нашего подхода в сохранении сем

Annotation:

ID: 2509.06945v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Promptception: How Sensitive Are Large Multimodal Models to Prompts?

2025-09-06

Авторы:

Mohamed Insaf Ismithdeen, Muhammad Uzair Khattak, Salman Khan

## Контекст В последние годы Large Multimodal Models (LMMs) показали выдающиеся результаты в области многомодального понимания и вывода. Однако, дизайн инструкций (prompts) для LMMs в задачах Multiple-Choice Question Answering (MCQA) остается значительной недоработкой. Исследования показывают, что даже незначительные изменения в формулировке и структуре инструкций могут привести к существенным отклонениям в точности решения задач — до 15%. Это выносит в угрозу честность и транспарентность оценки LMM, так как модели часто отчётливо показывают свои лучшие результаты, оптимизировав инструкции. Для снятия этой проблемы мы предлагаем Promptception — новую систематическую модель для оценки чувствительности LMM к инструкциям. ## Метод Promptception представляет собой развитый фреймворк, включающий 61 типа инструкций, разделенных на 15 категорий и 6 суперкатегорий. Каждая категория нацелена на конкретный аспект формулировки инструкций. Мы использовали этот фреймворк для оценки точности 10 LMMs, включая опенсорсные модели и самые современные проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro. Эксперименты проводились на трёх бенчмарках MCQA: MMStar, MMMU-Pro и MVBench. Это позволило нам выявить различия в чувствительности к инструкциям между моделями, а также выявить специфику работы проприетарных и опенсорсных моделей. ## Результаты Наши результаты показали, что проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro, чувствительнее к тонкостям формулировки инструкций, что свидетельствует о более глубокой инструкционной алигнентах. Отклонения в их результатах достигают 15%. Опенсорсные модели, такие как LLaMA и Falcon, показали более стабильные, но менее точные результаты при сложном дизайне инструкций. Мы также выявили, что чувствительность к формулировке сильно зависит от типа задачи и модели, что подтверждает необходимость развития специальных принципов дизайна инструкций для различных моделей. ## Значимость Результаты Promptception имеют высокую значимость для разработчиков и отрасли AI в целом. Наша работа подчёркивает важность тщательной оценки инструкций для достижения честных и транспарентных результатов в экспериментах с LMM. Мы предлагаем Prompting Principles, которые могут помочь улучшить честность экспериментов и сделать результаты более сравнимыми. Эти находки могут быть применены в области обучения с подкреплением, видеоанализа, мультимодального понимания и других многомодальных задачах. ## Выводы Мы показали, что Promptception даёт новые возможности для понимания и оценки чувствительности LMM к инструкциям. Наши результаты подтверждают, что чувствительность к формулировке инструкций может в

Annotation:

Despite the success of Large Multimodal Models (LMMs) in recent years, prompt design for LMMs in Multiple-Choice Question Answering (MCQA) remains poorly understood. We show that even minor variations in prompt phrasing and structure can lead to accuracy deviations of up to 15% for certain prompts and models. This variability poses a challenge for transparent and fair LMM evaluation, as models often report their best-case performance using carefully selected prompts. To address this, we introduc...

ID: 2509.03986v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks

2025-09-05

Авторы:

Nils Hoehing, Mayug Maniparambil, Ellen Rushe, Noel E. O'Connor, Anthony Ventresque

#### Контекст Область исследования, связанная с проблемами распознавания пространственных отношений, является ключевой в обучении машинам и искусственному интеллекту. Несмотря на прогресс в области визуальных языковых моделей (VLM), существуют затруднения в понимании пространственных отношений, таких как порядок предметов, их расположение и взаимосвязь. Эти недостатки существенно ограничивают применение VLM в реальных ситуациях, где пространственное понимание является критическим. Эта проблема мотивирует развитие новых методологий и данных для эффективного пространственного распознавания. #### Метод Разработана методика RocketScience, открытой основной системы бенчмарка для проверки пространственного понимания. Она включает в себя совершенно новые реальные изображения и текстовые описания, охватывающие широкий спектр пространственных отношений и порядка объектов. Бенчмарк спроектирован таким образом, чтобы быть легким для людей, но сложным для нынешних VLM. Эта сложность подтверждена эмпирическими результатами. Чтобы продемонстрировать вклад каждого компонента, включая локализацию объектов и пространственное рассуждение, проведена детализированная аналитическая раздробленности в моделях с цепочкой мыслей. #### Результаты Эксперименты проводились с использованием изображений и текстовых данных из RocketScience. Открытые и коммерческие VLM показали значительные ограничения в пространственном понимании, но тем не менее удачно справлялись с локализацией объектов. В отличие от этого, реализованные модели рассуждений показали выдающиеся результаты в пространственном понимании. Разделяющий анализ подтвердил, что проблематичным для моделей является именно пространственное рассуждение, а не задачи локализации объектов. #### Значимость Предложенный бенчмарк и результаты могут быть применены в различных областях, включая визуальное распознавание, робототехнику, проектирование интерьеров и другие сферы, требующие точного пространственного понимания. Из преимуществ можно отметить то, что RocketScience предлагает новый подход к оценке моделей и выявляет слабые места в нынешних VLM. Это может привести к улучшению моделей и дальнейшему развитию интеллектуальных систем. #### Выводы Результаты показывают, что существующие модели часто столкнутся с трудностями в пространственном понимании, а именно в рассуждениях об отношениях между объектами. Бенчмарк RocketScience может стать ключевым инструментом для измерения развития моделей в этой области. Будущие исследования должны ориентироваться на улучшение пространственных моделей рассуждений для достижения более высокой точности и реа

Annotation:

We propose RocketScience, an open-source contrastive VLM benchmark that tests for spatial relation understanding. It is comprised of entirely new real-world image-text pairs covering mostly relative spatial understanding and the order of objects. The benchmark is designed to be very easy for humans and hard for the current generation of VLMs, and this is empirically verified. Our results show a striking lack of spatial relation understanding in open source and frontier commercial VLMs and a surp...

ID: 2509.02175v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Why Stop at Words? Unveiling the Bigger Picture through Line-Level OCR

2025-09-02

Авторы:

Shashank Vempati, Nishit Anand, Gaurav Talebailkar, Arpan Garai, Chetan Arora

Данная работа определяет проблему неоптимальной точности и эффективности существующих технологий OCR, связанных с ошибками в квадратурном сегментации слов. Авторы предлагают перейти от строчного к линейному сегментированию, используя модели перевода последовательностей для распознавания целых строк. Эта стратегия обходит ошибки в детектировании слов и позволяет использовать более эффективные модели естественных языков для повышения точности. Авторы представляют собственный датасет с 251 изображениями страниц для обучения и тестирования, доказав улучшение точности на 5,4% и эффективность на 4 раз по сравнению с существующими подходами. Результаты указывают на перспективу такого подхода для документов и перспективы его улучшения в сочетании с ростом мощности технологий LLMs.

Annotation:

Conventional optical character recognition (OCR) techniques segmented each character and then recognized. This made them prone to error in character segmentation, and devoid of context to exploit language models. Advances in sequence to sequence translation in last decade led to modern techniques first detecting words and then inputting one word at a time to a model to directly output full words as sequence of characters. This allowed better utilization of language models and bypass error-prone ...

ID: 2508.21693v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 A Novel Framework for Automated Explain Vision Model Using Vision-Language Models

2025-08-30

Авторы:

Phu-Vinh Nguyen, Tan-Hanh Pham, Chris Ngo, Truong Son Hy

## Контекст Современные визуальные модели, такие как обнаруживающие и классифицирующие модели, стремятся к улучшению производительности с помощью метрик, таких как точность, IoU и mAP. Однако меньше внимания уделяется их объяснению, из-за сложности применения методов значимых объяснений (explainable AI, xAI) в сфере визуальных моделей. Хотя на сегодняшний день существуют методы, объясняющие поведение моделей на отдельных примерах, менее распространенны те, которые могут объяснить общий закономерности моделей, наблюдаемые после их применения к большим данным. Это является важной проблемой, так как понимание общих трендов моделей важно для идентификации биаз и раскрытия их вкрапленных предрассудков. Используя модели Vision-Language, предлагается новая архитектура, позволяющая объяснять модели визуального анализа как на уровне отдельных примеров, так и на уровне целых данных. Это расширяет потенциал визуальных моделей, превращая их в более транспарентные и надежные инструменты для анализа изображений. ## Метод Предлагаемая пайплайн-архитектура включает в себя несколько этапов: 1. **Предобучение модели Vision-Language**: Используется предобученная модель, которая умеет понимать общие связи между текстом и изображениями. 2. **Построение генеративного моделирования**: Генеративная модель строит вероятностные распределения слов и изображений, позволяя модели визуального анализа увидеть соответствия в разных контекстах. 3. **Объяснение на уровне отдельных примеров**: Для каждого отдельного изображения используется модель Vision-Language для сгенерированного текста, объясняющего причины, по которым модель пришла к определенному выводу. 4. **Объяснение на уровне данных**: Модель также может объяснять глобальные тренды в данных, найдя общие шаблоны и направления в тех или иных выводах модели. 5. **Интеграция с xAI**: Методы xAI используются для дополнительного разъяснения и выявления тонкостей, которые могут быть пропущены в простых объяснениях. ## Результаты Результаты получены на данных из широко известных баз данных, таких как ImageNet и PASCAL VOC. Метод был применен для объяснения различных визуальных моделей, включая модели обнаружения объектов и классификаторов. На уровне отдельных примеров показаны случаи, где модель делает неверные выводы, и предоставлены текстовые объяснения, помогающие понимать причины такого поведения. На уровне целых данных были выявлены глобальные шаблоны, включая сильные и слабые стороны моделей. Это позволило проверить полученные результаты и подтвердить, что модель не испытывает значительных биаз, кроме тех, которые были заложены при раз

Annotation:

The development of many vision models mainly focuses on improving their performance using metrics such as accuracy, IoU, and mAP, with less attention to explainability due to the complexity of applying xAI methods to provide a meaningful explanation of trained models. Although many existing xAI methods aim to explain vision models sample-by-sample, methods explaining the general behavior of vision models, which can only be captured after running on a large dataset, are still underexplored. Furth...

ID: 2508.20227v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 MobileCLIP2: Improving Multi-Modal Reinforced Training

2025-08-29

Авторы:

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari

## Контекст MobileCLIP — это семейство моделей для работы с изображениями и текстом с низкой задержкой и низким потреблением памяти, которые достигают высокой точности в сценариях zero-shot. Они основываются на фундаментальных моделях изображений и текста, таких как CLIP, и расширяют их возможности, используя мультимодальный усиленный тренировочный подход. Этот подход позволяет эффективно использовать множество генераторов текстовых описаний и моделей CLIP в качестве учителей для знаний. Тем не менее, существуют проблемы, связанные с оптимальным использованием этих моделей, выбором параметров тренировки и достижением того, чтобы модели были одновременно эффективными, скоростными и универсальными в разных сценариях. MobileCLIP2 построена для решения этих проблем, улучшая технологии усиления и знаний в рамках мультимодального развития моделей. ## Метод MobileCLIP2 строится на предыдущей модели MobileCLIP, но добавляет дополнительные усовершенствования в области усиления знаний. Мы улучшили CLIP-учителей, обучая их на DFN-датасете, и также улучшили капшн-генераторы, которые были применены в мультимодальном усилении. Мы вводим новую аббревиатуру DFN, которая оптимизирует синтез данных и применяет высококачественные капшн-генераторы. Также, мы использовали новую технику для улучшения обучения с помощью создания синтетических данных, которые могут быть использованы вместе с оригинальными текстовыми описаниями, что приводит к более широкому спектру возможностей. Мы также добавили температурное тюнинг в процессе контрастного знаний, что помогает модели быть более точной в своих оценках. ## Результаты Мы провели эксперименты, используя MobileCLIP2-B и MobileCLIP2-S4, которые улучшили ImageNet-1k zero-shot-точность на 2.2% и 3.5% соответственно. Мы также сравнили результаты с SigLIP-SO400M/14, установив, что MobileCLIP2-S4 превосходит его в ImageNet-1k zero-shot-точности на 2.5 раз при уменьшенной емкости на 2 раза. Мы также провели анализ абляции, в котором обнаружили значительную эффективность температурного тюнинга в контрастном знании, как один из ключевых факторов улучшения точности. Кроме того, мы обнаружили, что генераторы капшнов, которые были применены в тренировке, способствуют более высокой разнообразию текстовых описаний. ## Значимость Модели MobileCLIP2 имеют широкие возможности для применения в различных областях, включая компьютерное зрение, NLP и мультимодальные приложения. Улучшенная точность zero-shot и низкая задержка делают их удобными для использования в мобильных устройствах и реальном времени. Более того, наш подход к созданию новых му

Annotation:

Foundation image-text models such as CLIP with zero-shot capabilities enable a wide array of applications. MobileCLIP is a recent family of image-text models at 3-15ms latency and 50-150M parameters with state-of-the-art zero-shot accuracy. The main ingredients in MobileCLIP were its low-latency and light architectures and a novel multi-modal reinforced training that made knowledge distillation from multiple caption-generators and CLIP teachers efficient, scalable, and reproducible. In this pape...

ID: 2508.20691v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs

2025-08-27

Авторы:

Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit

#################### ## Контекст #################### В последние годы появилось множество значительных прогрессов в области бо LARGE VISION-LANGUAGE MODELS (LVLMs), которые обеспечивают мощные возможности в анализе и понимании изображений и текста. Однако существуют значительные недостатки в их понимании структурированных данных, таких как таблицы и графики, а также в их производительности при решении задач, требующих продвинутого математического моделирования. Эти проблемы видны особенно в решении задач, которые требуют расширенного знания, таких как оценка данных, экстраполяция и логическое связывание. Например, существуют нерешительные результаты в области визуального анализа спортивных статистических данных. Этот исследовательский подход исследует эти проблемы в контексте спортивных статистических данных, особенно в связи с их значимостью в решении характеристик спортивных матчей. #################### ## Метод #################### Чтобы устранить эти проблемы, мы предлагаем **MMCRICBENCH-3K**, который представляет собой бенчмарк для оценки производительности LVLMs на Visual Question Answering (VQA) задачах с использованием спортивных статистических данных. Мы генерируем 1 463 синтетических изображений скорок, как в ODIs, так и в T20 и Test-форматах, и создаем 1 500 вопросов-ответов на английском языке, которые требуют развитого анализа, такого как вычисления счета, прогнозирование результатов и логическое сопоставление. Датасет делится на две подвыборки: **MMCRICBENCH-E-1.5K**, содержащий изображения скорок на английском языке, и **MMCRICBENCH-H-1.5K**, содержащий изображения скорок на хинди. Измерения выполняются на английском языке, чтобы обеспечить сравнение в рамках одного языка, но с разными стилями ввода. Датасет предоставляет структурированные таблицы, в которых ключевые статистические метрики определяют трудные задачи моделирования. #################### ## Результаты #################### Мы проводим эксперименты с популярными LVLMs, включая GPT-4o и Qwen2.5VL. Результаты показали, что даже на английском языке, где LVLMs получают наибольший объем данных для обучения, модели сталкиваются с значительными недостатками в продвинутых задачах по логическому восприятию и вычислениям. На хинди-подвыборке, где такие модели сталкиваются с узкими наборами данных, производительность значительно ухудшается. Эти результаты также подтверждают, что LVLMs имеют ограниченную способность к контексту, требующему расширенного знания. Отчеты показывают, что проблема во взаимодействии моделей с необходимыми структурными данными и контекстом до сих пор не решена. #################### ## Значи

Annotation:

We introduce MMCRICBENCH-3K, a benchmark for Visual Question Answering (VQA) on cricket scorecards, designed to evaluate large vision-language models (LVLMs) on complex numerical and cross-lingual reasoning over semi-structured tabular images. MMCRICBENCH-3K comprises 1,463 synthetically generated scorecard images from ODI, T20, and Test formats, accompanied by 1,500 English QA pairs. It includes two subsets: MMCRICBENCH-E-1.5K, featuring English scorecards, and MMCRICBENCH-H-1.5K, containing vi...

ID: 2508.17334v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Ovis2.5 Technical Report

2025-08-19

Авторы:

Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

## Контекст Ovis2.5 является усовершенствованием Ovis2, разработанным для нативного разрешения визуального восприятия и сильного многомодального разума. Он интегрирует трансформер визуального восприятия нативного разрешения, обрабатывающий изображения в их первоначальных, переменных разрешениях. Это позволяет избежать ухудшения качества, связанного с фиксированным разрешением, и сохранить как тонкие детали, так и глобальный макет, что крайне важно для текстов с большим количеством информации, таких как сложные чарты. Дополнительно, модель обучена перейти за линейный цепочный способ мышления и выполнять рефлексию, включая самопроверку и корректировку. Эта расширенная функция доступна в качестве дополнительного "режима мышления" во время интерпретации, позволяя пользователям соотносить затраты на процессорное время с улучшением точности в сложных задачах. Обучение Ovis2.5 проходит через пятиэтажную систему курса, постепенно углубляющую свои навыки. Эта процедура начинается с основных визуальных и многомодальных предварительных тренировок, потом переходит к широкомасштабному тюнингу инструкций и заканчивается выравниванием и улучшением разума с помощью DPO и GRPO. Для эффективного масштабирования этих улучшений, авторы использовали мультимодальный пакетный данных и гибридную параллельность, что привело к значительному ускорению в общем виде. ## Метод Ovis2.5 использует совершенно новую конструкцию, включающую в себя трансформер визуального восприятия нативного разрешения, который обрабатывает изображения в их исходных разрешениях. Это позволяет избежать потерь деталей и глобального макета, которые могут возникнуть при использовании фиксированного разрешения. Более того, модель обучена выступать в режиме "мышления", что позволяет перемещаться за линейный цепочный способ мышления и выполнять рефлексию, включая самопроверку и корректировку. Этот режим может быть активирован во время интерпретации, чтобы улучшить точность на сложных задачах, при этом это может привести к увеличению затрат на процессорное время. Для обучения использовалась пятиэтажная система курса, которая постепенно углубляет навыки модели. Этот процесс начинается с основных визуальных и многомодальных предварительных тренировок, затем переходит к широкомасштабному тюнингу инструкций и завершается выравниванием и улучшением разума с помощью DPO и GRPO. ## Результаты Проведенные эксперименты показали, что Ovis2.5-9B показал средний результат 78.3 на OpenCompass multimodal leaderboard, что значительно превышает результаты Ovis2-8B и других открытых моделей с менее чем 40B параметра

Annotation:

We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform ...

ID: 2508.11737v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models

2025-08-19

Авторы:

Wenhui Zhu, Xiwen Chen, Zhipeng Wang, Shao Tang, Sayan Ghosh, Xuanzhao Dong, Rajat Koner, Yalin Wang

#### Контекст В последние годы появились многомодальные большие языковые модели (MLLMs), которые оперируют несколькими типами данных, включая текст и изображения. Одной из ключевых задач, с которой сталкиваются такие модели, является Instructed Visual Segmentation (IVS), или указательная визуальная сегментация. Задача IVS заключается в том, чтобы выделить объекты на изображении или видео в соответствии с естественным языковым запросом. Несмотря на то, что MLLMs достигли высокой точности в IVS, их высокий косвенный затратный порог, особенно при работе с видео, остается значительной проблемой. Это ограничение становится все более актуальным в ситуациях, требующих реального времени. В этой статье мы исследуем эффективность визуальных токенов в MLLMs и разрабатываем метод, который позволяет сократить накладные расходы без существенного ущерба качеству. #### Метод Мы предлагаем на основе EVTP-IVS, новый метод эффективной визуальной токен-прайзинг, который оптимизирует выбор токенов для того, чтобы сохранить максимальную информативность с минимальным количеством токенов. Метод основывается на алгоритме k-center, который включает в себя специальные техники для учета пространственной информации. Это позволяет гарантировать представительность выделяемых областей изображения или видео. Мы также применяем информационно-теоретический анализ, который подтверждает эффективность нашего подхода. Решение EVTP-IVS целенаправленно уменьшает требования к вычислительным ресурсам без потери качества, что делает его пригодным для применения в реальном времени. #### Результаты Мы провести эксперименты на нескольких стандартных IVS-benchmarks, включая образцы изображений и видео. Наши результаты показывают, что EVTP-IVS дает скорость выполнения задачи до 5 раз выше на видео-задачах и до 3,5 раз на изображениях, сохранив при этом около 80% токенов. Это приводит к значительной экономии времени и ресурсов при сохранении высокой точности. Метод EVTP-IVS также показал лучшие результаты по сравнению с другими методами упрощения вывода, в том числе с теми, которые используют более сложные архитектуры или методы. #### Значимость Предлагаемый метод EVTP-IVS имеет широкие возможности применения в сферах, требующих высокой производительности и эффективности. Например, это может быть использовано в робототехнике, автоматизированной работе, в задачах анализа видео на требовательных устройствах или в ситуациях, где ресурсы вычислений ограничены. Наш подход не только уменьшает стоимость вычислений, но и улучшает производительность в реальном времени, что открывает

Annotation:

Instructed Visual Segmentation (IVS) tasks require segmenting objects in images or videos based on natural language instructions. While recent multimodal large language models (MLLMs) have achieved strong performance on IVS, their inference cost remains a major bottleneck, particularly in video. We empirically analyze visual token sampling in MLLMs and observe a strong correlation between subset token coverage and segmentation performance. This motivates our design of a simple and effective toke...

ID: 2508.11886v1 cs.CV, cs.AI, cs.CL, cs.LG, eess.IV

arXiv PDF

Показано 31 - 40 из 43 записей