📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Nathalie Neptune, Josiane Mothe

## Контекст Динамика плодородия и размера экосистем на Земле является ключевым аспектом обеспечения устойчивого развития. Одним из самых крупных загрязнений естественных экосистем является дефорестирование, особенно в регионе Амазонского леса. Этот регион является ключевым средоточием нормализации уровня углерода в атмосфере и жизненным пространством для множества видов. Однако за счет активных лесных размеров, вызванных сокращением лесных массивов, происходит не только потеря природных ресурсов, но и влияние на климатические процессы. Необходима эффективная система для мониторинга и изучения этих изменений. В настоящей статье предлагается метод определения дефорестирования, основанный на сравнении спутниковых изображений разных периодов с использованием глубокого обучения. Наша модель также использует визуальную семантическую модель для автоматического аннотацирования изменений, основываясь на ключевых словах, извлеченных из ученых исследований. Эта подходка может стать мощным инструментом для эффективного мониторинга дефорестирования и глубокого понимания его влияния на регионы. ## Метод Метод предлагаемого подхода основывается на глубоком обучении, которое позволяет выявлять изменения в спутниковых изображениях различных дат. Для этого используется архитектура сверточных нейронных сетей, которая сравнивает два изображения одной и той же области, но разных временных периодов. Затем эти изменения аннотируются с помощью визуально-семантической модели. Для извлечения ключевых слов из текстовых документов используется модель на основе трансформеров, которая находит связанные слова в научных документах, описывающих Амазонский регион. Эти ключевые слова используются для пояснения изображений, выявляя типы изменений (например, дефорестирование, пожары и другие). Модель обучается на большом наборе данных, который включает изображения различных видов изменений. Эта многоуровневая архитектура позволяет достичь высокой точности в определении изменений и в том же времени автоматически аннотировать их. ## Результаты Метод был проверен на наборе данных, включающих спутниковые изображения Амазонского региона с различными сменами времени. Использовалось более 10 000 пар изображений с разными степенями дефорестирования и других изменений. Результаты показали, что модель действительно эффективна в определении дефорестирования и аннотации визуальных изменений с помощью ключевых слов. Точность определения дефорестирования достигала 95%, с минимальным количеством ложных срабатываний. Аннотации, полученные с помощью модели, были та
Annotation:
The Amazon rain forest is a vital ecosystem that plays a crucial role in regulating the Earth's climate and providing habitat for countless species. Deforestation in the Amazon is a major concern as it has a significant impact on global carbon emissions and biodiversity. In this paper, we present a method for detecting deforestation in the Amazon using image pairs from Earth observation satellites. Our method leverages deep learning techniques to compare the images of the same area at different ...
ID: 2509.13586v1 cs.CV, cs.CL, cs.IR, cs.MM, I.2; I.4; I.7; H.3
Авторы:

Weihang Wang, Xinhao Li, Ziyue Wang, Yan Pang, Jielei Zhang, Peiyi Li, Qiang Zhang, Longwen Gao

## Контекст Объединение визуальной и языковой информации в Large Vision-Language Models (LVLMs) обеспечивает мощные возможности для решения различных задач. Однако существует одна серьезная проблема, которая существенно ограничивает их применение в реальном мире — object hallucination. Это происходит, когда модель визуально описывает объекты, которые либо не присутствуют, либо не соответствуют смыслу текста. Такие ошибки снижают доверие к моделям и становятся значительным препятствием для их успешного использования в ситуациях, требующих высокой точности и достоверности. Необходимость решения этой проблемы мотивирует разработку методов, которые могут анализировать и контролировать этот эффект. В данном исследовании мы сосредоточились на визуальном компоненте LVLMs, так как он является ключевым для точного интерпретирования входной изображенческой информации. Мы предположили, что различные тренировочные параметры и архитектуры визуальных моделей влияют на их устойчивость к hallucinations. Однако существующие бенчмарки для оценки LVLMs слишком грубоваты и не могут отразить тонкости этой проблемы. Наша цель — понять эти тонкости и разработать методы, которые могут ее эффективно устранить. ## Метод Мы предложили новую метрику для тонкой оценки различных типов object hallucinations, которая позволяет лучше понять, как различные визуальные модели справляются с этим вопросом. Для этого мы разработали VHBench-10 — бенчмарк, состоящий из примерно 10 тысяч примеров с разбивкой на 10 категорий hallucinations. Это позволяет представлять не только общий эффект, но и тонкости, связанные с различными видами этой проблемы. Кроме того, мы разработали VisionWeaver — совершенно новую модель, основанную на Context-Aware Routing Network. Она использует глобальные визуальные признаки для генерации сигналов, которые динамически направляют модель, какие специализированные эксперты использовать для агрегации данных. Эта архитектура позволяет модели более эффективно адаптироваться к различным типам объектов и ситуаций. ## Результаты Мы провели подробные эксперименты сравнивая нашу модель с другими текущими визуальными моделями на VHBench-10. Эксперименты показали, что VisionWeaver не только существенно сокращает частоту object hallucinations, но и улучшает общую точность модели. Мы показали, что различные виды object hallucinations по-разному влияют на различные визуальные модели, и VisionWeaver демонстрирует высокую устойчивость к этим различиям. ## Значимость Наши результаты имеют большое значение для области LVLMs, так как они позволяют значительно сократить ошибки, связанные с hallucinations. Это делает модели более надежными для применения в реальных задачах, таки
Annotation:
Object hallucination in Large Vision-Language Models (LVLMs) significantly impedes their real-world applicability. As the primary component for accurately interpreting visual information, the choice of visual encoder is pivotal. We hypothesize that the diverse training paradigms employed by different visual encoders instill them with distinct inductive biases, which leads to their diverse hallucination performances. Existing benchmarks typically focus on coarse-grained hallucination detection an...
ID: 2509.13836v1 cs.CV, cs.CL
Авторы:

Young-rok Cha, Jeongho Ju, SunYoung Park, Jong-Hyeon Lee, Younghyun Yu, Youngjune Kim

## Контекст В настоящее время становится все более важной задачей развития моделей, которые могут понимать и обрабатывать изображения и текст в различных языках. Одной из таких моделей является VARCO-VISION-2.0, улучшенная версия предыдущей модели VARCO-VISION-14B. Эта модель предназначена для работы с билингвальными визуально-языковыми задачами, такими как многоизображенческое понимание, в том числе документы, таблицы и диаграммы, а также распознавание штрих-кодов. Она может выполнять локализованное распознавание текста, определяя как текстовое содержимое, так и его расположение в пространстве. Модель была тренирована с использованием четырехэтапной курсивной модели, включающей методы эффективного использования памяти, что позволяет ей быть эффективной и удобной в использовании. ## Метод В создании VARCO-VISION-2.0 был использован новый представленческий метод, который позволяет модели не только понимать содержимое изображений, но и их расположение в пространстве. Модель была обучена с использованием памяти-оптимизированных методов, что позволяет ей обрабатывать текст и изображения в одно время. Она также может выполнять локализованное распознавание текста, что означает, что она может распознавать текст и учитывать его расположение в документе или изображении. Модель также поддерживает многоизображенческое понимание, что делает ее эффективной для работы с разнообразными визуально-текстовыми данными. ## Результаты Модель была протестирована на нескольких бенчмарк-задачах, таких как OpenCompass VLM, где она показала высокую эффективность. Она достигла 8-го места в лидерборде по сравнению с моделями схожего размера. Модель также продемонстрировала способность выполнять локализованное распознавание текста, а также эффективность в многоизображенческом понимании. Однако, некоторые результаты указывают на некоторые проблемы в специфике языков, в частности в отношении грамматики и синтаксиса. ## Значимость VARCO-VISION-2.0 является значимой для развития билингвальных визуально-языковых моделей (VLM). Она может применяться в различных областях, таких как документооборот, анализ текстов, автоматизация штрих-кодов и другие виды билингвальных обработок текста и изображений. Эта модель также добивается высокого уровня безопасности и целесообразности, что делает ее привлекательной для промышленных и научных применений. ## Выводы Модель VARCO-VISION-2.0 достигла существенных улучшений по сравнению с предыдущей версией. Она может работать с многоизображенческим пониманием, в том числе документов, таблиц и диаграм
Annotation:
We introduce VARCO-VISION-2.0, an open-weight bilingual vision-language model (VLM) for Korean and English with improved capabilities compared to the previous model VARCO-VISION-14B. The model supports multi-image understanding for complex inputs such as documents, charts, and tables, and delivers layoutaware OCR by predicting both textual content and its spatial location. Trained with a four-stage curriculum with memory-efficient techniques, the model achieves enhanced multimodal alignment, whi...
ID: 2509.10105v2 cs.CV, cs.CL
Авторы:

Yifan Lu, Ziqi Zhang, Chunfeng Yuan, Jun Gao, Congxuan Zhang, Xiaojuan Qi, Bing Li, Weiming Hu

## Контекст Становятся все более популярными с LLM (Large Language Models) и LVLMs (Large Vision-Language Models). Однако, даже самые продвинутые системы LVLMs страдают от проблемы "халлуцинаций", когда их ответы не соответствуют визуальным входным данным. Эта проблема становится серьёзной ограничением для применения LVLMs в реальных задачах. Несмотря на существующие методы, такие как предпочтение согласования или внешние зависимости, эти подходы требуют дополнительных ресурсов, таких как человеческие аннотации или специальные модели, что делает процесс дорогостоящим и менее удобным. Наша статья уделяет внимание существующим проблемам в зоне LVLMs, предлагая новое, автономное решение, которое не требует внешних зависимостей и может стабильно улучшать производительность LVLMs в будущем. ## Метод Мы предлагаем метод **Autonomous Preference Alignment via Self-Injection (APASI)** для снижения халлуцинаций в LVLMs. Алгоритм APASI основывается на самозапуске халлуцинации в процессе генерации ответа. Именно это для нашей модели становится ключом к тому, чтобы она могла сама понять, какой ответ будет считаться "халлуцинацией" и что желательно изменить. Главным принципом APASI является имитация реальных халлуцинаций, что позволяет модели изучить их характеристики и стабильно их исправлять. Мы также внедряем стратегию итеративного обучения с помощью метода учебного курса, чтобы постоянно усиливать нагрузку на модель, чтобы она могла стабильно улучшаться в процессе обучения. ## Результаты В нашем исследовании мы использовали шесть разных бенчмарков, чтобы проверить эффективность APASI. Мы сравнили результаты этого метода с другими подходами, основывающимися на предпочтениях. Наши эксперименты показали, что APASI не только существенно снижает халлуцинации, но и достигает показателей, подобных или даже выше, чем существующие методы. Это указывает на то, что APASI не только эффективен в своей задаче, но также продемонстрировал способность улучшать LVLMs в реальной среде. ## Значимость Метод APASI может применяться в различных областях, где LVLMs могут использоваться, таких как распознавание объектов, описание визуального содержимого и даже в создании контента. Одним из основных преимуществ APASI является его автономность, что устраняет необходимость в дорогостоящих внешних зависимостях. Мы уверены, что наша работа может стать основой для дальнейших исследований в области LVLMs и помочь в решении проблем, связанных с халлуцинациями. ## Выводы Мы представили новый метод APASI для снижения халлуцинаций в LVLMs. Наш алгоритм не только стабильно улучшает производительность, но также демо
Annotation:
Large Vision-Language Models (LVLMs) suffer from serious hallucination problems, where the model-generated responses are inconsistent with the visual inputs. Existing hallucination mitigation methods are mainly based on preference alignment and require external human annotations or auxiliary models for preference data collection, which increase costs and limit sustainable improvement. To tackle these challenges, we propose Autonomous Preference Alignment via Self-Injection (APASI), a novel and g...
ID: 2509.11287v1 cs.CV, cs.CL
Авторы:

Wenyan Li, Raphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard

## Контекст Визуально-языковые модели (Vision-Language Models, VLMs) широко применяются в задачах компьютерного зрения, таких как визуально-текстовый поиск, вопрос-ответ и генерация описаний изображений. Они объединяют знания из двух модальностей — изображений и текстов — для моделирования взаимосвязей между ними. Однако одна из самых критических частей таких моделей — проекция визуальных данных в общую плоскость векторных представлений — остается мало исследована. Эта проблема может привести к существенным потерям информации, которые непосредственно влияют на качество модели. Таким образом, исследование и измерение этого процесса является важной задачей для улучшения понимания и эффективности VLMs. ## Метод Для исследования потери информации в проекционном процессе использовались две комплементарные подходы. Первый — оценка математической точности сохранения семантической информации с использованием метода к-самых близких соседей (k-NN). Эта методика использует изменения в отношениях близости между визуальными представлениями в пространстве перед и после проекции. Второй подход — прямое измерение потерь информации с помощью восстановления проецированных векторов с помощью локальных моделей (например, CNNs), что позволяет определить области в изображении, где происходит наиболее существенная потеря. Эти методы позволяют выявить и анализировать состояние внутренней структуры представлений. ## Результаты Эксперименты проводились на корпусах данных, включая COCO и Conceptual Captions. Результаты показали, что проекционная компонента VLMs приводит к значительным изменениям в локальной геометрии представлений, что отражается в деградации производительности задач восстановления контекста и вопроса-ответа. Например, после проекции k-NN отношения разрушаются на 40–60%, что сильно снижает эффективность моделей. Также обнаружено, что высокая информационная потеря в представлениях локальных патчей соотносится с плохим выполнением моделей на задачах визуально-текстового понимания. ## Значимость Результаты имеют большое значение для развития VLMs и моделей модулярного обучения. Они позволяют выявить с WEAKEST LINKS в процессе моделирования и направлять усилия на их улучшение. Известно, что семантические и локальные представления — ключевые компоненты моделей, и их потеря может сильно снизить эффективность. Например, такие проблемы можно увидеть при работе с сетями визуального поиска, где плохое представление области изображения может привести к неверному ответу. Эти результаты способствуют развитию новых архитектур, которые будут уменьшать потери информа
Annotation:
Vision--language models (VLMs) often process visual inputs through a pretrained vision encoder, followed by a projection into the language model's embedding space via a connector component. While crucial for modality fusion, the potential information loss induced by this projection step and its direct impact on model capabilities remain understudied. We introduce two complementary approaches to examine and quantify this loss by analyzing the latent representation space. First, we evaluate semant...
ID: 2509.11986v1 cs.CV, cs.CL
Авторы:

Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang

#### Контекст Визуальная рационализация (visual reasoning) — это важный аспект искусственного интеллекта, направленный на обработку и анализ визуальной информации с учетом логических правил и контекста. Однако существующие модели визуального рассуждения (visual reasoning models, VRMs) часто способствуют автоматическому построению ответов, недостаточно учитывая визуальные данные или проводя углубленное визуальное обоснование при принятии решений. Эта проблема влечет за собой ограниченность решений и несоответствие реальным обстоятельствам. Были предприняты усилия для передачи техник "медленного мышления" (slow-thinking) из текстовых моделей в VRMs. Однако эти усилия сталкиваются с ключевыми проблемами, включая недостаточное внимание к визуальным данным и слабую возможность визуальной рефлексии (visual reflection) — процесс, когда модель анализирует свои рассуждения на основе визуальных сигналов. #### Метод Для решения этой проблемы мы предлагаем модель \textbf{Reflection-V}, которая улучшает визуальную рефлексию в VRMs с помощью двух основных компонентов: 1. **Конструирование визуально-центрированного контекста рассуждения**. Используя агента, взаимодействующего с моделями языка и визуального рассуждения, мы строим данные, которые стимулируют модели привлекать внимание к визуальным сигналам в ходе рассуждения. 2. **Реабилитация внимания с помощью оптимизации визуальных моделей**. Мы применяем визуальную модель внимания (visual attention) как признак для проектирования наград в обучении с подкреплением (reinforcement learning). Это позволяет модели оптимизировать свой подход к визуальному анализу, стремясь к более точному и визуально обоснованному решению. #### Результаты Мы провели эксперименты на нескольких бенчмарках визуального рассуждения, включая проверку способности моделей к визуальной рефлексии. Результаты показали, что \textbf{Reflection-V} превосходит существующие модели по следующим показателям: - Увеличение внимания к визуальным данным в ходе рассуждения. - Улучшение точности ответов, особенно при сложных задачах визуального анализа. - Уменьшение количества ошибок в ситуациях, требующих глубокого визуального объяснения. Эти результаты подтверждают, что модель \textbf{Reflection-V} не только повышает качество решений, но и обеспечивает более стабильное внимание к визуальным сигналам. #### Значимость Модель \textbf{Reflection-V} может быть применена в различных областях, где важно улучшение визуального рассуждения, включая медицинскую диагностику, анализ видео, управление роботами и другие приложения, требующие точного и визуально обоснованного анализа. Ос
Annotation:
Recent advances in text-only "slow-thinking" reasoning have prompted efforts to transfer this capability to vision-language models (VLMs), for training visual reasoning models (\textbf{VRMs}). owever, such transfer faces critical challenges: Effective "slow thinking" in VRMs requires \textbf{visual reflection}, the ability to check the reasoning process based on visual information. Through quantitative analysis, we observe that current VRMs exhibit limited visual reflection, as their attention t...
ID: 2509.12132v1 cs.CV, cs.CL
Авторы:

Young-rok Cha, Jeongho Ju, SunYoung Park, Jong-Hyeon Lee, Younghyun Yu, Youngjune Kim

## Контекст VARCO-VISION-2.0 — это продвинутый билингвальный модель визуально-языковых моделей (VLM) для языков корейский и английский, разработанная для решения проблемы понимания и интерпретации сложных визуально-текстовых данных. Она является улучшением предыдущей версии VARCO-VISION-14B и предлагает новые возможности, включая понимание нескольких изображений, локальное сопоставление текста с его местом на изображении (OCR с пространственным расположением), а также глубокое понимание текстовой информации в контексте сложных структур, таких как документы, таблицы и диаграммы. Важной особенностью является то, что модель не только понимает текст, но и знает, где он находится внутри изображения, что делает ее уникальной в своем классе. Модель разработана с учетом того, чтобы обеспечить более эффективное и точное взаимодействие между языком и визуальными данными. ## Метод Процесс разработки VARCO-VISION-2.0 основывается на четырёх этапах курсивного обучения с использованием методов оптимизации памяти. Модель построена на архитектуре, позволяющей ей обрабатывать изображения вместе с их текстовыми содержаниями и понимать логику положения текста внутри изображений. Она обладает мощным многомодальным взаимодействием, который позволяет ей решать задачи, включая локализацию текста, понимание сложных документов и определение координат текста внутри изображения. Более того, в модели используется новая методика улучшения безопасности и точности, которая обеспечивается при помощи оптимизации предпочтений, что повышает точность решений и снижает вероятность ошибок. ## Результаты Результаты экспериментов показали, что VARCO-VISION-2.0 эффективна в решении задач, связанных с визуально-языковым пониманием. Она достигла высоких показателей в многомодальном понимании изображений, включая документы, таблицы и диаграммы. Модель 14B-вариант показала себя на 8-м месте в лидербورде OpenCompass VLM среди моделей одного размера. Также была выпущена легковесная версия 1.7B, оптимизированная для работы на устройствах. Эти результаты доказали мощь модели в решении задач, которые требуют глубокого понимания взаимодействия между текстом и визуальными данными. ## Значимость VARCO-VISION-2.0 может применяться в различных областях, таких как документационный анализ, автоматическая система распознавания текста, локализация текста на изображениях и многие другие. Она предлагает значительные преимущества, включая улучшенное понимание языков, точность распознавания текста, а также безопасность и удобство использования. Важной особенностью я
Annotation:
We introduce VARCO-VISION-2.0, an open-weight bilingual vision-language model (VLM) for Korean and English with improved capabilities compared to the previous model VARCO-VISION-14B. The model supports multi-image understanding for complex inputs such as documents, charts, and tables, and delivers layoutaware OCR by predicting both textual content and its spatial location. Trained with a four-stage curriculum with memory-efficient techniques, the model achieves enhanced multimodal alignment, whi...
ID: 2509.10105v1 cs.CV, cs.CL
Авторы:

Umair Hassan

#### Контекст Urdu, язык, говорящий его более 250 миллионов человек, остается критически недоосвещенным в области мультимодальных исследований и обработки естественного языка. Отсутствие крупных, высококачественных данных ставит препятствия в развитии систем, ориентированных на этот язык, и укрепляет биазы в многоязычных моделях визионного языкового моделирования, которые в основном тренируются на высокоресурсных языках. Для устранения этого недостатка мы предлагаем COCO-Urdu — крупнейший доступный для общественности датасет с изображениями и описаниями на языке урду, полученный из MS COCO. Он содержит 59 000 изображений и 319 000 картинок на языке урду, выбранных стратифицированным выбором для сохранения оригинального распределения. #### Метод COCO-Urdu был создан с использованием SeamlessM4T v2 для перевода картинок с языка английского на урду. Процесс включал в себя несколько шагов качественной оценки. Мы использовали COMET-Kiwi для оценки качества перевода, CLIP для визуального анкеринга, а также BERTScore с обратным переводом для измерения семантического согласованности. Низкокачественные записи были исправлены с помощью открытого доступного языкового моделирования. Мы также провели бенчмарк для COCO-Urdu, используя BLEU, SacreBLEU и chrF, что подтвердило высокую точность и качество датасета. #### Результаты COCO-Urdu представляет собой крупномасштабный датасет с изображениями и описаниями на языке урду. Он был проверен на нескольких метриках качества, включая BLEU, SacreBLEU и chrF, и показал высокую точность. Это датасет гарантирует возможность развития урду-ориентированных визуально-языковых моделей и снижает имеющиеся биазы в мультиязычных моделях, которые, как правило, ориентированы на высокоресурсные языки. #### Значимость COCO-Urdu может быть применен в различных мультимодальных задачах, таких как описание изображений, вопрос-ответ, и генерация языка. Его преимущество в том, что он снижает языковые биазы в мультиязычных моделях, обеспечивая более включительные и точные результаты. Этот датасет может способствовать развитию инклюзивных визуально-языковых систем, которые будут учитывать необходимость включения менее ресурсных языков, таких как урду. #### Выводы COCO-Urdu является крупнейшим, доступным для общественности датасетом с изображениями и описаниями на языке урду. Мы также предоставили качественную оценку методики, чтобы помочь в повышении качества перевода. Наша работа определяет направления для будущих исследований в области мультимадального MODELLING на менее ресурсных языках, стремясь
Annotation:
Urdu, spoken by over 250 million people, remains critically under-served in multimodal and vision-language research. The absence of large-scale, high-quality datasets has limited the development of Urdu-capable systems and reinforced biases in multilingual vision-language models trained primarily on high-resource languages. To address this gap, we present COCO-Urdu, a large-scale image-caption dataset derived from MS COCO, containing 59,000 images and 319,000 Urdu captions selected through strat...
ID: 2509.09014v1 cs.CV, cs.CL, 68T45 (Primary) 68T50 (Secondary)
Авторы:

Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li

## Контекст Текстово-изображенческие (T2I) модели, которые генерируют изображения на основе текстовых описаний, получили широкое применение в различных областях, включая искусственное интеллектуальное творчество, развитие графического дизайна и визуализацию содержимого. Однако существуют значительные проблемы в их развитии, определенной частью которых является недостаток больших данных, фокусированных на логическом соотнешении текстов и изображений. Большинство доступных T2I-датасетов и оценочных бенчмарков ограничены либо в размере, либо в детализации, что приводит к заметному разрыву в качестве генерируемых изображений между открытыми и закрытыми системами. Для решения этой проблемы предлагается новая масштабная методология, способная поднять стандарты глубокого анализа и генерирования в области T2I. ## Метод FLUX-Reason-6M - это инновационный датасет, состоящий из 6 миллионов высококачественных изображений, сгенерированных FLUX-моделью, и 20 миллионов билингвальных описаний (английский и китайский), которые предназначены для развития умений на глубоком логическом уровне. Изображения разделены на шесть категорий: Диалог, Образ, Текст, Стиль, Эмоциональный Уровень, Композиция. Каждое изображение сопровождается гидравлическим цепью мышления (Generation Chain-of-Thought, GCoT), которая подробно описывает шаги по созданию изображения. Дополнительно представлен PRISM-Bench - методология оценки, включающая 7 отдельных тестов: Основные Тесты, Оценка Стиля, Оценка Детализации, Оценка Достоверности, Тест Убежденности, Тест Объектности и Тест Логического Развития. Эти тесты используют визуально-языковые модели для точного анализа генерируемых изображений на уровне визуально-текстового анализа и критериев красоты. ## Результаты Используя FLUX-Reason-6M и PRISM-Bench, проведены эксперименты с 19 различными T2I-моделями, включая как открытые, так и закрытые системы. Эксперименты продемонстрировали значительные разрывы в качестве генерируемых изображений, особенно в сложных задачах, таких как логический анализ текста и изображений. На PRISM-Bench, где оцениваются сложные тексты, наибольшие проблемы выявлены в области глубокого понимания текста, а также в аккуратности и стилевом выполнении. Эти результаты подтверждают необходимость дальнейшего улучшения в области T2I-генерирования. ## Значимость Данный датасет и бенчмарк имеют революционное значение для развития открытого T2I-генерирования. Они предоставляют широкую базу для обучения и оценки моделей, позволяя улуч
Annotation:
The advancement of open-source text-to-image (T2I) models has been hindered by the absence of large-scale, reasoning-focused datasets and comprehensive evaluation benchmarks, resulting in a performance gap compared to leading closed-source systems. To address this challenge, We introduce FLUX-Reason-6M and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality FLUX-generated images and 20 million bilingual ...
ID: 2509.09680v1 cs.CV, cs.CL
Авторы:

Xudong Lu, Zhi Zheng, Yi Wan, Yongxiang Yao, Annan Wang, Renrui Zhang, Panwang Xia, Qiong Wu, Qingyun Li, Weifeng Lin, Xiangyu Zhao, Xue Yang, Hongsheng Li

## Контекст Geo-localization (CVGL) — это особая область распознавания, нацеленная на выявление соответствий между изображениями, полученными с разных точек зрения одной географической точки. Тем не менее, существующие CVGL-модели обычно ограничиваются одним видом или моделью данных, и их подход к прямому визуальному сопоставлению лишён понятности. Они просто определяют соответствие двух изображений, не объясняя причины этого соответствия. Данная работа затрагивает эту проблему, предлагая GLEAM-C, модель, которая объединяет несколько видов и моделей данных, включая UAV-изображения, спутниковые снимки, карты улиц и фотографии из первого лица. GLEAM-C основывается на модели, созданной для улучшения точности и эффективности обучения. Для расширения возможностей CVGL, авторы также предлагают GLEAM-X, которая добавляет понятность в процесс сопоставления, позволяя многомодальным моделям визуального рассуждения объяснять свои решения. ## Метод GLEAM-C и GLEAM-X основываются на модели, построенной на базе многомодальных моделей визуального рассуждения. Они используют многомодальную архитектуру, включающую детекторы объектов, многомодальные концептные слои и многомодальные модели языка, чтобы сопоставить входные данные из разных моделей. GLEAM-C рассчитана на оптимизацию процесса обучения, с помощью новых технических решений. GLEAM-X использует модели языка для генерации ответов на вопросы о соответствии изображений. Для проверки моделей, создана билингвистическая бенчмарк-коллекция, используя GPT-4o и Doubao-1.5-Thinking-Vision-Pro для создания данных для обучения и тестирования. Данные были проанализированы и откорректированы ручными редакциями, чтобы обеспечить возможность систематической оценки. ## Результаты В ходе экспериментов GLEAM-C продемонстрировала высокую точность сопоставления в разных моделях данных, сопоставимая с оптимальными моделями CVGL. GLEAM-X показала существенное улучшение в интерпретируемости сопоставления, определяя причины соответствия двух изображений. Это включает в себя визуальный анализ, основанный на языковых моделях, которые объясняют, почему две картинки соответствуют друг другу. Это улучшает понимание работы модели, делает ее более понятной и систематично тестируемой. ## Значимость Результаты моделей могут быть применены в различных сферах, включая географическое локализационное моделирование, мониторинг среды, безопасность и навигацию. Улучшение точности сопоставления и понятность решений делают GLEAM-C и GLEAM-X ключевыми инструментами в этих областях. Возможным последствием могут
Annotation:
Cross-View Geo-Localization (CVGL) focuses on identifying correspondences between images captured from distinct perspectives of the same geographical location. However, existing CVGL approaches are typically restricted to a single view or modality, and their direct visual matching strategy lacks interpretability: they merely predict whether two images correspond, without explaining the rationale behind the match. In this paper, we present GLEAM-C, a foundational CVGL model that unifies multiple ...
ID: 2509.07450v1 cs.CV, cs.CL
Показано 141 - 150 из 185 записей