📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yu Zhao, Wei-Ning Chen, Huseyin Atahan Inan, Samuel Kessler, Lu Wang, Lukas Wutschitz, Fangkai Yang, Chaoyun Zhang, Pasquale Minervini, Saravan Rajmohan, Robert Sim

#### Контекст Графический интерфейс пользователя (GUI) широко используется в современных приложениях для взаимодействия с пользователем. Однако существуют проблемы с точностью интеллектуальных моделей, которые пытаются преобразовать естественный язык в координаты кликов и нажатий клавиш. Эти проблемы вызваны сложностью распознавания комплексных сложности графических пользовательских интерфейсов. Это снижает эффективность и повышает время работы систем. Наша мотивация заключается в развитии модели, которая будет учитывать пространственные связи и динамический контекст, чтобы улучшить точность и общую эффективность. #### Метод Мы предлагаем перефреймить задачу GUI-grounding как интерактивный поиск, где модель генерирует действия для перемещения курсора в пользовательском интерфейсе за счет распознавания объекта и оценки пространственных отношений. В каждом шаге модель определяет целевой объект, оценивает пространственные отношения курсора и перемещает курсор ближе к цели, исходя из прошлого движения. Мы используем нейросетевую модель GUI-Cursor, основанную на Qwen2.5-VL-7B, с тренировкой на многошаговом онлайн-реинфорсменте. Цветной курсор, отображающийся на экране, позволяет модели адаптироваться и улучшать свои решения в зависимости от процесса. #### Результаты Мы провели эксперименты с GUI-Cursor на двух наборах данных: ScreenSpot-v2 и ScreenSpot-Pro. На ScreenSpot-v2, наша модель увеличила долю правильных ответов с 88.8% до 93.9%, а на ScreenSpot-Pro — с 26.8% до 56.5%. Эксперименты показали, что наша модель находит решение в двух шагах для 95% случаев и может адаптироваться к более сложным ситуациям. #### Значимость Наша модель GUI-Cursor может быть применена в системах автоматизации, виртуальных помощниках и интерфейсах с глубоким взаимодействием. Она превосходит другие модели по точности и скорости, что делает её подходимой для реальных ситуаций. Главным преимуществом является способность адаптироваться к различным сложностям и учитывать пространственные отношения. Это может повлиять на развитие ИИ в области визуального понимания и повысит эффективность систем взаимодействия с пользователем. #### Выводы Мы успешно перефреймили задачу GUI-grounding как интерактивный поиск, показав преимущества нашей модели GUI-Cursor. Эта модель демонстрирует высокую точность и устойчивость в различных сценариях. Мы планируем расширить исследования на более сложные сценарии и улучшить модель для более сложных интерфейсов. Наш подход может стать ключевым для улучшения взаимодействия с пользователем в графических приложениях.
Annotation:
Graphical User Interface (GUI) grounding is commonly framed as a coordinate prediction task -- given a natural language instruction, generate on-screen coordinates for actions such as clicks and keystrokes. However, recent Vision Language Models (VLMs) often fail to predict accurate numeric coordinates when processing high-resolution GUI images with complex layouts. To address this issue, we reframe GUI grounding as an \emph{interactive search task}, where the VLM generates actions to move a cur...
ID: 2509.21552v1 cs.CV, cs.CL
Авторы:

Dwip Dalal, Gautam Vashishtha, Anku Ranui, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal

## Контекст Социальные сети и онлайн-платформы становятся все более популярными, но одновременно становятся местом для распространения ненависти и злобы. Такое содержимое не только портит общественное обсуждение, но и создает значительные вопросы по поводу безопасности и человечности в цифровом пространстве. Исследователи и разработчики приложений стремятся к развитию методов, которые могут эффективно сражаться с таким злополучным содержимым. Несмотря на существующие технологии, такие как текстовые фильтры, они часто имеют ограничения в их точности и эффективности при работе с изображениями, где ненависть может быть выражена словом, знаком или даже рисунком. Таким образом, введение методов, которые могут работать с многомедийными данными, является ключевым направлением для решения этой проблемы. ## Метод Мы предлагаем **DeHate**, мультимодальный подход, основанный на технологии Stable Diffusion, чтобы бороться с ненавистью в изображениях. Наша методология включает в себя два основных модуля. Во-первых, мы используем **Digital Attention Analysis Module (DAAM)**, который может определить расположение и влияние ненависти в изображении, создавая **hate attention map**. Затем, во-вторых, мы применяем **Stable Diffusion**, чтобы генерировать водяные знаки на ненавистливых областях изображения. Эти водяные знаки не просто скрывают ненависть, но также объединяются с моделью **DeHater**, которая выступает в качестве визуально-языковой модели. Модель DeHater анализирует текстовые приглашения и совмещает их с моделью для структурирования информации, чтобы верно определить и удалить ненависть. Мы также применяем **attention-based transformer architecture**, чтобы улучшить точность распознавания и создать подробные карты ненависти. ## Результаты Мы проверили наш подход на большом многомедийном датасете, созданном специально для деформации ненависти в изображениях. В ходе экспериментов мы сравнили нашу модель с другими существующими методами. Наши результаты показали, что **DeHate** показывает высокую точность в определении и удалении ненависти в изображениях. Мы также получили сложные **hate attention maps**, которые раскрывают расположение и влияние ненависти в каждом изображении. Эти результаты подтвердили, что наш подход не только эффективен в удалении ненависти, но и может обеспечить понятную информацию о месте ее появления. ## Значимость Полученный подход может применяться в различных областях, включая мониторинг содержимого в социальных сетях, создание безопасного цифрового окружения и улучшение алгоритмов модерации контента. Наш подход имеет несколько преимуществ: он эффектив
Annotation:
The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the ...
ID: 2509.21787v1 cs.CV, cs.CL
Авторы:

Yingjie Zhu, Xuefeng Bai, Kehai Chen, Yang Xiang, Weili Guan, Jun Yu, Min Zhang

#### Контекст Large Vision-Language Models (LVLMs) зарекомендовали себя в решении многообразных задач, включая описание изображений, вопрос-ответ и оценку яркости текста. Однако их устойчивость к пространственным изменениям в изображениях остается недостаточно исследована. Любые изменения места расположения объектов или текста могут привести к разным выводам, даже когда содержание изображения остается неизменным. Это ставит под сомнение надежность текущих моделей в работе со сложными сценариями, где пространственная симметрия играет ключевую роль. Исследование проблемы подлинности и устойчивости моделей к пространственным изменениям является актуальным и необходимым для исправления ограничений и улучшения качества прогнозирования. #### Метод Для изучения проблемы пространственной биаса в LVLMs разработана специальная пробная выборка, в которой изображения отличаются только местом размещения ключевого объекта. Эта методика позволяет сравнить выводы моделей в зависимости от положения объекта в изображении. Технический подход включал анализ поведения моделей с разными стратегиями позиционных эмбеддингов и их влиянием на кросс-модальный синтез. Было проанализировано, как различные реализации позиционных эмбеддингов (например, RoPE) влияют на представление пространственных данных в моделях. Также была разработана новая стратегия, **Balanced Position Assignment (BaPA)**, которая присваивает одинаковые позиционные эмбеддинги всем токенам изображения, чтобы сбалансировать их вклад в кросс-модальный анализ. #### Результаты С помощью пробной выборки было показано, что LVLMs часто дают разные ответы на задачи, где ключевой объект расположен в разных частях изображения. Эксперименты показали, что проблема происходит не из-за визуального режима, который правильно воспринимает объекты независимо от их положения, но из-за несбалансированного обработки позиций в модели языка. Применение BaPA позволило достичь более сбалансированного вклада каждого токена в кросс-модальный анализ, улучшив устойчивость моделей к пространственным изменениям. Было также показано, что BaPA повышает производительность на процессе fine-tuning, улучшая результаты на различных многомодальных задачах. #### Значимость Результаты имеют большое значение для области многомодального моделирования. Благодаря BaPA, LVLMs становятся устойчивее к пространственным изменениям, что позволяет использовать их в приложениях, где важно понимание содержания независимо от места расположения объектов. Это включает такие области, как реалистичное визуальное понимание, синтез видеотекста и вопрос-ответ в сценариях, где изображения и текст имеют сильное пространственное содержание. В будущем
Annotation:
Large Vision-Language Models (LVLMs) have achieved remarkable success across a wide range of multimodal tasks, yet their robustness to spatial variations remains insufficiently understood. In this work, we present a systematic study of the spatial bias of LVLMs, focusing on how models respond when identical key visual information is placed at different locations within an image. Through a carefully designed probing dataset, we demonstrate that current LVLMs often produce inconsistent outputs und...
ID: 2509.21984v1 cs.CV, cs.CL
Авторы:

Junbo Niu, Zheng Liu, Zhuangcheng Gu, Bin Wang, Linke Ouyang, Zhiyuan Zhao, Tao Chu, Tianyao He, Fan Wu, Qintong Zhang, Zhenjiang Jin, Guang Liang, Rui Zhang, Wenzheng Zhang, Yuan Qu, Zhifei Ren, Yuefeng Sun, Yuanhong Zheng, Dongsheng Ma, Zirui Tang, Boyu Niu, Ziyang Miao, Hejun Dong, Siyi Qian, Junyuan Zhang, Jingzhou Chen, Fangdong Wang, Xiaomeng Zhao, Liqun Wei, Wei Li, Shasha Wang, Ruiliang Xu, Yuanyuan Cao, Lu Chen, Qianqian Wu, Huaiyu Gu, Lindong Lu, Keming Wang, Dechen Lin, Guanlin Shen, Xuanhe Zhou, Linfeng Zhang, Yuhang Zang, Xiaoyi Dong, Jiaqi Wang, Bo Zhang, Lei Bai, Pei Chu, Weijia Li, Jiang Wu, Lijun Wu, Zhenxiang Li, Guangyu Wang, Zhongying Tu, Chao Xu, Kai Chen, Yu Qiao, Bowen Zhou, Dahua Lin, Wentao Zhang, Conghui He

## Контекст Область документооборота широко применяется в бизнесе, государственных организациях и исследовательских учреждениях. Однако обработка документов в высоком разрешении чрезвычайно сложна из-за высокой размерности изображений и богатой структуры данных. Существующие модели часто сталкиваются с проблемами эффективности и точности в распознавании сложных структур, таких как таблицы и формулы. Модель MinerU2.5 разработана для устранения этих проблем, предлагая эффективное решение для высококачественной обработки документов в высоком разрешении. ## Метод MinerU2.5 является визионно-языковой моделью с параметрами 1.2 миллиарда, работающей на базе двухэтапной стратегии парсинга: коарсе-то-файн. В первой стадии модель использует обработку на дешевеньких изображениях для выявления крупномасштабных структур, таких как колонки и блоки. Во второй стадии она применяет целевую распознавательную модель к оригинальному разрешению только для нужных отдельных областей. Для обучения и тестирования использовался собственный датасет, созданный на основе многочисленных практических задач документооборота, что обеспечивает модели широкий диапазон ситуаций. ## Результаты Модель была подвергнута тестированию на нескольких репрезентативных бенчмарках, включая PubLayNet, TableBank и FUNSD. Она превзошла другие модели, опередив их в точности распознавания структурных элементов, в том числе таблиц, формул и длинных текстов. Для этого она использует значительно меньшую вычислительную стоимость, обеспечивая высокую производительность и экономию ресурсов. ## Значимость MinerU2.5 может быть применена в различных сферах: от упрощения бизнес-процессов до помощи в обработке научных и медицинских документов. Она оптимальна для сценариев, где требуется высокая точность и эффективность работы с высокоразрешенными документами. Ее использование может снизить затраты на ресурсы и ускорить процессы работы с документами в различных отраслях. ## Выводы MinerU2.5 достигла выдающихся результатов в области распознавания сложных структур документов. Ее двухэтапная стратегия позволила объединить высокую точность с эффективностью. Будущие исследования будут направлены на усовершенствование модели для обработки более сложных сценариев документооборота и расширение ее приложений в различных отраслях.
Annotation:
We introduce MinerU2.5, a 1.2B-parameter document parsing vision-language model that achieves state-of-the-art recognition accuracy while maintaining exceptional computational efficiency. Our approach employs a coarse-to-fine, two-stage parsing strategy that decouples global layout analysis from local content recognition. In the first stage, the model performs efficient layout analysis on downsampled images to identify structural elements, circumventing the computational overhead of processing h...
ID: 2509.22186v1 cs.CV, cs.CL
Авторы:

Debargha Ganguly, Sumit Kumar, Ishwar Balappanawar, Weicong Chen, Shashank Kambhatla, Srinivasan Iyengar, Shivkumar Kalyanaraman, Ponnurangam Kumaraguru, Vipin Chaudhary

## Контекст Одним из ключевых вызовов в области компьютерного зрения является создание высококачественных, доменных датасетов, необходимых для построения точных моделей. Настоящая проблема заключается в том, что поиск, выборка и аннотация данных требуют значительных вложений времени, денег и ресурсов. Традиционно, эти задачи выполняются вручную, что приводит к низкой скорости, неоднородности и недостоверности результатов. Особенно сложной является задача обнаружения редких классов и управления их аннотациями. Для устранения этих проблем необходим автоматизированный подход, который может эффективно обнаруживать, аннотировать и управлять данными на масштабе. Такой подход требует вовлечения интеллектуальных агентов, способных выполнять сложные задачи с высокой точностью и эффективностью. ## Метод "Labeling Copilot" представляет собой прорыв в области агентных систем для автоматизированной датакурэйшен. Он основывается на трех основных модулях: **Calibrated Discovery**, **Controllable Synthesis** и **Consensus Annotation**. Методология основывается на технологиях глубокого обучения, включая многомодальные языковые модели, для выполнения многошагового реактивного решения. **Calibrated Discovery** использует активное обучение для выбора наиболее подходящих данных из больших репозиториев. **Controllable Synthesis** генерирует данные для редких сценариев с использованием современных методов синтеза. **Consensus Annotation** использует несколько моделей для создания точных лейблов, включая методы номинации и голосования. Архитектура агента основывается на трансформерах и многошаговой архитектуре, обеспечивающей высокую пропускную способность и точность. ## Результаты Эксперименты проводились на двух крупных датасетах: COCO и Open Images. **Consensus Annotation** модуль достиг максимальной метрики mean Average Precision (mAP) 37.1% на COCO, почти удвоив количество правильных аннотаций в сравнении с классическими подходами. На Open Images, агент обнаружил 903 новых категорий боксингов, расширив общее количество до 1500, несмотря на высокую неравенство классов. В ходе экспериментов **Calibrated Discovery** эффективно сфокусировался на выборе данных с меньшим количеством вычислительных ресурсов, достигнув эффективности до 40 раз в сравнении с другими методами. Эти результаты демонстрируют высокую эффективность и масштабируемость "Labeling Copilot". ## Значимость "Labeling Copilot" имеет широкие приложения в области компьютерного зрения, в том числе в образовании, медицине, индустрии и автомобильной отрасли. Он обеспечивает более быструю и точную добавку данных, уменьшает трудозатраты и улучшает качество аннотаций. Этот подход позволяет увеличить доступность данных для обучения моделей, что влечет за собой з
Annotation:
Curating high-quality, domain-specific datasets is a major bottleneck for deploying robust vision systems, requiring complex trade-offs between data quality, diversity, and cost when researching vast, unlabeled data lakes. We introduce Labeling Copilot, the first data curation deep research agent for computer vision. A central orchestrator agent, powered by a large multimodal language model, uses multi-step reasoning to execute specialized tools across three core capabilities: (1) Calibrated Dis...
ID: 2509.22631v1 cs.CV, cs.CL
Авторы:

Iñigo Alonso, Imanol Miranda, Eneko Agirre, Mirella Lapata

#### Контекст Табличная информация широко используется в различных областях, включая финансы, научные исследования и бизнес-анализ. Однако автоматическое понимание таблиц, особенно в предметных областях, остается вызовом из-за их сложности, разнообразия и источников. Текущие методы обучения моделей для табличного понимания часто ограничены синтетическими данными, которые некорректно представляют реальных таблиц, или же имеют ограниченный объем и тип задач. Недостаточность реалистичных данных и гибкости в обучении приводит к моделям с недостаточной общностью и надежностью при работе с реальной табличной информацией. #### Метод TABLET — это искусственный, большой набор данных для визуального понимания таблиц, состоящий из 4 миллионов примеров, разбитых на 20 задач, основанных на 2 миллионах уникальных таблиц. Этот набор данных сочетает в себе изображения таблиц и их исходный код HTML, позволяя моделям обучаться в контексте реальных таблиц. Для каждого примера включены метаданные и информация о происхождении, чтобы обеспечить прозрачность и удобство использования. Эта архитектура позволяет моделям обучаться на различных задачах, включая распознавание, классификацию и форматирование таблиц. #### Результаты Исследования показали, что набор данных TABLET позволяет значительно улучшить результаты моделей на табличных задачах, в том числе, увеличивая точность и устойчивость к реальной табличной информации. Он был использован для тренировки существующих моделей, таких как Qwen2.5-VL-7B, и демонстрировал значительный прирост в производительности на обученных и необученных задачах. Данные TABLET также позволяют проводить расширенные эксперименты с различными видом моделей, обеспечивая гибкость и системность в исследованиях. #### Значимость TABLET широко применим в области визуального и табличного понимания, включая приложения в финансовой отчетности, научных исследованиях, бизнес-анализе и даже в образовательных системах. Его преимущество в том, что он предлагает реальные таблицы вместе с их визуальным представлением, что делает его более универсальным и полезным для развития моделей. Благодаря такому подходу модели становятся более надежными и могут применяться в различных реальных ситуациях, где важно понимать табличные данные. #### Выводы TABLET представляет собой новый этап в развитии визуального табличного понимания. Он устанавливает фундамент для более эффективного и гибкого обучения моделей в этой области. Будущие исследования будут сконцентрированы на расширении набора данных, улучшении моделей и применении TABLET в различных сферах, чтобы достичь надежных и реалистичных ре
Annotation:
While table understanding increasingly relies on pixel-only settings where tables are processed as visual representations, current benchmarks predominantly use synthetic renderings that lack the complexity and visual diversity of real-world tables. Additionally, existing visual table understanding (VTU) datasets offer fixed examples with single visualizations and pre-defined instructions, providing no access to underlying serialized data for reformulation. We introduce TABLET, a large-scale VTU ...
ID: 2509.21205v1 cs.CV, cs.CL
Авторы:

Muxin Pu, Mei Kuan Lim, Chun Yong Chong, Chen Change Loy

## Контекст Задача распознавания и понимания сигналов жестов является ключевой областью исследований в сфере обработки естественных языков. Она обладает уникальными свойствами, такими как неизменность внешнего вида исполнителя и устойчивость к фоновым дистакциям. Несмотря на это, обнаруживаются трудности в достижении стабильности и точности, особенно в условиях разнообразных ситуаций и сред. Одним из основных факторов, способствующих этим сложностям, является недостаточность семантического осмысления входных данных, что приводит к проблемам в связи жестов с их лексическим или грамматическим значением. Другие проблемы включают в себя невесомый баланс между локальными деталями и глобальным контекстом, а также неэффективность выработки совместимых представлений для многомодальных задач. Эти проблемы способствуют необходимости в развитии методов, которые могли бы улучшить семантическую осмысленность и контекстуальную связь в процессе обучения. ## Метод Sigma предлагает универсальный подход к работе с сигналами жестов для задач распознавания и понимания жестов. Основная идея заключается в создании полностью взаимосвязанной модели, которая объединяет сопоставление скелетной структуры и текстовых семантических моделей. Метод включает в себя следующие компоненты: 1) **Sign-aware Early Fusion Mechanism**, который объединяет визуальные и текстовые модели на этапе раннего слияния, что позволяет глубокой интеракции между модами. 2) **Hierarchical Alignment Learning**, ориентированный на создание парных репрезентаций на разных уровнях, чтобы обеспечить объединение детализированных деталей и высокоуровневых семантических связей. 3) **Unified Pre-training Framework**, который интегрирует несколько методов обучения, включая contrastive loss, text matching и language modeling, для повышения семантической согласованности и трансферабельности. ## Результаты Эксперименты проводились на нескольких бенчмарках, включающих различные языки жестов и сигналов. Результаты показали, что Sigma превосходит существующие модели на всех задачах: от распознавания изолированных жестов до контрольной цифры и сложных задач перевода без употребления глоссов. Особое внимание уделялось сравнению на двух модах — визуальной и текстовой — и их совместной интеграции. Модель показала значительные улучшения в точности распознавания и целостности семантических представлений, что указывает на повышенную эффективность семантически информативной предварительной обучения. ## Значимость Sigma может быть применена в многочисленных областях, от систем распознавания жестов для специальных назначений до перевода жестов в естественные языки.
Annotation:
Pre-training has proven effective for learning transferable features in sign language understanding (SLU) tasks. Recently, skeleton-based methods have gained increasing attention because they can robustly handle variations in subjects and backgrounds without being affected by appearance or environmental factors. Current SLU methods continue to face three key limitations: 1) weak semantic grounding, as models often capture low-level motion patterns from skeletal data but struggle to relate them t...
ID: 2509.21223v1 cs.CV, cs.CL
Авторы:

Seyed Amir Kasaei, Ali Aghayari, Arash Marioriyad, Niki Sepasian, MohammadAmin Fazli, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban

#################### ## Контекст #################### Современные технологии генерации текста и изображений позволяют создавать новые, сложные композиции, объединяя текстовые описания с изображениями. Однако одной из самых сложных проблем в этой области является эффективное оценивание результатов генерации. Известно, что существуют автоматизированные метрики, которые используются для оценки качества генерируемых образов, но их определенность и точность, как правило, не проверяются на соответствии с реальными жизненными оценками. Это может привести к ошибочным выводам о качестве генерируемых изображений. Статья Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation уделяет внимание этой проблеме, призванной улучшить понимание оценочных метрик и их эффективность. Исследование предлагает систематический анализ и сравнение популярных метрик для текстово-изображенческой генерации, чтобы уточнить, какие из них лучше всего отражают реальные потребности пользователей и жизненные оценки. #################### ## Метод #################### Для анализа использовались широкие данные, включающие как стандартные, так и нестандартные текстовые описания и их изображения. Методология основывалась на сравнении различных оценочных метрик, объединявших различные подходы к оценке текстовых изображений, включая метрики визуального понимания вопросов (VQA), глубинные обученные модели и другие алгоритмы. Исследователи провели эксперименты, которые позволили сравнить различные метрики с различными типами задач генерации и подготовили результаты, отражающие точность и предсказуемость метрик. Набор данных был разделен на подвыборки для специального анализа, чтобы уточнить, как метрики воспринимают ключевые аспекты, такие как композиция, атрибуты и отношения в тексте. #################### ## Результаты #################### Полученные результаты показывают, что ни одна метрика не может соответствовать всем задачам создания текстовых изображений. Например, метрики визуального понимания вопросов (VQA), которые широко применяются, не вы most consistent performance. Однако, некоторые метрики, основанные на векторных представлениях изображений и текстов, показали лучшие результаты в определенных типах задач. Было установлено, что метрики специфичные для визуального описания (image-only metrics) не подходят для оценки композиционных аспектов. Эти метрики ориентированы на перцептивное качество, не сочетающееся с эффективной оценкой композиции. #################### ## Значимость #################### Результаты имеют прямое значение для развития текстово-изображенческой генерации. Изучение эффективных метрик позволяет улучшить методы оценки, что влечет за собой лучшую на
Annotation:
Text-image generation has advanced rapidly, but assessing whether outputs truly capture the objects, attributes, and relations described in prompts remains a central challenge. Evaluation in this space relies heavily on automated metrics, yet these are often adopted by convention or popularity rather than validated against human judgment. Because evaluation and reported progress in the field depend directly on these metrics, it is critical to understand how well they reflect human preferences. T...
ID: 2509.21227v1 cs.CV, cs.CL
Авторы:

Seyed Amir Kasaei, Mohammad Hossein Rohban

## Контекст Область текстово-изображательных (text-to-image, T2I) генерирующих моделей становится все более важной в современных технологиях, особенно в сфере глубокого обучения. Однако существуют затруднения в точном моделировании и оценке этих моделей. Известно, что модели могут генерировать "халлуцинации", то есть содержимое, которое не сводно данным входным, а скорее вытекает из собственных предрассудков или биаса модели. Халлуцинации в текстово-визуальных задачах в основном исследовались в контексте текстово-генерирующих моделей, но их подход не полностью применим к T2I. Основные методы оценки T2I-моделей сейчас ориентированы на проверку выполнения заданий (например, совпадение элементов с заданным в запросе), но не учитывают то, что модель генерирует за пределами запроса. Это ограничение приводит к недостаточной глубине в оценке моделей. Наша мотивация заключается в развитии более информативной стратегии оценки T2I-моделей, которая учитывает все выходы модели, включая халлуцинации. ## Метод Мы предлагаем новую стратегию оценки T2I-моделей, основанную на расширенном понимании халлуцинаций. Халлуцинация в нашем контексте определяется как генерация содержимого, возникающего из модельных предрассудков, без отношения к запросу пользователя. Мы развиваем подробную таксономию халлуцинаций, разделяя их на три категории: халлуцинации атрибутов (например, присвоение характеристик, не описанных в запросе), халлуцинации отношений (например, присвоение логических связей между элементами) и халлуцинации объектов (например, генерация несуществующих объектов). Эта систематизация позволяет формировать "верхний предел" для оценки, так как максимальная халлуцинация может рассматриваться как значительная негативная ошибка модели. Мы также предлагаем методы для измерения халлуцинаций, включая сравнение модельных выходов с базой данных контрольных выпадений. ## Результаты Мы проводим эксперименты с несколькими T2I-моделями, используя разнообразные запросы и базы данных для измерения халлуцинаций. Наши результаты показывают, что существующие модели часто генерируют высокое количество халлуцинаций, что значительно снижает качество их вывода. Мы также проверяем последние модели, включая те, которые используют новые архитектуры и методы обучения, и выявляем, что даже они не могут полностью избежать халлуцинаций. Наши вычисления показывают, что определение верхнего предела халлуцинаций может дать более точную информацию о модельных ошибках, чем традиционные методы. ## Значимость Н
Annotation:
In language and vision-language models, hallucination is broadly understood as content generated from a model's prior knowledge or biases rather than from the given input. While this phenomenon has been studied in those domains, it has not been clearly framed for text-to-image (T2I) generative models. Existing evaluations mainly focus on alignment, checking whether prompt-specified elements appear, but overlook what the model generates beyond the prompt. We argue for defining hallucination in T2...
ID: 2509.21257v1 cs.CV, cs.CL
Авторы:

Zijian Ling, Han Zhang, Yazhuo Zhou, Jiahao Cui

## Контекст Визуально-языковые модели (VLMs) — это мощные инструменты способные работать с текстом и изображениями. Однако они часто сталкиваются с проблемами в сложных визуальных средах, например, при распознавании объектов в условиях помех или в задачах, требующих точного интерпретирования контекста. Одна из таких проблем — распознавание цвета и цифр в ситуациях, подобных ишихаровским тестам по диагностике цветового слепота. Эти тесты представляют собой изображения с цифрами, оформленными таким образом, чтобы люди с цветовым слепом их не могли распознавать. Эта проблема имеет реальное применение в медицинских инстрментах и интерфейсах, где точность интерпретации цветов и цифр критична. "ColorBlindnessEval" — это инновационный бенчмарк, разработанный для оценки творческой стороны VLMs в столкновении с такими тестовыми средами. ## Метод "ColorBlindnessEval" состоит из 500 изображений, стилизованных в стиле Ишихара, где вместо представляемых цифр используются различные цветовые схемы. Это позволяет проверить точность распознавания чисел в условиях сильного визуального шума. Модели оцениваются как с помощью простых "да/нет" запросов, так и с более сложными открытыми вопросами, которые требуют понимания контекста. Для сравнения результатов с людьми проводились эксперименты, в которых участники выполняли тесты с теми же изображениями. Архитектура исследования основывается на сравнении производительности моделей с человеческими результатами, чтобы выявить потенциальные слабые места и ограничения. ## Результаты Эксперименты показали, что даже мощные VLMs страдают от проблем с точностью распознавания в таких сложных условиях. Например, модели показали незначительное превосходство над случайным угадыванием в открытых задачах и часто давали неверные ответы на простые "да/нет" вопросы. В частности, модели часто "видели" цифры, которые не существовали, что называется "халлуцинациями", и пропускали информацию, которая была на самом деле видна. Эти результаты говорят о значительных ограничениях VLMs в обработке цвета и цифр в контексте сильного визуального шума. ## Значимость "ColorBlindnessEval" может применяться в различных областях, где цвет и цифры играют критическую роль, например, в инструментах диагностики, в интерактивных приложениях, и в тестах для людей с ограниченными возможностями. Он позволяет выявлять уязвимости моделей и стимулирует развитие новых методов, которые могут улучшить их точность и надежность. Этот бенчмарк может стать ключевым инструментом для преодоления трудностей в тестировании
Annotation:
This paper presents ColorBlindnessEval, a novel benchmark designed to evaluate the robustness of Vision-Language Models (VLMs) in visually adversarial scenarios inspired by the Ishihara color blindness test. Our dataset comprises 500 Ishihara-like images featuring numbers from 0 to 99 with varying color combinations, challenging VLMs to accurately recognize numerical information embedded in complex visual patterns. We assess 9 VLMs using Yes/No and open-ended prompts and compare their performanc...
ID: 2509.19070v1 cs.CV, cs.CL
Показано 121 - 130 из 185 записей