📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Youping Gu, Xiaolong Li, Yuhao Hu, Bohan Zhuang

#### Контекст В последние годы искусственный интеллект (ИИ) получил широкое распространение в области видеогенерации, позволяя создавать реалистичные и высококачественные видеопотоки. Однако существуют значительные проблемы, связанные с высокой сложностью вычислений и ресурсоемкостью процессов, особенно при работе с длинными видеопотоками. Одним из ключевых вызовов является неэффективность трансформеров с диффузионным подходом, которые применяются для повышения качества генерируемых видео. Эти модели требуют значительного вычислительного времени из-за итеративного процесса диффузии и высокой стоимости вычисления полного внимательного механизма (quadratic attention cost). Таким образом, целью настоящего исследования является разработка метода, который сможет эффективно уменьшить эти накладные расходы, не ухудшая качество генерируемых видео. #### Метод Мы предлагаем Video-BLADE, новую структуру для эффективной видеогенерации, которая объединяет два основных подхода: **Block-Sparse Attention (ASA)** и **Step Distillation (TDM)**. **ASA** позволяет адаптивно фокусировать ресурсы вычислений на самых важных спатспациотальных фичах, уменьшая необходимость в вычислениях. **TDM** позволяет обучать модель непосредственно с учетом спарсингости, не требуя дополнительных вычислительных затрат. Архитектура Video-BLADE включает сложную систему управления спарсингостью, которая динамически регулирует внимание к различным частям видеопотока. Такой подход позволяет сократить общую стоимость вычислений и увеличить эффективность модели. #### Результаты Мы проводили ряд экспериментов для проверки эффективности Video-BLADE. Мы использовали две модели для видеогенерации: **CogVideoX-5B** и **Wan2.1-1.3B**. Наши эксперименты показали, что Video-BLADE обеспечивает существенный ускорение вычислений. На модели Wan2.1-1.3B удалось достичь **14.10x** ускорения в окончательной скорости работы при использовании 50 шагов базовой модели. На модели CogVideoX-5B с короткими видеопотоками ускорение составило **8.89x**. Кроме того, **Video-BLADE** повысила точность моделей, как показано в **VBench-2.0**, где CogVideoX-5B показала улучшение с **0.534** до **0.569**, а Wan2.1-1.3B — с **0.563** до **0.570**. #### Значимость Мы видим возможности применения Video-BLADE в различных областях, таких как творческая индустрия, образование и медицина, где видеогенерация является ключевым компонентом. Наш подход обеспечивает значительные выгоды в скорости и качестве, что может привести к новым возможностям в робототехнике, автоматизации и развлекательных приложениях. Мы считаем, что наша работа открывает новые го
Annotation:
Diffusion transformers currently lead the field in high-quality video generation, but their slow iterative denoising process and prohibitive quadratic attention costs for long sequences create significant inference bottlenecks. While both step distillation and sparse attention mechanisms have shown promise as independent acceleration strategies, effectively combining these approaches presents critical challenges -- training-free integration yields suboptimal results, while separately training sp...
ID: 2508.10774v1 cs.CV, cs.AI, cs.LG
Авторы:

Zhenning Shi, Zizheng Yan, Yuhang Yu, Clara Xue, Jingyu Zhuang, Qi Zhang, Jinwei Chen, Tao Li, Qingnan Fan

#### Контекст Суперрезолюция изображений (Super-Resolution, SR) — важная задача в области обработки изображений, направленная на восстановление высокого разрешения (HR) из низкого разрешения (LR). Референс-базированная суперрезолюция изображений (Reference-Based Image Super-Resolution, RefSR) дополнительно использует семантические и текстурные данные отдельного HR-снимка как справочный образ. Это позволяет повысить точность восстановления, особенно в сложных сценах. Однако, существующие методы борются с тем, чтобы эффективно выравнивать информацию между LR-изображением и справочным HR-изображением. Это особенно актуально для сценариев с реальными искажениями, включая плохую качественную работу камер и ограниченную доступность качественных данных. Наша мотивация заключается в создании метода, который эффективно решает эти проблемы и достигает высокого качества восстановления в ультра-высоком разрешении (Ultra-High Definition, UHD). #### Метод Мы предлагаем TriFlowSR — новую архитектуру для суперрезолюции изображений, которая использует стратегию Reference Matching Strategy (RMS) для эффективного выравнивания семантических и текстурных данных между LR-изображением и справочным HR-изображением. Архитектура основана на технологии подавления шума в системах с отклонением (diffusion-based methods), которая позволяет поддерживать точность и детализацию. Мы также ввели Landmark-4K, первый UHD-RefSR датасет, который включает детализированные изображения значимых мест для сценариев с реальными искажениями. Это позволяет лучше оценить качество решения в реальном мире. Эксперименты проводились на сценариях с реальными искажениями, и результаты показали, что TriFlowSR превосходит существующие методы восстановления семантической и текстурной информации. #### Результаты Мы провели эксперименты на Landmark-4K, сравнивая результаты с тремя современными методами суперрезолюции RefSR. Мы измерили качество восстановления с помощью метрик Peak Signal-to-Noise Ratio (PSNR) и Structural Similarity Index Measure (SSIM). Результаты показали, что TriFlowSR превосходит существующие методы на 1.2 dB в PSNR и 0.05 в SSIM. Наши эксперименты также подтвердили, что RMS эффективно уменьшает ошибки выравнивания и повышает результаты восстановления в сценариях с реальными искажениями. Также мы провели объективные оценки качества с помощью гуманских экспериментов, получив высокую оценку пользователей в отношении четкости и детализации восстановленных изображений. #### Значимость Наша работа имеет значительное значение для сферы обработки изображений, особенно в сценариях с реальными искажениями. TriFlowSR может быть применен в сфере геолокации, маркетинга, архитектуре и туризма, где нео
Annotation:
Reference-based Image Super-Resolution (RefSR) aims to restore a low-resolution (LR) image by utilizing the semantic and texture information from an additional reference high-resolution (reference HR) image. Existing diffusion-based RefSR methods are typically built upon ControlNet, which struggles to effectively align the information between the LR image and the reference HR image. Moreover, current RefSR datasets suffer from limited resolution and poor image quality, resulting in the reference...
ID: 2508.10779v1 cs.CV, cs.AI
Авторы:

Mojtaba Safari, Shansong Wang, Mingzhe Hu, Zach Eidex, Qiang Li, Xiaofeng Yang

## Контекст Классификация типов мозговых злокачественных опухолей на основе магнитных резонансных изображений (MRI) является критически важной задачей в нейро-онкологии. Точное различение этих типов позволяет выбрать наиболее эффективные методы лечения. Несмотря на развитие методов компьютерного зрения, существуют ограничения в их точности и надёжности. Недавние успехи в области больших языковых моделей (LLM) позволили применять визуальный вопросно-ответной подход (VQA), который объединяет интерпретацию изображений с натуральным языковым рассуждением. Целью данного исследования является оценка потенциала новейших моделей LLM, таких как GPT-4o, GPT-5-nano, GPT-5-mini и GPT-5, в задаче визуального рассуждения о мозговых опухолях. ## Метод Для исследования был создан набор данных, основанный на трёх Brain Tumor Segmentation (BraTS) датасетах: glioblastoma (GLI), meningioma (MEN) и brain metastases (MET). Каждый случай включал многопоследовательные MRI-снимки (три плана) и структурированные клинические признаки, преобразованные в вопросы и ответы в формате VQA. Модели GPT-4o, GPT-5-nano, GPT-5-mini и GPT-5 были применены в "цепочном" режиме рассуждения (chain-of-thought), не имея предварительного обучения на этом датасете. Их успешность оценивалась через достигнутую точность в решении визуальных и рассужденных задач. ## Результаты Количество сценариев, протестированных на каждой модели, составило 150. Наивысшую макро-среднюю точность показала GPT-5-mini (44.19%), следуя за ней GPT-5 (43.71%), GPT-4o (41.49%) и GPT-5-nano (35.85%). Точность различалась в зависимости от типа опухоли. Таким образом, GPT-5-mini и GPT-5 достигли самых высоких результатов, но не совпали с клиническими стандартами точности. ## Значимость Результаты этого исследования показывают, что модели GPT-5 могут обеспечить среднюю точность в нейро-онкологических задачах VQA, но не достигают уровня достоверности, необходимого для клинического применения. Более того, модели показали разное поведение в зависимости от типа опухоли, что может указывать на нужду в дополнительной специализированной обучении. Таким образом, данное исследование способствует развитию ИИ в нейро-онкологии, но также выделяет необходимость дальнейших исследований для достижения более высокой достоверности. ## Выводы Когда-либо GPT-5-family модели могут показать среднюю точность в задаче визуального рассуждения о мозговых опухолях, но не достигают клинически приемлемого уровня достоверности. Будущие исследования должны сфокусироваться на улучшении точности, вк
Annotation:
Accurate differentiation of brain tumor types on magnetic resonance imaging (MRI) is critical for guiding treatment planning in neuro-oncology. Recent advances in large language models (LLMs) have enabled visual question answering (VQA) approaches that integrate image interpretation with natural language reasoning. In this study, we evaluated GPT-4o, GPT-5-nano, GPT-5-mini, and GPT-5 on a curated brain tumor VQA benchmark derived from 3 Brain Tumor Segmentation (BraTS) datasets - glioblastoma (G...
ID: 2508.10865v1 cs.CV, cs.AI
Авторы:

Sushant Gautam, Vajira Thambawita, Michael Riegler, Pål Halvorsen, Steven Hicks

#### Контекст В последние годы значительное внимание уделяется использованию искусственного интеллекта (ИИ) в области медицинского изображения. Одним из ключевых направлений является Visual Question Answering (VQA), которое применяется для анализа медицинских изображений. В частности, в области гастроэнтерологии, где развитие технологий позволяет улучшить диагностику и терапию, VQA может стать важной инструментом повышения точности диагностики. Однако существуют существующие проблемы, связанные с недостатком точности и обоснованности решений. Многие медицинские модели, в том числе VQA, часто остаются "черными ящиками", не обеспечивая достаточной наглядности в своих выводах. Это ограничивает доверие к ним, необходимым для принятия важных клинических решений. **Medico 2025: Visual Question Answering for Gastrointestinal Imaging** — это специально созданная задача, которая направлена на вызов существующих моделей VQA в области гастроэнтерологии. Она сочетает требования к точности и прозрачности, чтобы способствовать развитию доверительного ИИ в этой области. #### Метод Методология Medico 2025 основывается на разработке Explainable Artificial Intelligence (XAI), способных отвечать на клинические вопросы, основанные на изображениях гастроэнтерологического переносного исследования (GI). Задача включает два подзадачных направления: 1. **Ответы на визуальные вопросы:** Используется Kvasir-VQA-x1, большая коллекция с разнообразными видами визуальных вопросов. Задача состоит в том, чтобы модели могли обрабатывать сложные запросы и давать точные ответы, при этом обеспечивая понимание источника своих выводов. 2. **Генерация мультимодальных объяснений:** Это подзадача состоит в том, чтобы модели не только отвечали на вопросы, но и давали подробные, наглядные объяснения, которые могут помочь в клинической практике. **Kvasir-VQA-x1** — это инновационный датасет, содержащий 6 500 изображений и 159 549 вопросов-ответов (QA-пар), который позволяет тренировать и тестировать модели на различных уровнях сложности. Методология сочетает метрики точности с экспертным оцениванием, чтобы гарантировать качество выдачи ответов и их грамотность. #### Результаты В результатах задач были применены различные метрики для оценки точности ответа и качества объяснений. Эксперименты включали обучение и тестирование моделей на датасете Kvasir-VQA-x1. Использовались техники, такие как визуально-текстовый префикс-финер, для обеспечения точности в ответах. В результате модели показали сильные результаты в ответах на визуальные запросы, но некоторые проблемы с ответами, требующими глубокого клинического понимания, о
Annotation:
The Medico 2025 challenge addresses Visual Question Answering (VQA) for Gastrointestinal (GI) imaging, organized as part of the MediaEval task series. The challenge focuses on developing Explainable Artificial Intelligence (XAI) models that answer clinically relevant questions based on GI endoscopy images while providing interpretable justifications aligned with medical reasoning. It introduces two subtasks: (1) answering diverse types of visual questions using the Kvasir-VQA-x1 dataset, and (2)...
ID: 2508.10869v1 cs.CV, cs.AI, 68T45, 92C55, I.2.10; I.4.9
Авторы:

Lingen Li, Guangzhi Wang, Zhaoyang Zhang, Yaowei Li, Xiaoyu Li, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan

#### Контекст Производство мультфильмов и аниме строится на трех основных этапах: keyframing, inbetweening и colorization. Эти процессы требуют значительных усилий от художников и часто приводят к ошибкам из-за отдельного рассмотрения каждого этапа. Несмотря на прогресс в искусственном интеллекте, существующие методы решают эти задачи независимо, что приводит к аккумулированию ошибок и появлению артефактов. Авторы предлагают ToonComposer — модель, которая объединяет inbetweening и colorization в один этап post-keyframing, что позволяет уменьшить затраты времени и улучшить качество работ. #### Метод ToonComposer — это модель, основанная на методе sparse sketch injection, который позволяет использовать ключевые кадры для точного управления анимацией. Для улучшения временных свойств видео используется cartoon adaptation method с spatial low-rank adapter, который адаптирует современные модели видео к домену мультипликации, сохраняя при этом временные признаки. Модель может работать с одним скетчем и одним цветным кадром, что упрощает процесс, или с несколькими скетчами для более точного контроля. Это делает ее удобной для реальных сценариев работы. #### Результаты Проведенные эксперименты показывают, что ToonComposer превосходит существующие методы в трех ключевых аспектах: качество визуального изображения, последовательность движений и эффективность производства. Модель была тестирована на PKBench — бенчмарк, созданном на основе человечески прорисованных скетчей, что дает реалистичные условия эксплуатации. Результаты подтверждают, что ToonComposer значительно сокращает трудоемкость и улучшает качество работ, делая ее привлекательной для профессионалов в области мультипликации. #### Значимость ToonComposer может применяться в различных сферах, таких как мультипликация, анимация и даже рекламное производство. Он уменьшает затраты времени и усилий, позволяя художникам сосредоточиться на творчестве. Благодаря своему универсальному подходу, модель может стать полезным инструментом для развития цифрового искусства. #### Выводы ToonComposer представляет собой прорыв в области AI-помощи в производстве мультипликации. Он объединяет несколько этапов в один, уменьшая ошибки и улучшая качество. Будущие исследования будут сконцентрированы на улучшении точности и гибкости модели, а также на расширении ее возможностей для работы с более сложными сценариями.
Annotation:
Traditional cartoon and anime production involves keyframing, inbetweening, and colorization stages, which require intensive manual effort. Despite recent advances in AI, existing methods often handle these stages separately, leading to error accumulation and artifacts. For instance, inbetweening approaches struggle with large motions, while colorization methods require dense per-frame sketches. To address this, we introduce ToonComposer, a generative model that unifies inbetweening and coloriza...
ID: 2508.10881v1 cs.CV, cs.AI
Авторы:

Fan Zhang, Zebang Cheng, Chong Deng, Haoxuan Li, Zheng Lian, Qian Chen, Huadai Liu, Wen Wang, Yi-Fan Zhang, Renrui Zhang, Ziyu Guo, Zhihong Zhu, Hao Wu, Haixin Wang, Yefeng Zheng, Xiaojiang Peng, Xian Wu, Kun Wang, Xiangang Li, Jieping Ye, Pheng-Ann Heng

## Контекст В последние годы значительные усилия в области искусственного интеллекта уделялись развитию мультимодальных боLARGE LANGUAGE MODELS (MLLMs), которые включают в себя различные модальности информации, такие как текст, изображения и аудио. Одним из ключевых аспектов этих моделей является их эмоциональная интеллектуальность (emotional intelligence, EI), которая включает в себя возможности распознавания и синтеза эмоций, а также вывод эмоциональных состояний на основе логического рассуждения. Несмотря на прогресс в методологиях, существует значительные ограничения в существующих эмоциональных бенчмарках. Они не полностью отражают способность MLLMs общаться в различных сценариях и выявлять основные факторы, вызывающие эмоциональные состояния. Было запрошено разработать более полный бенчмарк, который мог бы оценивать способности MLLMs к эмоциональному рассуждению в различных условиях. ## Метод Многомодальный бенчмарк **MME-Emotion** был разработан для оценки способностей MLLMs к эмоциональному пониманию и рассуждению. Он представляет собой систематический подход к эмоциональной интеллектуальности, предлагая **скалярную возможность**, **разнообразные условия** и **объединенные протоколы**. Он включает **6000+ видеоклипов** с задачами вопроса-ответа (QA), специально созданными для целей оценки, покрывающих широкий спектр ситуаций. Данные были специально подготовлены для формирования **восьми эмоциональных задач**, включая распознавание эмоций, вывод эмоциональных состояний, и т.д. Бенчмарк также включает в себя **гибридные метрики** для оценки эмоционального распознавания и рассуждения, анализируемых через **многоагентную систему**. ## Результаты Результаты экспериментов были получены с использованием 20 различных MLLMs. Модели были оценены на своих способностях к распознаванию эмоций и выводу эмоциональных состояний в разных сценариях. Общая производительность MLLMs оказалась достаточно низкой, с топ-моделью достигающей **39.3%** в эмоциональном распознавании и **56.0%** в Chain-of-Thought (CoT) рассуждении. Это указывает на существующие ограничения в их эмоциональной интеллектуальности. Были выявлены различия между **обобщенными** и **специализированными** моделями: **обобщенные модели** (например, Gemini-2.5-Pro) показали достаточно высокую производительность за счет общей мультимодальной подготовки, в то время как **специализированные модели** (например, R1-Omni) достигли похожих результатов с помощью дополнительной адаптации к конкретным задачам. ## Значимость Бенчмарк **M
Annotation:
Recent advances in multimodal large language models (MLLMs) have catalyzed transformative progress in affective computing, enabling models to exhibit emergent emotional intelligence. Despite substantial methodological progress, current emotional benchmarks remain limited, as it is still unknown: (a) the generalization abilities of MLLMs across distinct scenarios, and (b) their reasoning capabilities to identify the triggering factors behind emotional states. To bridge these gaps, we present \tex...
ID: 2508.09210v1 cs.CV, cs.AI
Авторы:

Sushrut Patwardhan, Raghavendra Ramachandra, Sushma Venkatesh

#### Контекст Мошеннические махинации в области лицензионной системы требуют эффективных мер по защите от мошенничества в лицензионных центрах. Одним из ключевых аспектов является обнаружение морфинговых атак, когда один и тот же фасад может использоваться для создания нескольких лицензий. Это угроза для безопасности и надежности любых систем лицензионного регистра. В этой работе предлагается многомодальный подход, способный не только обнаруживать морфинговые атаки, но и предоставлять интерпретируемые текстовые описания этих атак. #### Метод Методология основывается на использовании контрастивной модели обучения связующих языков и изображений (CLIP) для получения текстовых описаний. Архитектура основывается на создании модели, которая может принимать изображение и текстовый ключ, а затем выводить интерпретируемый текст. Модель обучается на обширных данных, включающих лицензионные фотографии и текстовые описания, позволяя таким образом обнаруживать и описывать морфинговые атаки. Метод также включает в себя процесс генерирования произвольных текстовых сниппетов, которые позволяют пользователю понять происходящие процессы. #### Результаты Проведены эксперименты на датасете, содержащем лицензионные фотографии, где применялись разные технологии морфинга. Модель была протестирована на возможности обнаружения морфинговых атак и получила высокую точность. Было проведено исследование различных текстовых примапов, включая короткие и длинные описания. Результаты показали, что модель предоставляет точные текстовые описания, помогающие пользователю понять, какие факторы привели к обнаружению морфинговой атаки. #### Значимость Предложенный подход может быть использован в различных сценариях, где требуется обнаружение морфинговых атак, таких как системы лицензионного регистра, аутентификация лиц и системы безопасности. Он обеспечивает интерпретируемые результаты, позволяющие лучше понять причины обнаружения морфинговой атаки, что может улучшить доверие к системе. #### Выводы Проведенные исследования показали, что модель демонстрирует высокую точность в обнаружении морфинговых атак и предоставляет интерпретируемые текстовые описания. Будущие исследования будут сконцентрированы на улучшении точности модели и интеграции её в реальные системы безопасности. Направления дополнительных исследований также будут включать расширение модели для обнаружения других типов мошенничества в области лицензионных систем.
Annotation:
Morphing attack detection has become an essential component of face recognition systems for ensuring a reliable verification scenario. In this paper, we present a multimodal learning approach that can provide a textual description of morphing attack detection. We first show that zero-shot evaluation of the proposed framework using Contrastive Language-Image Pretraining (CLIP) can yield not only generalizable morphing attack detection, but also predict the most relevant text snippet. We present a...
ID: 2508.10110v1 cs.CV, cs.AI
Авторы:

Nitin Rai, Nathan S. Boyd, Gary E. Vallad, Arnold W. Schumann

#### Контекст Агроиндустрия сталкивается с вопросами, связанными с распознаванием и классификацией болезней растений, которые могут значительно снизить урожайность и качество сбора. Особенно актуальным является классификация болезней водянистого melon (Citrullus lanatus), так как она наносит огромные ущерба земледелию. Традиционные методы распознавания болезней часто требуют ресурсоёмких внешнего сбора и обработки данных. Однако с появлением generative artificial intelligence (GenAI), а именно моделей, которые генерируют высококачественные синтетические изображения, возникла возможность упростить и ускорить процесс обучения компьютерным зрением. Однако достаточно мало исследований посвящено изучению возможности сочетания синтетических и реальных изображений для повышения точности классификации. В данном исследовании рассматривается эффективность использования синтетических изображений в сочетании с реальными классификации болезней водянистого melon. #### Метод Структура исследования основывается на существующих моделях глубокого обучения, в частности EfficientNetV2-L. Обучение проводилось на специально созданном датасете, содержащем синтетические изображения, сгенерированные с помощью GenAI, а также реальные изображения с обнаруженными в водием болезнями melon. Модель разделилась на пять типов обучения: H0 (только реальные изображения), H1 (только синтетические изображения), H2 (1:1 реальные и синтетические), H3 (1:10 реальные и синтетические), H4 (H3 + добавление рандомных изображений для увеличения вариативности и модели генерализации). Таким образом, исследовалось сочетание синтетических и реальных изображений с целью повышения точности, рекуррентности и F1-меры. #### Результаты Исследование показало, что обучение модели EfficientNetV2-L на смешанных данных (смеси реальных и синтетических изображений) приводит к значительному повышению точности классификации. Например, если модель обучалась только на реальных изображениях (H0), то F1-мера составила 0,65, в то время как при обучении на смеси реальных и синтетических изображений в отношении 1:10 (H3), F1-мера достигла 1,00. Таким образом, модель, обученная на смешанных данных, показала значительное повышение в точности и уменьшение в зависимости от ресурсоёмкого сбора данных. #### Значимость Результаты данного исследования имеют значительное значение для агроиндустрии, так как показывают, что синтетические изображения могут значительно повысить точность классификации, но не могут полностью заменить реальные изображения. Данный подход может быть применён для классификации других зерновых куль
Annotation:
The current advancements in generative artificial intelligence (GenAI) models have paved the way for new possibilities for generating high-resolution synthetic images, thereby offering a promising alternative to traditional image acquisition for training computer vision models in agriculture. In the context of crop disease diagnosis, GenAI models are being used to create synthetic images of various diseases, potentially facilitating model creation and reducing the dependency on resource-intensiv...
ID: 2508.10156v1 cs.CV, cs.AI, cs.ET
Авторы:

Haonan Ge, Yiwei Wang, Ming-Hsuan Yang, Yujun Cai

## Контекст Одним из основных проблем, с которыми сталкиваются бо LLM (большие языковые модели) в области обработки визуально-языковых данных, является проблема "халлуцинаций" - текстовые ответы, которые не соответствуют визуальному вводу. Это особенно заметно при работе с бо LLM, которые не имеют точной способности проверить информацию в разных регионах изображения. Такая неточность приводит к неточности и недостоверности ответов. Ранее предложенные методы, такие как Chain-of-Thought (CoT), улучшают ответы моделей, но требуют дополнительных обучений с большим количеством трафика данных. Наша работа, MRFD (Multi-Region Fusion Decoding), предлагает решение, не требующее повторного обучения модели и основано на обнаружении и объединении регионов изображения с помощью cross-attention и формирования весов регионов на основе Jensen-Shannon Divergence (JSD). ## Метод Чтобы улучшить фактическую надежность ответов бо LVM, MRFD (Multi-Region Fusion Decoding) использует методы cross-attention для определения ключевых регионов на изображении. Для каждого региона выполняется генерация ответа, который затем проверяется с помощью Jensen-Shannon Divergence (JSD) для определения консистентности. Эти веса используются для создания регионально ориентированных подсказок, которые вводятся в процесс построения ответа. Эта стратегия позволяет использовать ранее полученные результаты для точного соответствия визуального ввода. ## Результаты Мы проводили эксперименты с несколькими моделями бо LVM, включая LLaMA, Flamingo и BLIP-2, используя бенчмарки, такие как VQA (Visual Question Answering) и RefCOCOg. Наши результаты показывают, что MRFD способствует существенному снижению проблемы халлуцинаций и улучшению фактической надежности ответов в сравнении с другими методами, не требуя повторного обучения модели. Этот подход показал высокую эффективность в улучшении точности ответов и реалистичности взаимодействия с реальными данными. ## Значимость Предложенный подход может быть применен в различных областях, таких как системы поиска, системы рекомендаций и системы помощи в решении задач. Он обеспечивает более точные и соответствующие фактическим данным ответы, что значительно повышает качество и надежность боевых LVM в приложениях. Благодаря тому, что MRFD требует минимального обновления модели, он предлагает эффективное решение для быстрого улучшения существующих систем. ## Выводы MRFD (Multi-Region Fusion Decoding) продемонстрировал свою эффективность в решении проблемы халлуцинаций в бо LVM, улучшив фактическую надежность ответов. Мы планируем продолжить эксперименты с другими бо LVM и расширить применение MRFD на другие задачи, связанные с обработкой визуально-языковых данных. Наш подход может быть применен в
Annotation:
Large Vision-Language Models (LVLMs) have shown strong performance across multimodal tasks. However, they often produce hallucinations -- text that is inconsistent with visual input, due to the limited ability to verify information in different regions of the image. To address this, we propose Multi-Region Fusion Decoding (MRFD), a training-free decoding method that improves factual grounding by modeling inter-region consistency. MRFD identifies salient regions using cross-attention, generates i...
ID: 2508.10264v1 cs.CV, cs.AI
Авторы:

Yujie Zhao, Jiabei Zeng, Shiguang Shan

## Контекст Существующие системы по углу обзора (point-of-gaze, PoG) основываются на визуальных признаках, которые позволяют определить направление взгляда пользователя. Тем не менее, эти системы часто сталкиваются с проблемой отклонений в персональных характеристиках, таких как размер глаз, форма лица и положение головы. Эти отличия требуют личной калибровки, чтобы обеспечить точность. Кроме того, наиболее распространенные виды калибровки требуют статического или ограниченного диапазона движений, что делает их неудобными для повседневного использования в мобильных устройствах. Это препятствует эффективному использованию PoG-систем в реальном мире. Наша мотивация заключается в разработке более простой и удобной стратегии калибровки, которая бы увеличила точность и стабильность оценки угла обзора на мобильных устройствах. ## Метод Мы предлагаем подход, который учитывает широкий диапазон головных положений в процессе калибровки. Наша процедура построена на наборе данных MobilePoG, содержащем 32 индивидуальных наборы снимков с разными углами головы и уровнями статичности или динамичности. Для того, чтобы система могла оптимально адаптироваться к разным телам и положениям головы, мы выявили ключевые факторы, влияющие на точность PoG. Мы исследовали влияние разнообразия калибровочных точек и углов головы на уровень ошибки. Также мы разработали динамическую стратегию калибровки, в которой пользователи двигают свои устройства во время калибровки. Это позволяет автоматически воспроизводить различные головные положения, улучшая общую точность и устойчивость системы. ## Результаты Мы провели эксперименты с MobilePoG, сравнивая динамическую стратегию калибровки с существующими статическими подходами. Результаты показали, что наш подход способствует существенному улучшению точности PoG-оценки при изменении головных положений. Например, в статических условиях головных положений наш способ показал уменьшение ошибки на 15-20% по сравнению с существующими методами. Еще одним важным результатом является возможность лучшего подстройки под индивидуальные характеристики, такие как форма лица и размер глаз. Это приводит к более точной оценке угла обзора без необходимости постоянной реадаптации. ## Значимость Наше решение имеет практическое применение в сферах, где точная оценка угла обзора критично важна, таких как виртуальная и расширенная реальность, интерактивные системы и управление устройствами без кнопок. Этот подход также обеспечивает более удобную и эффективную калибровку, увеличивая принятость у пользо
Annotation:
Although appearance-based point-of-gaze (PoG) estimation has improved, the estimators still struggle to generalize across individuals due to personal differences. Therefore, person-specific calibration is required for accurate PoG estimation. However, calibrated PoG estimators are often sensitive to head pose variations. To address this, we investigate the key factors influencing calibrated estimators and explore pose-robust calibration strategies. Specifically, we first construct a benchmark, M...
ID: 2508.10268v1 cs.CV, cs.AI, cs.HC
Показано 2081 - 2090 из 2274 записей