📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Multi-Sample Anti-Aliasing and Constrained Optimization for 3D Gaussian Splatting

2025-08-16

Авторы:

Zheng Zhou, Jia-Chen Zhang, Yu-Jie Xiong, Chun-Ming Xia

#### Контекст 3D Gaussian splatting — это метод, предназначенный для реализации реалистичного нового вида просмотра в реальном времени. Он основывается на гауссовых функциях для представления объектов и сцен. Несмотря на свои достижения в улучшении качества и эффективности, существуют проблемы, связанные с недостатком геометрических ограничений во время оптимизации сцены. Эти проблемы приводят к размытию тонких деталей, особенно в областях с высокочастотными текстурами и гранями. Это ограничивает применение технологии в реалистичных сценах. Мотивация заключается в развитии нового подхода, который бы устранил эти ограничения, обеспечив более четкое и точное воспроизведение геометрических деталей. #### Метод Мы предлагаем новую оптимизационную модель, которая включает в себя два ключевых компонента. Во-первых, мы используем многообразие семплирования (MSAA), чтобы уменьшить алиасинг, особенно в регионах с высокочастотными текстурами. Во-вторых, вводятся две геометрические ограничения: (a) адаптивная стратегия взвешивания, ориентированная на улучшение реконструкции в упущенных или недостаточно построенных областях, используя динамический анализ градиентов, и (b) ограничения разности градиентов, которые обеспечивают регуляризацию геометрии вдоль краев объектов. Эта система использует выборку четырех подвыборок (quadruple subsamples) для адаптивного смешивания цветов пикселей, чтобы снизить алиасинг. Эта структура оптимизирует распределение ресурсов для регулирования критических областей, необходимых для уточнения, сохраняя глобальную консистентность. #### Результаты Мы проводили ряд экспериментов, используя различные наборы данных и сцен. Наши результаты показали значительные улучшения в задаче воспроизведения деталей, особенно в регионах с высокочастотными текстурами и гранями. Мы использовали метрики, такие как SSIM (Structural Similarity Index) и LPIPS (Learned Perceptual Image Patch Similarity), для оценки качества. В сравнении с базовыми методами, наш подход показал статистически значимые улучшения в SSIM и LPIPS, что указывает на более точное и качественное воспроизведение геометрии. Опытные результаты также подтверждают, что наш метод сохраняет высокую эффективность в реальном времени, не теряя в качестве. #### Значимость Наша работа может применяться в многих областях, таких как виртуальная реальность, игровые искусства, а также в системы автоматического визуализации трёхмерных сцен. Основные преимущества включают улучшение качества воспроизведения деталей, более точное воспроизведение высокочастотных текстур и граней, а так

Annotation:

Recent advances in 3D Gaussian splatting have significantly improved real-time novel view synthesis, yet insufficient geometric constraints during scene optimization often result in blurred reconstructions of fine-grained details, particularly in regions with high-frequency textures and sharp discontinuities. To address this, we propose a comprehensive optimization framework integrating multisample anti-aliasing (MSAA) with dual geometric constraints. Our system computes pixel colors through ada...

ID: 2508.10507v1 cs.CV, cs.AI

arXiv PDF

📄 Med-GLIP: Advancing Medical Language-Image Pre-training with Large-scale Grounded Dataset

2025-08-16

Авторы:

Ziye Deng, Ruihan He, Jiaxiang Liu, Yuan Wang, Zijie Meng, Songtao Jiang, Yong Xie, Zuozhu Liu

## Контекст Исследование связи между языковыми фразами и регионами медицинских изображений, известное как medical image grounding, является ключевым элементом для развития интеллектуальных систем в области медицины. Оно фундаментально важно для задач таких как визуальный анализ, визуальный вопросно-ответный режим (Visual Question Answering, VQA) и автоматическое создание отчетов (Automated Report Generation, ARG). Несмотря на это, существующие исследования сталкиваются с ограничениями в объеме и разнообразии данных, а также с недостатком универсального фреймворка для обработки этих задач. Мотивация для данного исследования заключается в том, чтобы устранить эти ограничения и создать эффективную систему, которая могла бы обрабатывать изображения по сразу нескольким областям и предоставлять точные региональные аннотации. ## Метод Методология исследования основывается на создании большого медицинского датасета, Med-GLIP-5M, включающего 5,3 миллиона записей, касающихся регионов в медицинских изображениях. Данный датасет покрывает семь различных медицинских модалитетов и поддерживает как сегментационные, так и граундингские задачи. Он включает в себя многоуровневые лейблы, которые позволяют отличать заболевания на разных уровнях, от органов до тонкого разбора частных мест. Для решения проблемы недостатка универсальных фреймворков для обработки этих задач, мы предлагаем Med-GLIP, модель, которая воспринимает семантику на разных уровнях гранулярности и может различать между органами и патологическими очагами. ## Результаты В ходе экспериментов, проведенных на Med-GLIP-5M, модель Med-GLIP показала существенное превосходство над текущими стандартными моделями в нескольких задачах граундинга. Она показала высокую точность в нахождении и отделении регионов, даже когда они имели мелкие размеры и были плохо различимы. Были проведены сравнительные тесты со сторо-ны-стандартными моделями, что демонстрирует преимущества Med-GLIP в выделении точных границ регионов на медицинских изображениях. ## Значимость Результаты Med-GLIP могут быть применены в различных областях, таких как визуальный анализ, визуальный вопросно-ответный режим (VQA) и автоматическое создание отчетов (ARG). Модель может существенно повысить точность и уменьшить время, необходимое для выполнения этих задач. Также, Med-GLIP может стать основополагающей системой для разработки более сложных систем в области интеллектуального диагностирования в медицине. ## Выводы Наши исследования показали, что Med-GLIP не только превосходит текущие модели в задачах граундинга, но и может быть использовано для улучшения различных видов работ в медицинско

Annotation:

Medical image grounding aims to align natural language phrases with specific regions in medical images, serving as a foundational task for intelligent diagnosis, visual question answering (VQA), and automated report generation (MRG). However, existing research is constrained by limited modality coverage, coarse-grained annotations, and the absence of a unified, generalizable grounding framework. To address these challenges, we construct a large-scale medical grounding dataset Med-GLIP-5M compris...

ID: 2508.10528v1 cs.CV, cs.AI

arXiv PDF

📄 Retrieval-Augmented Prompt for OOD Detection

2025-08-16

Авторы:

Ruisong Han, Zongbo Han, Jiahao Zhang, Mingyue Cheng, Changqing Zhang

## Контекст Модели машинного обучения часто применяются в средах, где тестирующие данные могут отличаться от обучающих. Это проблема, называемая Out-of-Distribution (OOD) detection, является критической для доверительного использования моделей в реальном мире. Однако, существующие методы OOD-детекции часто сталкиваются с проблемами, такими как ограниченность доступных отклоняющихся примеров (отклоняющихся от основной дистрибутивной нормы) и отсутствие достаточной семантической навигации для их определения. Эти ограничения приводят к пониженной точности в детекции OOD-примеров. Мы предлагаем новую методику, Retrieval-Augmented Prompt (RAP), чтобы улучшить подход к OOD-детекции, используя внешнюю значимость и динамическую адаптацию к тестовым условиям. ## Метод RAP (Retrieval-Augmented Prompt) расширяет текущую модель предложения с помощью внешнего знания, полученного с помощью операции восстановления. Мы вводим два новых компонента: (1) **текстовый восстановитель**, который определяет описательные слова для OOD-примеров на основе внешнего текстового контекста, и (2) **динамическое обновление OOD-предложения**, которое адаптирует модель в реальном времени к тестовым данным. Во время обучения, мы используем внешнюю значимость для повышения семантических характеристик OOD-примеров. Во время тестирования, RAP адаптирует модель, используя уточненные OOD-предложения, чтобы повысить точность детекции. Это сочетание внешних ресурсов и динамической моделирования позволяет RAP оптимизировать OOD-детекцию. ## Результаты Мы проводили эксперименты на нескольких OOD-датасетах, включая ImageNet-1k и CIFAR-100, сравнивая RAP с современными OOD-методами. Результаты показали, что RAP добивается значительных улучшений в OOD-данных. Например, в 1-shot OOD-детекции на ImageNet-1k, RAP снизил Average False Positive Rate at 95% Confidence (FPR95) на 7.05% и повысил AUROC (Area Under the Receiver Operating Characteristic Curve) на 1.71% по сравнению с предыдущими методами. Эти результаты указывают на сильное улучшение RAP в сравнении с современными подходами в области OOD-детекции. ## Значимость Метод RAP может быть применен в различных областях, где существует необходимость в выявлении и отсечении неподходящих данных, включая медицину, финансы и анализ данных в реальном времени. Основные преимущества RAP заключаются в его универсальности, способности адаптироваться к различным задачам и отличной производительности в тестовых условиях. Это может привести к более надежным моделям OOD-детекции в реальных приложениях, улучшая надежность и безопасность систем. ## Выводы Результаты наших исследований подтвер

Annotation:

Out-of-Distribution (OOD) detection is crucial for the reliable deployment of machine learning models in-the-wild, enabling accurate identification of test samples that differ from the training data distribution. Existing methods rely on auxiliary outlier samples or in-distribution (ID) data to generate outlier information for training, but due to limited outliers and their mismatch with real test OOD samples, they often fail to provide sufficient semantic supervision, leading to suboptimal perf...

ID: 2508.10556v1 cs.CV, cs.AI

arXiv PDF

📄 PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks

2025-08-16

Авторы:

Xinhao Wang, Zhiwei Lin, Zhongyu Xia, Yongtao Wang

#### Контекст Современные 3D-перцепшн-задачи, такие как обнаружение объектов, сегментация сцены и прогнозирование оккупантности, требуют высокоточных моделей, которые эффективно работают на устройствах с ограниченными ресурсами. Однако модели сети, обученные с помощью 32-битных точных чисел, требуют необходимости в повышении эффективности. Одним из основных подходов является пост-тренировочная квантизация (PTQ), позволяющая снизить требования к вычислительным ресурсам, но часто приводящая к неприемлемой потере точности. Другой подход — квантизация с подготовкой к тренировке (QAT), которая позволяет сохранить точность, но требует значительных вычислительных затрат и длительного времени тренировки. Эти ограничения вдохновили развитие гибридных подходов, которые объединяют преимущества обеих методик. #### Метод PTQAT — это новый гибридный метод квантизации, основанных на выборе критических слоёв модели, где применяется QAT, а остальные слои — PTQ. Такой подход позволяет минимизировать потерю точности, компенсируя неточности в тех слоях, где они значительнее. За счёт этого можно эффективно использовать QAT для ключевых слоёв, а PTQ для остальных. Этот метод также поддерживает различные бит-скорости квантизации (например, 4 бита) и может применяться к разным архитектурам моделей, включая CNN и Transformer. #### Результаты Проведённые эксперименты показали, что PTQAT позволяет достичь результатов, которые сопоставимы с QAT, но с значительно более высокой эффективностью. Он достигает 0.2%-0.9% роста в наблюдаемой точности (NDS) в задачах обнаружения объектов, 0.3%-1.0% повышения mAP и 0.3%-2.0% повышения mIoU в задачах сегментации сцены и прогнозирования оккупантности. Этот подход также требует меньше весов для тренировки, чем QAT, что делает его более эффективным в плане ресурсов. #### Значимость PTQAT может быть применён в различных 3D-перцепшн-задачах, включая те, что требуют высокой точности и малого расхода ресурсов, такие как автоматизированные системы управления автомобилями и системы видеонаблюдения. Этот подход позволяет эффективно сочетать быструю работу с высокой точностью и гибкостью в использовании различных моделей. Будущие исследования могут быть направлены на расширение поддержки других типов моделей и улучшение точности в сложных сценариях. #### Выводы PTQAT представляет собой эффективный гибридный подход к квантизации моделей 3D-перцепшн, который компенсирует неточности квантизации с помощью целенаправленного применения QAT. Он позволяет достич

Annotation:

Post-Training Quantization (PTQ) and Quantization-Aware Training (QAT) represent two mainstream model quantization approaches. However, PTQ often leads to unacceptable performance degradation in quantized models, while QAT imposes substantial GPU memory requirements and extended training time due to weight fine-tuning.In this paper, we propose PTQAT, a novel general hybrid quantization algorithm for the efficient deployment of 3D perception networks. To address the speed accuracy trade-off betwe...

ID: 2508.10557v1 cs.CV, cs.AI

arXiv PDF

📄 Fourier-Guided Attention Upsampling for Image Super-Resolution

2025-08-16

Авторы:

Daejune Choi, Youchan No, Jinhyung Lee, Duksu Kim

## Контекст Изображение — одна из наиболее информативных форм данных, и его решение приобретает все более высокую значимость в современном мире. Одна из сложностей в обработке изображений — это повышение разрешения (super-resolution), которое требует восстановления финных деталей. Традиционные методы, такие как Sub-Pixel Convolution, неэффективны в восстановлении высокочастотных деталей и могут вводить алиасинг-артефакты. Недостаточное восстановление высокочастотных подробностей искажает реальность, что особенно критично в сферах, таких как медицина, авиация и анализ изображений. Мотивация заключается в разработке более эффективного и точного метода для повышения разрешения, который сочетает высокую точность и низкий расчетный вес. ## Метод Предлагаемый подход, Frequency-Guided Attention (FGA), является легковесным модулем для увеличения разрешения изображений. Он состоит из трех ключевых компонентов: 1. **Fourier Feature-based Multi-Layer Perceptron (MLP):** Этот MLP используется для позиционной кодировки частотных функций, что позволяет модели более точно понимать частотные характеристики изображения. 2. **Cross-Resolution Correlation Attention Layer:** Эта слойная структура адаптивно выравнивает детали в пространстве, что уменьшает алиасинг и повышает точность. 3. **Frequency-Domain L1 Loss:** Он используется для направленного улучшения спектральной согласованности, что обеспечивает более точное восстановление высокочастотных деталей. Такая архитектура демонстрирует способность эффективно использовать ресурсы, добавляя всего 0.3 миллиона параметров к существующим моделям. ## Результаты Исследователи провели эксперименты с FGA на 5 различных моделях для повышения разрешения изображений. Модель добавила 0.3 миллиона параметров и повысила мощность в целом. Она улучшила PSNR на 0.12–0.14 dB по сравнению с оригинальными моделями и повысила точность восстановления высокочастотных деталей на 29% в случае текстурно-богатых изображений. Эксперименты показали, что FGA справляется лучше с техническими артефактами и обеспечивает более точное восстановление финных деталей, особенно на изображениях с многочисленными текстурами. Эти результаты доказывают, что FGA является эффективным и менее ресурсоёмким вариантом по сравнению с традиционными методами. ## Значимость Предлагаемый подход может быть применен в различных областях, включая медицинскую изображейу, видео-анализ и анализ изображений в реальном времени. Он обеспечивает более точное восстановление изображений по сравнению с традиционными методами, что делает его привлекательным для приложений, где точность критична. Одним из основных преимуществ является уменьшение размера мо

Annotation:

We propose Frequency-Guided Attention (FGA), a lightweight upsampling module for single image super-resolution. Conventional upsamplers, such as Sub-Pixel Convolution, are efficient but frequently fail to reconstruct high-frequency details and introduce aliasing artifacts. FGA addresses these issues by integrating (1) a Fourier feature-based Multi-Layer Perceptron (MLP) for positional frequency encoding, (2) a cross-resolution Correlation Attention Layer for adaptive spatial alignment, and (3) a...

ID: 2508.10616v1 cs.CV, cs.AI

arXiv PDF

📄 Serial Over Parallel: Learning Continual Unification for Multi-Modal Visual Object Tracking and Benchmarking

2025-08-16

Авторы:

Zhangyong Tang, Tianyang Xu, Xuefeng Zhu, Chunyang Cheng, Tao Zhou, Xiaojun Wu, Josef Kittler

#### Контекст Современные многомодальные системы визуального слежения (MMVOT) объединяют разные типы технических сенсоров для повышения точности и надежности. Однако существуют ряд проблем, связанных с невозможностью эффективной унификации множества модальностей в обучении. Отсутствие унифицированного бенчмарка и структурированного подхода приводит к несовместимости между обучением и тестированием, что в свою очередь приводит к ухудшению качества. Данная работа направляется на развитие методов, позволяющих устранить эти проблемы, повысить эффективность систем и создать универсальный подход к обучению с множеством модальностей. #### Метод Разработана новая методология, известная как "Serial Over Parallel", предлагающая последовательный процесс обучения для унификации модальностей. Основной идеей является интеграция модальностей поэтапно, чтобы уменьшить нагрузку на систему и избежать проблем связанных с многопараллельными методами. Унификация осуществляется с использованием нового рекордсета UniBench300, который сочетает различные типы данных и сокращает количество проходов для тестирования. Это позволяет уменьшить время работы системы и улучшить ее устойчивость. #### Результаты Проведены тщательные эксперименты с использованием двух базовых моделей и четырех бенчмарков. Наблюдается значительное повышение точности и уменьшение времени обработки. Также установлено, что ухудшение качества отталкивается от сетевой мощности и различий модальностей. Наибольшую проблему имеют модальности RGBD и RGBT, в то время как RGBE показывает менее заметные деградации. Эти результаты дают ценные подсказки для дальнейшего исследования в области многомодальных трекинговых систем. #### Значимость Разработанный подход может быть применен в различных задачах многомодального визуального слежения, таких как трекинг объектов в разнообразных условиях (RGB, D, E). Он предлагает значительные преимущества в скорости и точности выполнения задач, а также позволяет устранять проблемы с несовместимостью данных. Это может повлиять на развитие технологий для систем безопасности, автоматизированных систем и дальнейшего развития многомодальных визуальных систем. #### Выводы Работа представляет собой значительный шаг в области многомодальных трекинговых систем. Она представляет новый подход к унификации модальностей, обеспечивая эффективность и устойчивость. Будущие исследования будут направлены на улучшение методологии и расширение ее приложений в различных сферах.

Annotation:

Unifying multiple multi-modal visual object tracking (MMVOT) tasks draws increasing attention due to the complementary nature of different modalities in building robust tracking systems. Existing practices mix all data sensor types in a single training procedure, structuring a parallel paradigm from the data-centric perspective and aiming for a global optimum on the joint distribution of the involved tasks. However, the absence of a unified benchmark where all types of data coexist forces evalua...

ID: 2508.10655v1 cs.CV, cs.AI

arXiv PDF

📄 AddressVLM: Cross-view Alignment Tuning for Image Address Localization using Large Vision-Language Models

2025-08-16

Авторы:

Shixiong Xu, Chenghao Zhang, Lubin Fan, Yuan Zhou, Bin Fan, Shiming Xiang, Gaofeng Meng, Jieping Ye

#### Контекст Large Visual Language Models (LVLMs) опережают в области coarse-grained geo-localization, но сталкиваются с трудностями при решении fine-grained street-level localization. Эта задача требует точного понимания соответствий между street-view и satellite-view изображениями, чего LVLMs не в состоянии добиться самостоятельно. Это ограничение ограничивает применение LVLMs в ситуациях, требующих точного адресного расположения, таких как городские системы навигации или сервисы доставки. Таким образом, существует необходимость в модели, которая могла бы адекватно работать в этой области, используя микроскопические визуальные сигналы из street-view изображений и макроскопические сигналы из satellite-view изображений. #### Метод Мы предлагаем AddressVLM, модель, которая решает проблему street-view address localization с помощью cross-view alignment tuning. Решение включает два шага: (1) **Cross-View Alignment Tuning**, при котором используется механизм изображения grafting (пересечения изображений) для объединения микро- и макро-сигналов, и (2) **Address Localization Tuning**, нацеленный на обучение модели к адресному расположению. Механизм grafting использует спутниковые изображения в качестве высокоуровневого контекста для street-view изображений. Также предлагается автоматическая механика генерации меток, которая позволяет упростить процесс подготовки данных. Эти компоненты обеспечивают лучшую производительность в сравнении с основными LVLMs. #### Результаты Мы провели эксперименты на двух датасетах street-view VQA, построенных на основе данных street-view image address localization для Pittsburgh и San Francisco. AddressVLM показала существенный прирост в точности адресного расположения, составившую 9% и 12% выше, соответственно, в сравнении с современными LVLMs. Эти результаты подтверждают эффективность использования cross-view alignment tuning и мощности спутникового контекста. Также мы провели анализ точности для различных уровней локализации (от street до city) и показали, что AddressVLM показывает значительный выигрыш в fine-grained scenarios. #### Значимость Модель AddressVLM может применяться в различных сценариях, таких как urban navigation, last-mile delivery, и поиск street-view images на основе адреса. Ее ключевое преимущество заключается в улучшенной точности, полученной благодаря использованию макроскопического контекста и систематичному cross-view alignment tuning. Эта модель также открывает пути для дальнейших исследований в области cross-modal alignment и geo-localization. #### Выводы AddressVLM достигла значительных улучшений в street-view address localization, используя cross-view alignment tuning. Эта модель показывает высокую эффективность в локализации адресов на уровне streets, но имеет потенциал для расширения в другие области geo-localization. Будущие исследования будут сосредоточены на улучшении автоматической механики генерации меток и расширении данных для улучшения производительности на более широкой географической зоне

Annotation:

Large visual language models (LVLMs) have demonstrated impressive performance in coarse-grained geo-localization at the country or city level, but they struggle with fine-grained street-level localization within urban areas. In this paper, we explore integrating city-wide address localization capabilities into LVLMs, facilitating flexible address-related question answering using street-view images. A key challenge is that the street-view visual question-and-answer (VQA) data provides only micros...

ID: 2508.10667v1 cs.CV, cs.AI

arXiv PDF

📄 Hybrid Generative Fusion for Efficient and Privacy-Preserving Face Recognition Dataset Generation

2025-08-16

Авторы:

Feiran Li, Qianqian Xu, Shilong Bao, Boyu Han, Zhiyong Yang, Qingming Huang

## Контекст Проблема эффективности и защиты конфиденциальности в сфере распознавания лиц становится все актуальнее в условиях повышения требований к защите персональных данных и улучшения качества алгоритмов распознавания. Обычно, сбор данных для обучения моделей распознавания лиц требует огромных затрат времени и ресурсов, так как обучающиеся данные должны быть качественными и не должны содержать пересечений с другими общедоступными наборами данных. В этой статье предлагается новая методология, которая позволяет сформировать высококачественный набор данных для распознавания лиц, не имеющий пересечений с существующими общедоступными наборами данных, с минимальными затратами. ## Метод Методология, предложенная в статье, состоит из нескольких ключевых этапов. Сначала проводится чистка базового набора данных HSFace, в ходе которой используется Mixture-of-Experts (MoE) стратегия, которая объединяет кластеризацию объектных признаков и проверку идентификаторов с помощью GPT-4o. Этот подход позволяет удалить неточные идентификаторы и слишком схожие образцы. Далее, для расширения набора данных используется метод Stable Diffusion с помощью продвинутой инженерии запросов, чтобы сгенерировать новые синтетические идентификаторы. Чтобы эффективно расширить сгенерированные образцы, используется Vec2Face, который быстро генерирует различные варианты с признаками согласованности. Наконец, алгоритм использует curriculum learning для обучения модели, начиная с простых примеров и переходя к сложным. Этот подход позволяет достичь высокого качества и разнообразия данных с минимальными затратами. ## Результаты Чтобы продемонстрировать эффективность своего подхода, авторы проводили ряд экспериментов с использованием различных масштабов идентификаторов (10K, 20K, 100K). В результате, их метод показал значительное улучшение показателей распознавания лиц по сравнению с другими методами. Также показано, что сгенерированные данные не имеют пересечений с общедоступными наборами данных, что гарантирует безопасность и защиту конфиденциальности. Эксперименты проводились с использованием стандартных наборов данных, и результаты подтверждают высокую эффективность нового подхода. ## Значимость Предложенный подход имеет широкое применение в сфере лицевого распознавания, где необходимо создавать высококачественные наборы данных для обучения моделей без пересечений с другими наборами. Одним из основных преимуществ этого метода является его эффективность и защита конфиденциальности. Наносимый влияние заключается в том, что построенный набор данных может быть использован в различных задачах, от обычного распознавания лиц до задач

Annotation:

In this paper, we present our approach to the DataCV ICCV Challenge, which centers on building a high-quality face dataset to train a face recognition model. The constructed dataset must not contain identities overlapping with any existing public face datasets. To handle this challenge, we begin with a thorough cleaning of the baseline HSFace dataset, identifying and removing mislabeled or inconsistent identities through a Mixture-of-Experts (MoE) strategy combining face embedding clustering and...

ID: 2508.10672v1 cs.CV, cs.AI

arXiv PDF

📄 EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

2025-08-16

Авторы:

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang

## Контекст Современные Multimodal Large Language Models (MLLMs) показали превосходные результаты в области egocentric video question answering (EgocentricQA). Однако, большинство существующих бенчмарков и исследований ограничены обычными ежедневными задачами, такими как готовка и уборка. В реальных условиях развертывания моделей часто возникают ситуации, когда целевые домены существенно отличаются по визуальному стилю и семантическому содержанию. Это существенно ограничивает общую ценность и применимость этих моделей. Для закрытия этого пробела предлагается EgoCross, новый бенчмарк, созданный для оценки кросс-доменной общности MLLMs в EgocentricQA. EgoCross охватывает четыре различных и сложных домена: сургери, промышленность, экстримные виды спорта и перспективы животных, которые демонстрируют реальные и важные сценарии применения. ## Метод EgoCross состоит из примерно 1,000 QA-пар, разбитых на 798 видео-клипов. Каждая QA-пара представлена в двух форматах: OpenQA и CloseQA. Это позволяет проводить тонкую оценку моделей. Данные покрывают четыре ключевых задачи: прогнозирование, распознавание, локализация и счет. Архитектура EgoCross предназначена для тестирования кросс-доменной общности MLLMs, обеспечивая набор сложных и реалистичных сценариев для оценки. ## Результаты Расширенные эксперименты показали, что большинство существующих MLLMs, включая те, что специализируются на egocentric video, сталкиваются с проблемами при обобщении на домены, отличные от ежедневных задач. Это подтверждает существующие ограничения моделей в области кросс-доменного понимания. Также проведены пилотные исследования, такие как fine-tuning и reinforcement learning, для поиска новых подходов к улучшению моделей в таких сложных сценариях. ## Значимость EgoCross предлагает новый подход к оценке кросс-доменного понимания в EgocentricQA, что делает его ценным для развития моделей в реальных условиях. Он может применяться в области видео-анализа в сферах, таких как медицина, промышленность, и спорт. Его преимущество заключается в том, что он мотивирует развитие моделей, которые могут быть более устойчивыми и адаптивными к различным доменам, необходимым для практического применения. ## Выводы EgoCross представляет собой ключевой шаг в развитии кросс-доменного понимания в EgocentricQA. Он подчеркивает необходимость развития моделей, которые могут действовать в различных доменах. Будущие исследования будут сфокусированы на улучшении моделей, используя такие методы, как reinforcement learning и другие, для достижения более высокой точности и общей ценности в кросс-доменной EgocentricQA.

Annotation:

Recent advances in Multimodal Large Language Models (MLLMs) have significantly pushed the frontier of egocentric video question answering (EgocentricQA). However, existing benchmarks and studies are mainly limited to common daily activities such as cooking and cleaning. In contrast, real-world deployment inevitably encounters domain shifts, where target domains differ substantially in both visual style and semantic content. To bridge this gap, we introduce \textbf{EgoCross}, a comprehensive benc...

ID: 2508.10729v1 cs.CV, cs.AI

arXiv PDF

📄 AEGIS: Authenticity Evaluation Benchmark for AI-Generated Video Sequences

2025-08-16

Авторы:

Jieyu Li, Xin Zhang, Joey Tianyi Zhou

## Контекст Современные достижения в области искусственного интеллекта привели к созданию высокореалистичных синтетических видео, которые могут нарушать цифровую интегритет и доверие к информационным источникам. Отсутствие эффективных методов оценки целостности и аутентичности таких видео становится критическим проблемом. Большинство существующих бенчмарков для оценки аутентичности видео не подходят для современных визуально-языковых моделей, так как отсутствует достаточно высокий уровень реализма, масштаб и сложность. Для решения этой проблемы мы предлагаем AEGIS – новую большую коллекцию для оценки целостности видео, созданную специально для эффективного тестирования современных моделей. ## Метод AEGIS состоит из более чем 10 000 видео, созданных различными современными моделями генерации, такими как Stable Video Diffusion, CogVideoX-5B, KLing и Sora. Эти модели отличаются тем, что они используют разные архитектуры и исходные данные. Бенчмарк включает проверенные реальные видео и синтетические, которые были специально подготовлены для комплексной оценки. Дополнительно, мы предоставили подробные мультимодальные аннотации, такие как Semantic-Authenticity Descriptions, Motion Features и Low-level Visual Features, что позволяет углубиться в анализ технических характеристик видео. ## Результаты Мы проводили эксперименты с использованием визуально-языковых моделей, таких как CLIP и BLIP. Эксперименты показали, что существующие модели сталкиваются с трудностями при оценке самых сложных видео с большим числом семантических особенностей. В частности, новые синтетические видео, включенные в AEGIS, демонстрируют возможности современных моделей синтеза видео, что подтверждает необходимость развития более надежных методов. ## Значимость AEGIS может использоваться во многих областях, таких как мониторинг массовых синтезированных контентов, идентификация фальшивых видео, а также для проведения исследований в области аутентичности видео. Наш бенчмарк предоставляет новые возможности для развития методов и алгоритмов, способных эффективно противостоять новым тенденциям в добавлении фальшивости в видео. В дополнение, мы раскрываем новые вызовы и потенциальные направления для развития моделей, которые должны быть более общеуниверсальными и устойчивыми к различным типам подделки. ## Выводы AEGIS закладывает основу для развития новых методов оценки видеоаутентичности, которые могут стать базой для развития технологий, направленных на защиту от синтетических подделок. Наш бенчмарк является важной инновацией в области обеспечения цифровой безопасности и

Annotation:

Recent advances in AI-generated content have fueled the rise of highly realistic synthetic videos, posing severe risks to societal trust and digital integrity. Existing benchmarks for video authenticity detection typically suffer from limited realism, insufficient scale, and inadequate complexity, failing to effectively evaluate modern vision-language models against sophisticated forgeries. To address this critical gap, we introduce AEGIS, a novel large-scale benchmark explicitly targeting the d...

ID: 2508.10771v1 cs.CV, cs.AI

arXiv PDF

1
2
206
207
208
209
210
227
228

Показано 2071 - 2080 из 2274 записей