📚 Саммари научных статей из arXiv

Найдено 358 результатов по запросу 'cs.CV, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 EdiVal-Agent: An Object-Centric Framework for Automated, Scalable, Fine-Grained Evaluation of Multi-Turn Editing

2025-09-19

Авторы:

Tianyu Chen, Yasi Zhang, Zhi Zhang, Peiyu Yu, Shu Wang, Zhendong Wang, Kevin Lin, Xiaofei Wang, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Jianwen Xie, Oscar Leong, Lijuan Wang, Ying Nian Wu, Mingyuan Zhou

## Контекст Инструкционно-ориентированное изображение редактирование набирает огромную популярность, но до сих пор остается жизненно важной проблемой полноценное и интерпретируемое оценивание. Существующие методы оценки изображений либо (i) требуют использования точных сравнительных примеров (аналогичных фреймворкам с параллельными тестами), но они имеют ограниченную область применения и биазы от генерируемых моделей, либо (ii) полагаются на нуль-шот виджон-лингвистические модели (VLMs), которые страдают ненадежностью в оценке контентной согласованности, инструкционного соответствия и визуального качества. Разработаны множество новых моделей редактирования, но нет единого, многофункционального фреймворка для точной и гибкой оценки. Мы предлагаем EdiVal-Agent, многофункциональный фреймворк для оценки нового поколения редактирования, который может эффективно анализировать точность и качество редактирования, основываясь на визуальных и семантических признаках. ## Метод EdiVal-Agent представляет собой объектно-центрическую систему для автоматической, масштабируемой и точной оценки редактирования в многошаговом режиме. Строится она на трех основных модулях: (i) декомпозиции изображения на семантические объекты, (ii) генерации контекстно-зависимых инструкций для редактирования и (iii) оценка согласованности формируемого контента, следования инструкциям и визуального качества. Для оценки подчиняется инструкционным моделям с открытым словарем, специально для онтологического понимания и оценки объекта. Для оценки согласованности используется семантический анализ, а для визуального качества — модели предпочтений человека. Модульный подход позволяет плавным интегрированию новых инструментов для улучшения точности и глубины оценки. ## Результаты Мы проверили EdiVal-Agent на 11 моделях редактирования (включая Nano Banana, GPT-Image-1) и 9 типов инструкций в редактировании. Результаты показывают, что наша система предоставляет более адекватные оценки по сравнению с линейным тестированием с параллельными примерами. Данные оценки показали, что оценка согласованности использующихся визуальных моделей с объектно-центричными моделями дает более высокую согласованность с человеческими оценками. Благодаря этому, EdiVal-Agent помогает выявлять проблемы в существующих редактированиях и указывает на пути улучшения моделей в будущем. ## Значимость Мы предлагаем EdiVal-Agent как многофункциональный фреймворк для оценки новых моделей редактирования, который может быть применен в различных сферах, включая искусственные изображения, визуа

Annotation:

Instruction-based image editing has advanced rapidly, yet reliable and interpretable evaluation remains a bottleneck. Current protocols either (i) depend on paired reference images -- resulting in limited coverage and inheriting biases from prior generative models -- or (ii) rely solely on zero-shot vision-language models (VLMs), whose prompt-based assessments of instruction following, content consistency, and visual quality are often imprecise. To address this, we introduce EdiVal-Agent, an a...

ID: 2509.13399v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 MapAnything: Universal Feed-Forward Metric 3D Reconstruction

2025-09-19

Авторы:

Nikhil Keetha, Norman Müller, Johannes Schönberger, Lorenzo Porzi, Yuchen Zhang, Tobias Fischer, Arno Knapitsch, Duncan Zauss, Ethan Weber, Nelson Antunes, Jonathon Luiten, Manuel Lopez-Antequera, Samuel Rota Bulò, Christian Richardt, Deva Ramanan, Sebastian Scherer, Peter Kontschieder

#### Контекст В последние годы третье измерение стало одной из направленностей развития визуальных технологий. Одним из основных задач является реконструкция трехмерных сцен с помощью различных входных данных, включая изображения, геометрические данные и даже частичные реконструкции. Несмотря на развитие специализированных моделей для отдельных задач, таких как однокамерная глубинная оценка или структура из движения, не получилось создать универсальную модель, которая могла бы объединить в себе все эти задачи. Наша модель MapAnything рассчитана на решение этой проблемы и представляет собой универсальную трансформер-базированную модель, которая вместо разметки в 3D в реальном времени выводит метрическую геометрию трехмерной сцены и камеры. #### Метод MapAnything является трансформер-базированной моделью, которая принимает в качестве входных данных изображения, а также геометрические данные, такие как камерные интринсики, позы, дальности и частичные реконструкции. Основная идея заключается в том, чтобы использовать факторизованное представление много birds-eye-view-geometries, которое включает в себя не только глубинные карты, но и локальные карты лучей, камерные позы, а также метрический коэффициент масштабирования. Это позволяет модели MapAnything переходить от локальной реконструкции к глобальной, сохраняя метрическую консистентность. Модель поддерживает широкий спектр входных данных и может работать с несколькими изображениями, что делает её универсальной и перспективной в разных областях 3D-визуализации. #### Результаты Проведенные эксперименты показали, что MapAnything может решать широкий спектр задач в области 3D-визуализации, включая однокамерный depth estimation, структуру из движения, камерную локализацию и другие. Мы проводили тесты на различных датасетах, включающих KITTI, SUN RGB-D и другие. Результаты показали, что MapAnything не только достигает высокого качества решения отдельных задач, но и превосходит специализированные модели, в то же время обладая более эффективным обучением. Наши эксперименты показали, что модель способна выполнять различные задачи 3D-визуализации в меньший срок и с меньшим потреблением ресурсов, чем специализированные модели. #### Значимость Модель MapAnything имеет широкие возможности в области 3D-визуализации. Она может применяться в различных областях, таких как интерактивные системы, виртуальная и реальность, компьютерное зрение и геолокация. Модель значительно упрощает процесс 3D-реконструкции, предоставляя возможность решать различные задачи в области трехмерного видения в одном простом и универсальном решении. Это не только

Annotation:

We introduce MapAnything, a unified transformer-based feed-forward model that ingests one or more images along with optional geometric inputs such as camera intrinsics, poses, depth, or partial reconstructions, and then directly regresses the metric 3D scene geometry and cameras. MapAnything leverages a factored representation of multi-view scene geometry, i.e., a collection of depth maps, local ray maps, camera poses, and a metric scale factor that effectively upgrades local reconstructions int...

ID: 2509.13414v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 ColonCrafter: A Depth Estimation Model for Colonoscopy Videos Using Diffusion Priors

2025-09-19

Авторы:

Romain Hardy, Tyler Berzin, Pranav Rajpurkar

## Контекст Колонкоскопии — это важный метод диагностики и мониторинга заболеваний кишечника, но существуют значительные проблемы в том, чтобы получить трехмерную (3D) сцену из двухмерных (2D) видеопотоков. Автоматизированные системы для построения 3D моделей кишечника могут существенно повысить точность диагностики и хирургических операций. Однако существующие модели для подсчета глубины в видео содержат ошибки во временной консистенции, что не позволяет использовать их для полноценного 3D-реконструкции. Мы предлагаем ColonCrafter, модель, основанную на диффузионной распространенности, которая создает временно консистентные карты глубины из монокулярных видео. Метод ориентируется на улучшение результатов в 3D-реконструкции, предлагая максимально точную модель для клинических целей. ## Метод ColonCrafter основывается на использовании диффузионных моделей и синтетических сигналов. Мы обучаем модель с помощью синтетических видео-потоков, которые затем используются для воспроизведения временно консистентных карт глубины. Мы также предлагаем новую технику стилизации, которая позволяет применить данную модель для реальных клинических видео. Модель преобразовывает видео в отдельные кадры, а затем применяет нашу диффузионную модель, чтобы вычислить глубину каждого кадра. Это позволяет получить временно консистентные данные, необходимые для полноценной 3D-реконструкции. ## Результаты Мы проверили ColonCrafter на датасете C3VD, сравнив его с двумя типами моделей: общего назначения и специально разработанных для колонкоскопии. ColonCrafter достиг самых высоких результатов в тестировании zero-shot, показав лучшие результаты в надежности и точности. Наши результаты показали, что модель может производить временно консистентные карты глубины, которые являются ключевыми для применения в 3D-реконструкции. Мы также продемонстрировали, что модель может генерировать точные 3D-точечные модели и оценивать покрытие поверхности, что делает её полезной для клинических применений. ## Значимость Наша модель может быть применена в клинических условиях для улучшения 3D-реконструкции кишечника. В отличие от других моделей, ColonCrafter позволяет получить более точные результаты в 3D-моделировании, что может существенно повысить точность диагностики и планирования хирургических операций. Кроме того, наша модель может использоваться для оценки покрытия поверхности и построения точечных моделей, что делает её универсальной и привлекательной для развития новых методов в современной медицине. ## Выводы Мы представили ColonCrafter, модель, которая установила новый стандарт в подсчете глубины в колонкоскопии. Мы

Annotation:

Three-dimensional (3D) scene understanding in colonoscopy presents significant challenges that necessitate automated methods for accurate depth estimation. However, existing depth estimation models for endoscopy struggle with temporal consistency across video sequences, limiting their applicability for 3D reconstruction. We present ColonCrafter, a diffusion-based depth estimation model that generates temporally consistent depth maps from monocular colonoscopy videos. Our approach learns robust g...

ID: 2509.13525v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment

2025-09-19

Авторы:

Elena Camuffo, Francesco Barbato, Mete Ozay, Simone Milani, Umberto Michieli

## Контекст На данный момент, видение и язык широко используются в различных приложениях, от распознавания объектов до генерации описаний изображений. Однако существуют значительные проблемы в синхронизации этих двух сфер. Например, визуальные модели часто не могут точно передать контекст и семантические отношения между объектами, что приводит к ошибкам в детектировании интересующих объектов. На стороне языка, текстовые модели требуют больших вычислительных ресурсов и не всегда эффективны в реальном времени. Мотивацией для разработки MOCHA (Multi-modal Objects-aware Cross-arcHitecture Alignment) является создание метода, который бы объединил преимущества визуальных и языковых моделей, обеспечив эффективную передачу семантических отношений между объектами в реальном времени. ## Метод MOCHA (Multi-modal Objects-aware Cross-arcHitecture Alignment) представляет собой метод знаний о взаимодействии визуальных и языковых моделей, который передает семантические отношения между объектами из визуальных моделей в модели языка. Основная идея заключается в том, чтобы привести функции объектов в универсальную форму, которую могут понимать обе модели. Для этого используется модуль перевода, который преобразует локальные функции объектов в глобальную структуру, где модель языка может использовать эти отношения для более точного детектирования. Эта модель работает с объектами на разных уровнях и не требует текстового ввода при интерпретации. Метод оптимизируется с помощью двойного функционала потерь, который включает в себя локальный и глобальный аспекты. ## Результаты В ходе экспериментов MOCHA была протестирована на четырьмя персонализированными детектированиями в режиме небольших обучений. Она показала существенные выигрыши по сравнению с традиционными методами. Например, в тестах под условиями небольших обучений, MOCHA показала увеличение точности на 10.1% по сравнению с базовыми моделями. Она также достигла результатов, которые совпадают с результатами более крупных моделей, несмотря на то, что имеет компактную архитектуру. Это доказывает возможность её использования в реальных сценариях, где необходима эффективность и точность. ## Значимость MOCHA может применяться в различных областях, включая распознавание объектов, синтез описаний изображений, и даже в системах, требующих реального времени детектирования. Её преимущество заключается в том, что она может эффективно передавать семантические отношения между объектами, не требуя текстового ввода во время интерпретации. Это делает её подходящей для приложений, которые требуют высокой производительности

Annotation:

We introduce MOCHA (Multi-modal Objects-aware Cross-arcHitecture Alignment), a knowledge distillation approach that transfers region-level multimodal semantics from a large vision-language teacher (e.g., LLaVa) into a lightweight vision-only object detector student (e.g., YOLO). A translation module maps student features into a joint space, where the training of the student and translator is guided by a dual-objective loss that enforces both local alignment and global relational consistency. Unl...

ID: 2509.14001v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 GhostNetV3-Small: A Tailored Architecture and Comparative Study of Distillation Strategies for Tiny Images

2025-09-18

Авторы:

Florian Zager, Hamza A. A. Gardi

#### Контекст Постепенное развитие глубоких нейронных сетей (DNN) позволило достичь выдающихся результатов во многих областях, но их высокая сложность и требования к вычислительным ресурсам ограничивают их применение на устройствах с ограниченными мощностями. Это особенно актуально для задач распознавания изображений, где необходимо обеспечить высокую точность с минимальными затратами. Например, в случае малых разрешений изображений (например, на CIFAR-10), существующие модели часто неэффективны. Кроме того, существует необходимость найти более эффективные стратегии оптимизации моделей, такие как компрессия и интеллектуальное преобразование, для достижения более высокой производительности на таких устройствах. #### Метод Для решения проблемы неэффективности моделей на ресурс-ограниченных устройствах, мы разработали GhostNetV3-Small — упрощенный вариант архитектуры GhostNetV3, приспособленный для работы на малых разрешениях. Это достигнуто за счет модификации основных компонентов архитектуры и адаптации ее для эффективной обработки небольших изображений. Для повышения точности использованы различные методы оптимизации, включая классическую методику знаний, метод с использованием "учеников-посредников" и метод с использованием "преподавательских коллективов". Мы провести эксперименты на CIFAR-10, чтобы проанализировать эффективность каждого подхода. #### Результаты В ходе экспериментов на CIFAR-10, GhostNetV3-Small достиг точности 93.94%, что значительно превосходит результаты оригинальной архитектуры. Однако наши эксперименты показали, что все исследуемые методы компрессии, включая классическую методику знаний, метод с учениками-посредниками и метод с преподавательскими коллективами, привели к уменьшению точности в сравнении с базовым техническим решением. Эти результаты подчеркивают значительное влияние архитектурных изменений по сравнению с интеллектуальными стратегиями оптимизации в случае малых разрешений изображений. #### Значимость Результаты этих исследований имеют важное значение для развития моделей, оптимизированных для работы на малых устройствах. Наша модификация GhostNetV3-Small может быть применена в таких областях как мобильные приложения, IoT-устройства и системы с ограниченными вычислительными ресурсами. Это доказывает, что архитектурные изменения могут быть более эффективными, чем сложные стратегии оптимизации в случае работы с малыми разрешениями. Будущие исследования могут сфокусироваться на создании более эффективных методов оптимизации моделей для таких задач. #### Выводы Мы представили GhostNetV3-

Annotation:

Deep neural networks have achieved remarkable success across a range of tasks, however their computational demands often make them unsuitable for deployment on resource-constrained edge devices. This paper explores strategies for compressing and adapting models to enable efficient inference in such environments. We focus on GhostNetV3, a state-of-the-art architecture for mobile applications, and propose GhostNetV3-Small, a modified variant designed to perform better on low-resolution inputs such...

ID: 2509.12380v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 MFAF: An EVA02-Based Multi-scale Frequency Attention Fusion Method for Cross-View Geo-Localization

2025-09-18

Авторы:

YiTong Liu, TianZhu Liu, YanFeng GU

#### Контекст **Cross-view geo-localization** — это задача определения географического положения картинки, спутникового изображения или другого изображения, применяясь к галерее похожих изображений. Она сильно ограничена внешними факторами, такими как переменные точки зрения, изменения освещения, интерфейсные факторы. Эти факторы сильно затрудняют выделение достаточно дискриминативных признаков. Существующие решения часто опираются на сегментацию фичи из карты признаков или использование однородных моделей, не учитывая корреляцию между различными частотными особенностями и пространственным контекстом. В этой работе мы предлагаем новую модель, MFAF, которая адресует эти проблемы. #### Метод Методология MFAF основана на **EVA02** (Efficient Vision Transformer) и включает два основных модуля: **Multi-Frequency Branch-wise Block (MFB)** и **Frequency-aware Spatial Attention (FSA)**. **MFB** — это блок, который способен выделять **логические фичи (low-frequency)** и **крайности (high-frequency)** на разных уровнях масштаба. Это позволяет добиться более стабильных и точных представлений признаков. Затем **FSA** множественным образом адаптирует внимание к определенным частям частотных фичей, сильно уменьшая шум и влияние вариабельного зрения. Эти модули формируются в интегрированную систему с EVA02, чтобы повысить точность и качество локализации. #### Результаты Мы проверили MFAF на нескольких стандартных датасетах: **University-1652**, **SUES-200** и **Dense-UAV**. Эксперименты показали, что наша модель показывает высокую точность в **cross-view geo-localization** и **drone localization/navigation** задачах. Мы сравнили результаты с популярными методами (например, GF-Net, ST-Net) и установили, что **MFAF** показывает значительные преимущества в объеме деталей, локальной точности и устойчивости в условиях переменных точек зрения. #### Значимость Метод MFAF имеет широкие **применения в области геолокации**, **робототехники** и **аэронавигации**. Он позволяет повысить уровень точности и устойчивости в условиях сложной визуальной среды. Наши достижения включают новую архитектуру с возможностью **мощного внимания к частотам** и **многоуровневым представлениям**, что может способствовать развитию моделей geo-localization в будущем. #### Выводы Мы предложили MFAF — мощный метод для решения задач **cross-view geo-localization**, основанный на EVA02. Метод доказал высокую эффективность, благодаря интеграции **MFB** и **FSA**, обеспечивающей более детальное и устойчивое описание фичей. Мы планируем дальнейшие исследования, включая улучшение моделей для работы в разных условиях визуального восприятия.

Annotation:

Cross-view geo-localization aims to determine the geographical location of a query image by matching it against a gallery of images. This task is challenging due to the significant appearance variations of objects observed from variable views, along with the difficulty in extracting discriminative features. Existing approaches often rely on extracting features through feature map segmentation while neglecting spatial and semantic information. To address these issues, we propose the EVA02-based M...

ID: 2509.12673v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection

2025-09-18

Авторы:

Boyu Han, Qianqian Xu, Shilong Bao, Zhiyong Yang, Sicong Li, Qingming Huang

## Контекст В современной аналитике данных, определение ошибочных действий пользователя с помощью видеоданных получает все большее внимание. Особенно актуальным становится выявление недостатков при выполнении рутинных задач, когда ошибки часто являются неочевидными и редкими. Одной из трудностей в этой области является неизбежное несбалансированное распределение классов, когда редкие ошибки скрываются под значительным количеством нормальных действий. Модели, использующие стандартные кросс-энтропийные функции потерь, часто не могут эффективно справиться с этой проблемой, что приводит к недостаточной качественной оценке редких классов. Наша мотивация заключается в разработке метода, который при sota будет обеспечивать точную оценку редких ошибочных действий. ## Метод Мы предлагаем Dual-Stage Reweighted Mixture-of-Experts (DR-MoE), который состоит из двух этапов: 1. **Формирование экспертных модулей**: - В первом этапе используется модель ViViT, которая в качестве фиксированного эксперта забирает фичу из видеоданных. Дополнительно, эта модель подвергается LoRA-тюнингу для улучшения точности в сложных условиях. - Две полученные многомерные матрицы-выхода объединяются в feature-level expert module, который обеспечивает взаимодействие этих слоёв. 2. **Обучение классификаторов**: - На втором этапе обучаются три классификатора, каждый с весовым потерям: - **Reweighted Cross-Entropy Loss** — для уменьшения несбалансированности классов. - **AUC Loss** — для улучшения точности ранжирования, особенно при неравномерных данных. - **Label-Aware Loss with Sharpness-Aware Minimization** — для повышения калибровки и общей устойчивости. - Результаты этих классификаторов объединяются в classification-level expert module, который устанавливает окончательный вывод. ## Результаты Мы проверили DR-MoE на двух наборах данных: EPIC-KITCHENS-100 и EGTEA Gaze+. Оценивались классические метрики, такие как точность (accuracy), F1-меры, AUC-ROC и mAP. Наша модель показала значительные улучшения в сравнении со стандартными моделями, особенно в области редких и амбигуирующих ошибочных действий. Дополнительно, мы проверили чувствительность DR-MoE к изменениям в весах в блоках expert module, подтвердив её устойчивость. Наши результаты показали, что DR-MoE превосходит текущие модели в задачах с пониженной классовой дисбалансировкой. Код доступен по ссылке: [https://github.com/boyuh/DR-MoE](https://github.com/boyuh/DR-MoE). ## Значимость DR-MoE может быть применено в различных областях, где требуется точное выявление редких ошибок, например, в мониторинге производительности в промышленных задачах, робототехнике и медицине. Оно предлагает значительные преимущества в отношении

Annotation:

In this report, we address the problem of determining whether a user performs an action incorrectly from egocentric video data. To handle the challenges posed by subtle and infrequent mistakes, we propose a Dual-Stage Reweighted Mixture-of-Experts (DR-MoE) framework. In the first stage, features are extracted using a frozen ViViT model and a LoRA-tuned ViViT model, which are combined through a feature-level expert module. In the second stage, three classifiers are trained with different objectiv...

ID: 2509.12990v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation

2025-09-18

Авторы:

Hugo Carlesso, Josiane Mothe, Radu Tudor Ionescu

#### Контекст Обработка спутниковых изображений в спектральном диапазоне требует высокой эффективности, поскольку спутники обычно ограничены в скорости передачи данных и мощности вычислений. Для этих задач требуются модели, которые могут обрабатывать большие объемы данных с минимальными затратами ресурсов. Однако существующие модели не всегда приспособлены для этих условий, так как требуют особых усилий для оптимизации. Большинство существующих подходов к обучению самостоятельно (self-supervised learning) строятся на двух отдельных задачах: пространственной и спектральной разметке. Это приводит к нерентабельному использованию ресурсов и затруднению обучения на лёгких архитектурах. Поэтому, необходима стратегия, которая может объединить эти две задачи в единой модели, чтобы улучшить производительность и эффективность обучения. #### Метод Мы предлагаем **Curriculum Multi-Task Self-Supervision (CMTSSL)** — рамфторму, которая интегрирует маскирование изображений с раздельным решением пространственных и спектральных головоломок (jigsaw puzzles). Эта стратегия использует самостоятельное обучение с последовательным увеличением сложности задач (curriculum learning). Мы используем два маскирования: одно для декомпозиции изображения по пространству, другое — по спектру. Затем, эти маски используются для сборки головоломок, которые нужно решить для обучения модели. Это позволяет объединить два типа признаков — пространственные и спектральные — в одной модели. В результате модель становится более устойчивой и эффективной для сегментации изображений. #### Результаты Мы проверили CMTSSL на четырёх общедоступных датасетах для сегментации спутниковых изображений. Мы сравнили нашу модель с двухзадачными самостоятельно обучающимися моделями и стандартными моделями на основе машинного обучения. Наши результаты показали, что CMTSSL даёт значительные выигрыши в производительности, особенно при использовании лёгких архитектур. Мы показали, что модель CMTSSL лучше справляется с задачей сегментации, даже если она использует архитектуры, которые 16,000 раз легче, чем те, что используются в современных моделях. Эти результаты показывают, что наш подход может эффективно обрабатывать данные спутников с минимальными затратами ресурсов. #### Значимость Помимо сегментации, наш подход может быть применён в других задачах, таких как классификация объектов на изображениях, изменение детекции и мониторинг окружающей среды. Он позволяет сократить объём передаваемых данных, что значительно снижает нагрузку на спутниковые системы. Это значительно улучшает эффективность использования ресурсов в системах с огра

Annotation:

Hyperspectral imaging (HSI) captures detailed spectral signatures across hundreds of contiguous bands per pixel, being indispensable for remote sensing applications such as land-cover classification, change detection, and environmental monitoring. Due to the high dimensionality of HSI data and the slow rate of data transfer in satellite-based systems, compact and efficient models are required to support onboard processing and minimize the transmission of redundant or low-value data, e.g. cloud-c...

ID: 2509.13229v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Bridging Vision Language Models and Symbolic Grounding for Video Question Answering

2025-09-17

Авторы:

Haodi Ma, Vyom Pathak, Daisy Zhe Wang

#### Контекст Видеовопросно-ответная система (Video Question Answering, VQA) представляет собой сложную задачу, требующую моделей рассуждать над пространственными, временными и казуальными сигналами в видео. Несмотря на успех видений языковых моделей (Vision Language Models, VLMs), они часто полагаются на локальные корреляции, что приводит к слабым сигналам земельных грунтов (temporal grounding) и недостаточной интерпретируемости. Мы исследуем символьные сценичные графы (Scene Graphs, SG) как вспомогательные сигналы для VQA. Сценические графы представляют собой структурированные представления объектов и их отношений, комплиментарно дополняя широковедческую природу VLMs. Мы предлагаем SG-VLM, модульную архитектуру, которая интегрирует замороженные VLMs с графом земельных грунтов через настройки и визуальную локализацию. #### Метод SG-VLM широко использует продвинутые техники для взаимодействия VLMs и сценичных графов. Модель начинает с замороженной VLM, которая извлекает объектно-ориентированные признаки из видео. Затем, с помощью продвинутых методов настройки и визуальной локализации, эти признаки интегрируются с символьными сценичными графами, создавая более структурированную интерпретируемую репрезентацию. Эта модель используется для выполнения задачи VQA, ориентируясь на пространственные, временные и казуальные сигналы. Мы выполнили эксперименты с несколькими VLMs, включая QwenVL и InternVL, на трех моделях задач VQA: NExT-QA, iVQA и ActivityNet-QA. #### Результаты Проведенные эксперименты показали, что SG-VLM выдает значительное улучшение в рассуждении по времени и причинному следованию по сравнению с базовыми VLMs. Однако наблюдается ограниченное улучшение при сравнении с более мощными VLMs. Модель показала себя хорошо на различных бенчмарках, улучшая результаты в задачах, требующих тонкого рассуждения по времени и пространству. Тем не менее, наблюдаются ограничения в силу текущих ограничений символьных графов и сложности интеграции с VLMs. #### Значимость SG-VLM демонстрирует потенциал символьных графов в улучшении проникновения и интерпретируемости VQA. Данная модель может быть применима в области робототехники, медицины, образования и других сферах, где требуется подробный анализ видео. Несмотря на ограничения, найденные результаты показывают, что совмещение VLMs с символьными технологиями может стать ключом к более точной интерпретируемой модели. Мы планируем продолжить исследования, сфокусировавшись на улучшении символьных графов и их интеграции с VLMs. #### Выводы Наша исследовательская работа показала, что сценичные графы могут з

Annotation:

Video Question Answering (VQA) requires models to reason over spatial, temporal, and causal cues in videos. Recent vision language models (VLMs) achieve strong results but often rely on shallow correlations, leading to weak temporal grounding and limited interpretability. We study symbolic scene graphs (SGs) as intermediate grounding signals for VQA. SGs provide structured object-relation representations that complement VLMs holistic reasoning. We introduce SG-VLM, a modular framework that integ...

ID: 2509.11862v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation

2025-09-16

Авторы:

Jordan Sassoon, Michal Szczepanski, Martyna Poreba

## Контекст Vision Transformers (ViTs) стали одним из ведущих подходов в области зрелых искусственных нейронных сетей для семантической сегментации. Однако, их производительность и эффективность ограничиваются высоким расходом ресурсов, который не позволяет использовать такие модели на устройствах с ограниченными ресурсами. Это приводит к значительным проблемам при развертывании ViTs в реальных сценариях, где необходимо минимизировать объем вычислительных операций и уменьшить потребление памяти. Недостаточная стабильность ViT-моделей при использовании низкой точности аппаратной поддержки далее усложняет их применение. Мы предлагаем I-Segmenter, первую в мире полностью integer-only ViT модель для сегментации. Она разработана на основе Segmenter и значительно улучшает эффективность, оптимизируя использование ресурсов и уменьшая затраты на вычисления. ## Метод I-Segmenter использует весь граф вычислений в integer-only режиме, включая активации, нормализацию, интерполяцию, и все операции свертки. Для улучшения вычислительной стабильности мы предлагаем новую активацию $\lambda$-ShiftGELU, которая эффективно справляется с вызовами, связанными с низкой точностью, и стабилизирует обучение и выполнение модели. Мы также удаляем L2-нормализацию и заменяем bilinear interpolation на nearest neighbor upsampling, чтобы получить integer-only реализацию во всей модели. Эта интересная комбинация техник позволяет I-Segmenter работать в integer-only режиме, уменьшая вычислительные затраты и улучшая производительность. ## Результаты Мы провели обширные эксперименты с использованием различных данных для сегментации и сравнили I-Segmenter с другими моделями. Модель показала внутри-маргинальные отклонения от baseline-результатов (5.1% в среднем) при уменьшении размера модели на 3.8x и увеличении скорости выполнения до 1.2x. Мы также проверили I-Segmenter на условиях one-shot post-training quantization (PTQ), и она показала высокую точность даже при одном калибровочном изображении, что демонстрирует ее практичность для реального развертывания. ## Значимость I-Segmenter может быть использована в различных приложениях, где требуется эффективная сегментация изображений на ресурс-ограниченных устройствах, таких как мобильные устройства, IoT-устройства, и автомобильная техника. Основные преимущества включают высокую производительность, минимальные затраты на вычисления, и стабильность работы в низкой точности. Это открывает пути для широкого применения ViTs в сценариях, где до недавнего времени такие модели были неприменимы. ## Выводы Мы представили I-Segmenter, первую integer-only ViT модель для сегментации, которая эффективно решает проблемы с вычислительной стоимостью и расходом памяти. Наши результаты показывают, что I-Segmenter со

Annotation:

Vision Transformers (ViTs) have recently achieved strong results in semantic segmentation, yet their deployment on resource-constrained devices remains limited due to their high memory footprint and computational cost. Quantization offers an effective strategy to improve efficiency, but ViT-based segmentation models are notoriously fragile under low precision, as quantization errors accumulate across deep encoder-decoder pipelines. We introduce I-Segmenter, the first fully integer-only ViT segme...

ID: 2509.10334v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
25
26
27
28
29
35
36

Показано 261 - 270 из 358 записей