📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline

2025-08-09

Авторы:

Linqing Zhao, Xiuwei Xu, Yirui Wang, Hao Wang, Wenzhao Zheng, Yansong Tang, Haibin Yan, Jiwen Lu

Извлечение точных 3D-геометрий из потока RGB-видео без использования позиционных сигналов представляет вызов для систем 3D-реконструкции. Настоящая работа адресует эту проблему, предлагая интеграцию глубинного оценивания в систему RGB-D SLAM. Однако у этого подхода возникают проблемы с точностью геометрических деталей в предсказанных глубинах. Работа исследователей открывает новый подход, используя гауссовые карты для решения этой проблемы. Они предлагают онлайн-метод 3D-реконструкции, основанный на гауссовой маппинге, в сочетании с моделью прямого предсказания камерного положения на основе потока оптической смещения. Это позволяет заменить медленное оптимизационное тестирование скоростным выводом сети. Кроме того, введена техника локального графа для повышения устойчивости предсказания положения. Испытания на датасетах Replica и TUM-RGBD, а также реальные испытания, показали, что предложенный подход эквивалентен состоянию технологий, такому как SplaTAM, признаком более чем 90% уменьшения времени отслеживания.

Annotation:

Incrementally recovering real-sized 3D geometry from a pose-free RGB stream is a challenging task in 3D reconstruction, requiring minimal assumptions on input data. Existing methods can be broadly categorized into end-to-end and visual SLAM-based approaches, both of which either struggle with long sequences or depend on slow test-time optimization and depth sensors. To address this, we first integrate a depth estimator into an RGB-D SLAM system, but this approach is hindered by inaccurate geomet...

ID: 2508.04597v1 cs.CV

arXiv PDF

📄 OmniDepth: Bridging Monocular and Stereo Reasoning with Latent Alignment

2025-08-09

Авторы:

Tongfan Guan, Jiaxin Guo, Chen Wang, Yun-Hui Liu

Многокамерная и многомодальная оценка глубины представляют собой важные подходы к решению проблемы 3D-перцепции, но каждый из них имеет свои ограничения. Многокамерная оценка глубины (monocular) способна логически структурировать пространство, но часто неточна в геометрических вычислениях. Многомодальная (stereo) оценка глубины, в свою очередь, полагается на эпиполярную геометрию, что делает ее эффективной в обработке сложных поверхностей, но она страдает от явных сильных амбигуитей на поверхностях с низким контрастом или текстурой. Данная работа предлагает OmniDepth — продвинутую модель, которая объединяет эти два подхода в единое целое. Основной инновацией является алгоритм синхронизации между локальными признаками 3D-пространства (monocular) и геометрическими моделями (stereo), который достигается с помощью нового механизма кросс-аттенции. Результаты экспериментов показали, что OmniDepth уменьшает ошибку нулевого шага обучения более чем на 40% на Middlebury и ETH3D, а также улучшает результаты на поверхностях типа зеркальных и прозрачных. Эта модель является первым подходом к решению проблемы между монокамеровой и многокамеровой оценкой глубины.

Annotation:

Monocular and stereo depth estimation offer complementary strengths: monocular methods capture rich contextual priors but lack geometric precision, while stereo approaches leverage epipolar geometry yet struggle with ambiguities such as reflective or textureless surfaces. Despite post-hoc synergies, these paradigms remain largely disjoint in practice. We introduce OmniDepth, a unified framework that bridges both through iterative bidirectional alignment of their latent representations. At its co...

ID: 2508.04611v1 cs.CV, cs.RO

arXiv PDF

📄 How Does Bilateral Ear Symmetry Affect Deep Ear Features?

2025-08-09

Авторы:

Kagan Ozturk, Deeksha Arun, Kevin W. Bowyer, Patrick Flynn

Удостоверение личности с помощью распознавания ушей приобрёл популярность в силу уникальности человеческих ушей. Несмотря на продвижение методов свёрточных нейронных сетей (CNN), которые успешно извлекают признаки из сырых изображений ушей, мало известно о влиянии билатеральной симметрии ушей на обучение таких сетей. В настоящем исследовании рассматривается вопрос, могут ли различные стратегии обработки симметрии ушей улучшить эффективность CNN-систем распознавания ушей. Для этого разработан классификатор стороны уша, а также изучается вклад этой информации во время обучения и тестирования. Исследование проводилось на пяти разных датасетах. Обнаружено, что разделение обучения и тестирования на ушах справа и слева может существенно повысить производительность. Анализ проведённых изменений позволил выявить оптимальные настройки для обучения CNN-систем распознавания ушей.

Annotation:

Ear recognition has gained attention as a reliable biometric technique due to the distinctive characteristics of human ears. With the increasing availability of large-scale datasets, convolutional neural networks (CNNs) have been widely adopted to learn features directly from raw ear images, outperforming traditional hand-crafted methods. However, the effect of bilateral ear symmetry on the features learned by CNNs has received little attention in recent studies. In this paper, we investigate ho...

ID: 2508.04614v1 cs.CV

arXiv PDF

📄 FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging

2025-08-09

Авторы:

Zichen Tang, Haihong E, Jiacheng Liu, Zhongjun Yang, Rongjin Li, Zihua Rong, Haoyang He, Zhuodi Hao, Xinyang Hu, Kun Ji, Ziyan Ma, Mengyuan Ji, Jun Zhang, Chenghao Ma, Qianhe Zheng, Yang Liu, Yiling Huang, Xinyi Hu, Qing Huang, Zijian Xie, Shiyao Peng

**FinMMR: Расширение Модальности, Широти Знаний и Сложности для Многомодальных Моделей в Финансовом Решении Задач** FinMMR представляет собой новую билингвальную мультимодальную бенчмарк для оценки моделей многомодального машинного обучения в области финансового численного рассуждения. Она расширяет текущие работы в трех ключевых направлениях. Сначала, FinMMR включает 4.3K вопросов и 8.7K изображений, разбитых на 14 категорий — таблицы, графики и другие визуализации, включая сложные диаграммы владения. Второй, она затрагивает 14 финансовых поддисциплин, включая корпоративное финансирование и анализ отраслей, что значительно расширяет объем финансовых знаний в сравнении с предыдущими бенчмарками. Третий, FinMMR представляет высокую сложность, требуя извлечения и интеграцию многородной финансовой информации, включая текст и сложные визуальные данные. Только самые продвинутые модели достигают 53.0% точности на трудных задачах. Этот бенчмарк мотивирует улучшение моделей многомодального машинного обучения для реальных финансовых задач.

Annotation:

We present FinMMR, a novel bilingual multimodal benchmark tailored to evaluate the reasoning capabilities of multimodal large language models (MLLMs) in financial numerical reasoning tasks. Compared to existing benchmarks, our work introduces three significant advancements. (1) Multimodality: We meticulously transform existing financial reasoning benchmarks, and construct novel questions from the latest Chinese financial research reports. FinMMR comprises 4.3K questions and 8.7K images spanning ...

ID: 2508.04625v1 cs.CV, cs.CE

arXiv PDF

📄 RoboTron-Sim: Improving Real-World Driving via Simulated Hard-Case

2025-08-09

Авторы:

Baihui Xiao, Chengjian Feng, Zhijian Huang, Feng yan, Yujie Zhong, Lin Ma

Автоматическое управление транспортом сталкивается с трудностями при обучении на редких высокорисковых сценариях, таких как сложные интеракции и редкие сценарии, возникающие редко. Данные по этим сценариям сложно получить в реальном мире, что приводит к ухудшению работы систем автономного управления в критичных ситуациях. В статье предлагается решение — RoboTron-Sim, система, оптимизирующая реальность действий автомобиля в критичных ситуациях с использованием симуляционных сценариев. Она включает в себя создание симуляционного набора данных Hard-case Augmented Synthetic Scenarios (HASS), охватывающего 13 вариантов высокорисковых сценариев, а также многоканальные методы обучения, включая Scenario-aware Prompt Engineering (SPE) и Image-to-Ego Encoder (I2E Encoder), позволяющие адаптировать модели многомодальных языковых моделей к симуляционной среде. Эксперименты на датасете nuScenes показали, что RoboTron-Sim повышает производительность на 50% при открытом планировании маршрута, а квалитативные результаты подтверждают его эффективность в управлении редкими критичными сценариями.

Annotation:

Collecting real-world data for rare high-risk scenarios, long-tailed driving events, and complex interactions remains challenging, leading to poor performance of existing autonomous driving systems in these critical situations. In this paper, we propose RoboTron-Sim that improves real-world driving in critical situations by utilizing simulated hard cases. First, we develop a simulated dataset called Hard-case Augmented Synthetic Scenarios (HASS), which covers 13 high-risk edge-case categories, a...

ID: 2508.04642v1 cs.RO, cs.CV

arXiv PDF

📄 Super Resolved Imaging with Adaptive Optics

2025-08-09

Авторы:

Robin Swanson, Esther Y. H. Lin, Masen Lamb, Suresh Sivanandam, Kiriakos N. Kutulakos

**Резюме** В современных земностояных телескопах существует противоречие между широким полем обзора (FoV) и высокой разрешающей способностью изображений: увеличение FoV приводит к оптической подкамеризации, что снижает разрешающую способность. Работа предлагает новый подход к решению этой проблемы, используя существующие системы адаптивной оптики (AO) в телескопах. Главная идея заключается в том, чтобы использовать зеркало AO для применения учитываемых, оптимально контролируемых деформаций волнового фронта, которые образуют последовательность изображений с высокочастотными подпиксельными сдвигами. Эти изображения могут быть объединены для получения суперразрешенного изображения, при этом сохраняя основную функцию AO — коррекцию известных и неизвестных деформаций волнового фронта, вызванных атмосферой Земли. Оптимизация как зеркальных деформаций, так и алгоритма увеличения разрешения позволяет адаптироваться к специфике телескопа и временным статистикам наводнений волнового фронта. Тесты на оборудовании и симуляции показали увеличение значения SNR на 12 дБ по сравнению с базовыми методами неадаптивной суперразрешенной обработки, применяя только существующую оптику телескопа без изменений. Апробация на копии реального телескопа с AO-системой подтвердила практическую пригодность подхода.

Annotation:

Astronomical telescopes suffer from a tradeoff between field of view (FoV) and image resolution: increasing the FoV leads to an optical field that is under-sampled by the science camera. This work presents a novel computational imaging approach to overcome this tradeoff by leveraging the existing adaptive optics (AO) systems in modern ground-based telescopes. Our key idea is to use the AO system's deformable mirror to apply a series of learned, precisely controlled distortions to the optical wav...

ID: 2508.04648v1 astro-ph.IM, cs.CV

arXiv PDF

📄 EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts

2025-08-09

Авторы:

Kushin Mukherjee, Donghao Ren, Dominik Moritz, Yannick Assogba

Ключевые слова: **визуальная разметка, визуально-языковые модели, анализ данных, визуальные модели, EncQA бенчмарк** **Резюме:** В статье представлен **EncQA**, новый бенчмарк для оценки визуально-языковых моделей (VLMs), спроектированный на основе литературы по визуальной разметке. Он охватывает шесть каналов визуальных представлений (положение, длина, площадь, количественный цвет, номинальный цвет, форма) и восемь задач (нахождение экстремумов, получение значения, выявление аномалий, фильтрация, вычисление действительного и относительного преобразований, корреляция). Исследование проведено на 9 современных VLMs, включая модели с различными размерами. Оказалось, что модели показывают различия в производительности в зависимости от визуальных представлений и задач. Также не было обнаружено улучшения производительности при увеличении размера моделей для многих пар "задача-канал визуального представления". Эти результаты показывают, что для улучшения понимания данных в виде картинок требуются конкретные стратегии, а не просто увеличение моделей и данных.

Annotation:

Multimodal vision-language models (VLMs) continue to achieve ever-improving scores on chart understanding benchmarks. Yet, we find that this progress does not fully capture the breadth of visual reasoning capabilities essential for interpreting charts. We introduce EncQA, a novel benchmark informed by the visualization literature, designed to provide systematic coverage of visual encodings and analytic tasks that are crucial for chart understanding. EncQA provides 2,076 synthetic question-answer...

ID: 2508.04650v1 cs.CV, I.2.0

arXiv PDF

📄 PixCuboid: Room Layout Estimation from Multi-view Featuremetric Alignment

2025-08-09

Авторы:

Gustav Hanning, Kalle Åström, Viktor Larsson

**Резюме** В статье представлена PixCuboid — метод оптимизации для оценки комнатных локайтов на основе много birds-eye-view алайнмента тяжёлых deep features. Это решение предназначено для задачи поиска плоскостей по комнатным пространствам, где существуют проблемы, связанные с неоднородными источниками данных и сложностями быстрого роста лосса. Разработчики продемонстрировали возможность использовать простые начальные геометрические шаблоны для инициализации оптимизации. Для оценки метода были представлены два новых бенчмарка на основе ScanNet++ и 2D-3D-Semantics с точно проверенными 3D комнатными локайтами. Авторы показали, что PixCuboid значительно превосходит конкурентные модели по точности и решает вопросы многокомнатной оценки. Модель и код доступны в репозитории: https://github.com/ghanning/PixCuboid.

Annotation:

Coarse room layout estimation provides important geometric cues for many downstream tasks. Current state-of-the-art methods are predominantly based on single views and often assume panoramic images. We introduce PixCuboid, an optimization-based approach for cuboid-shaped room layout estimation, which is based on multi-view alignment of dense deep features. By training with the optimization end-to-end, we learn feature maps that yield large convergence basins and smooth loss landscapes in the ali...

ID: 2508.04659v1 cs.CV, I.4

arXiv PDF

📄 ANPrompt: Anti-noise Prompt Tuning for Vision-Language Models

2025-08-09

Авторы:

Yansheng Gao, Yufei Zheng, Jinghan Qu, Zixi Zhu, Yukuan Zhang, Shengsheng Wang

**Аннотация** Проблема: Несмотря на высокую эффективность и экономичность, методы предложения (prompt tuning) для подстройки визуально-языковых моделей (VLMs) чувствительны к слабым семантическим помехам (например, небольшим шумам в изображениях или тексте), что снижает их общеупотребимость при работе с неизвестными классами. **Предложенное решение**: Мы предлагаем ANPrompt — новую фреймворк продвинутого предложения, ориентированного на улучшение устойчивости к таким помехам. Фреймворк включает в себя создание шумовых промптов, их кластеризацию, интеграцию в глубинные слои модели, а также вычисление прототипа Noise-Resistant Visual Prompt Prototype (NRVPP). Дополнительно, ANPrompt вводит новые цели обучения: выравнивания, устойчивости и устойчивости к шумам. **Основные выводы**: Эксперименты показали, что ANPrompt превосходит другие методы предложения по устойчивости к шуму и общей универсальности, показывая повышенную устойчивость к слабым семантическим помехам и улучшенную общую обобщаемость на новых классах.

Annotation:

Prompt tuning has emerged as an efficient and effective technique for adapting vision-language models (VLMs) with low computational overhead. However, existing methods often overlook the vulnerability of prompt-tuned VLMs to weak semantic perturbations-such as subtle image or text noise-that degrade their generalization to unseen classes. To address this limitation, we propose ANPrompt, a novel prompt tuning framework designed to enhance robustness under such perturbations. ANPrompt first constr...

ID: 2508.04677v2 cs.CV

arXiv PDF

📄 Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions

2025-08-09

Авторы:

Liang Xu, Chengqun Yang, Zili Lin, Fei Xu, Yifan Liu, Congsheng Xu, Yiyi Zhang, Jie Qin, Xingdong Sheng, Yunhui Liu, Xin Jin, Yichao Yan, Wenjun Zeng, Xiaokang Yang

Данная работа адресует проблему построения общих моделей действий для интеллектуальных помощников, основанных на реальных знаниях об эгоцентрических взаимодействиях людей с объектами. Изучение таких взаимодействий в реальных условиях требует детального анализа движений человека, объектов и их связи с лексическими командами. Работа предлагает InterVLA — первый в мире большой датасет эгоцентрических взаимодействий, включающий 11,4 часа видеоданных, 1,2 млн кадров и широкий спектр значений визуального, текстового и движкового многомодального материала. Для построения датасета использовались гибридные системы RGB и MoCap, что позволило собрать полные данные об действиях и говорящих командах. На основе этого датасета были разработаны новые бенчмарки для оценки моделей помощи в выполнении задач. Результаты указывают на перспективу InterVLA для построения более устойчивых и эффективных моделей для AI-ассистентов.

Annotation:

Learning action models from real-world human-centric interaction datasets is important towards building general-purpose intelligent assistants with efficiency. However, most existing datasets only offer specialist interaction category and ignore that AI assistants perceive and act based on first-person acquisition. We urge that both the generalist interaction knowledge and egocentric modality are indispensable. In this paper, we embed the manual-assisted task into a vision-language-action framew...

ID: 2508.04681v1 cs.CV

arXiv PDF

1
2
1140
1141
1142
1143
1144
1161
1162

Показано 11411 - 11420 из 11614 записей