📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Nassim Ali Ousalah, Peyman Rostami, Anis Kacem, Enjie Ghorbel, Emmanuel Koumandakis, Djamila Aouada

Оптимизация 6DoF-позиционирования объектов является сложной и ресурсоёмкой задачей, требующей эффективных алгоритмов для реального времени. Данная работа представляет FPG-NAS, первый дифференцируемый фреймворк поиска архитектур, ориентированный на FLOPs-оптимизацию для задачи 6DoF-позиционирования. Он использует заданную для этой задачи поисковую пространственность и дифференцируемую механику регуляризации, позволяющую улучшить архитектурную разнообразие и точность. Эксперименты на LINEMOD и SPEED+ показали, что модели, порожденные FPG-NAS, превосходят соревнующиеся методы при ограничении FLOPs. Наша работа демонстрирует, что FPG-NAS может эффективно решать задачи 6DoF-позиционирования в ресурсонедостаточных условиях, устанавливая новый анодный результат в этой области.
Annotation:
We introduce FPG-NAS, a FLOPs-aware Gated Differentiable Neural Architecture Search framework for efficient 6DoF object pose estimation. Estimating 3D rotation and translation from a single image has been widely investigated yet remains computationally demanding, limiting applicability in resource-constrained scenarios. FPG-NAS addresses this by proposing a specialized differentiable NAS approach for 6DoF pose estimation, featuring a task-specific search space and a differentiable gating mechani...
ID: 2508.03618v1 cs.CV
Авторы:

Xiangyu Sun, Haoyi jiang, Liu Liu, Seungtae Nam, Gyeongjin Kang, Xinjie wang, Wei Sui, Zhizhong Su, Wenyu Liu, Xinggang Wang, Eunbyung Park

Реконструировать и семантически интерпретировать 3D-сцены из небольшого количества 2D-видов остается значительной проблемой в области компьютерного зрения. Большинство методов разделяют реконструкцию и семантическое понимание или требуют дорогостоящих оптимизаций для каждого сцены, что ограничивает их масштабируемость и универсальность. В данной работе предлагается Uni3R — разработка нового фреймворка, позволяющего одновременно реконструировать 3D-представление сцены и добавлять ей семантические признаки в рамках открытого лексикона. Используя Cross-View Transformer, Uni3R объединяет многозрительные входные данные и регрессирует 3D-гауссовые примитивы с полями семантических признаков. Этот единый подход обеспечивает высококачественную новообразуемую просмотренной точки зрения, открытоводическую семантическую сегментацию и прогнозирование глубины в рамках одного прогона. Авторы показали, что Uni3R обновляет состояние лидерских показателей на нескольких бенчмарках, включая RE10K и ScanNet. Это работа открывает путь к универсальной и общей модели реконструкции и понимания 3D-сцен. Детали и код доступны по адресу: https://github.com/HorizonRobotics/Uni3R.
Annotation:
Reconstructing and semantically interpreting 3D scenes from sparse 2D views remains a fundamental challenge in computer vision. Conventional methods often decouple semantic understanding from reconstruction or necessitate costly per-scene optimization, thereby restricting their scalability and generalizability. In this paper, we introduce Uni3R, a novel feed-forward framework that jointly reconstructs a unified 3D scene representation enriched with open-vocabulary semantics, directly from unpose...
ID: 2508.03643v2 cs.CV
Авторы:

Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin

**Резюме** В статье предлагается Double-Bench — новая крупномасштабная, многоязыковая и мультимодальная система оценки для Retrieval-Augmented Generation (RAG) систем, использующих Multimodal Large Language Models (MLLMs). Недостаточное тестирование является ключевой проблемой в развитии таких систем, так как существующие бенчмарки фокусируются на частичных аспектах RAG-систем и используют синтетические данные с неполными меток правдивости и значимости. Double-Bench предлагает полную оценку каждого компонента RAG-системы, включая 72 880 страниц данных в 6 языках и 4 типах документов. Эта система поддерживает динамическое обновление для борьбы с загрязнением данных и использует экспертные оценки для гарантии высокого качества. Основные выводы экспериментов показывают, что разница в эффективности между текстовыми и визуальными моделями снижается, что демонстрирует необходимость в развитии мощных моделей документного поиска. Также выявлена "проблема переоценки": текущие RAG-системы часто выдают ответы даже при отсутствии доказательств. Double-Bench предлагается как универсальный инструмент для поиска решений этих проблем и будет обновляться ежегодно.
Annotation:
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language Models (MLLMs) show great promise for complex document understanding, yet their development is critically hampered by inadequate evaluation. Current benchmarks often focus on specific part of document RAG system and use synthetic data with incomplete ground truth and evidence labels, therefore failing to reflect real-world bottlenecks and challenges. To overcome these limitations, we introduce Double-Bench: a new large-...
ID: 2508.03644v1 cs.CL, cs.CV, cs.IR
Авторы:

Akshay L Chandra, Iman Nematollahi, Chenguang Huang, Tim Welschehold, Wolfram Burgard, Abhinav Valada

В статье предлагается новый подход, **DiWA** (Diffusion Policy Adaptation with World Models), для тонкой настройки diffusion policies в области обучения роботов. Основная проблема заключается в том, что fine-tuning diffusion policies с помощью reinforcement learning сталкивается с проблемой эффективной пропаграции награды в длинных последовательностях декодирования и требует миллионов реальных взаимодействий, что неэффективно и небезопасно. **DiWA** решает эту проблему, используя world model, обученный на небольшом количестве offline-интеракций, для организации offline-adaptation с использованием reinforcement learning. Это позволяет достичь существенной эффективности при использовании ресурсов и значительно уменьшить необходимое число реальных взаимодействий. На масштабном испытательном наборе **CALVIN**, DiWA достигает улучшений в производительности по 8 задачам, используя только offline-адаптацию, и требует меньшего числа физических взаимодействий по сравнению с модельно-свободными базовыми методами. Это является первым рабочим решением для offline-настройки diffusion policies в реальных роботизированных задачах.
Annotation:
Fine-tuning diffusion policies with reinforcement learning (RL) presents significant challenges. The long denoising sequence for each action prediction impedes effective reward propagation. Moreover, standard RL methods require millions of real-world interactions, posing a major bottleneck for practical fine-tuning. Although prior work frames the denoising process in diffusion policies as a Markov Decision Process to enable RL-based updates, its strong dependence on environment interaction remai...
ID: 2508.03645v1 cs.RO, cs.CV, cs.LG
Авторы:

Xinyu Wang, Yue Zhang, Liqiang Jing

Многомодальная сарказм-анализ (MSA) является сложной задачей, которая затрудняется способностью понимать диспаритет между литеральным и намеренным значением сарказма. Несмотря на развитие многомодальных подходов, применение больших лингво-визуальных моделей к этой задаче до сих пор недостаточно изучено. В данной работе анализируется эффективность таких моделей в MSA, в том числе в задачах детекции и объяснения сарказма. Найдены ключевые ограничения, такие как недостаточное понимание визуальной информации и отсутствие концептуальных знаний. Для устранения этих проблем предлагается новый тренировочно-свободный подход, который использует расширенное извлечение объектов и внешние концептуальные знания. Эксперименты показали, что предложенный подход улучшает точность и эффективность моделей в задачах MSA. Результаты опубликованы на https://github.com/cp-cp/LVLM-MSA.
Annotation:
Sarcasm is a complex linguistic phenomenon that involves a disparity between literal and intended meanings, making it challenging for sentiment analysis and other emotion-sensitive tasks. While traditional sarcasm detection methods primarily focus on text, recent approaches have incorporated multimodal information. However, the application of Large Visual Language Models (LVLMs) in Multimodal Sarcasm Analysis (MSA) remains underexplored. In this paper, we evaluate LVLMs in MSA tasks, specificall...
ID: 2508.03654v1 cs.CL, cs.CV
Авторы:

Yuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li

**Резюме** В статье представлено Human Preference Score v3 (HPSv3) — усовершенствованная метрика для оценки моделей генерирующих текст-изображение. Основная проблема, рассмотренная в работе, заключается в том, что существующие метрики человеческого приоритета страдают от ограниченного объема данных, неэффективных признаков и неэффективных функций потерь. Авторы предлагают HPSv3, основывающуюся на Human Preference Dataset v3 (HPDv3) — первом широкопокрытой выборке, включающей 1.08M текстовых-изображений и 1.17M пар сравнений. Для тонкой оценки изображений разработана версия метода Chain-of-Human-Preference (CoHP), основывающаяся на нейросети с тренировкой по убедительной функции. Эксперименты показали, что HPSv3 является эффективным инструментом для подробной оценки генерирующих моделей. Результаты подтверждают, что CoHP может улучшать качество генерируемых изображений, обеспечивая универсальный подход к их оценке и улучшению.
Annotation:
Evaluating text-to-image generation models requires alignment with human perception, yet existing human-centric metrics are constrained by limited data coverage, suboptimal feature extraction, and inefficient loss functions. To address these challenges, we introduce Human Preference Score v3 (HPSv3). (1) We release HPDv3, the first wide-spectrum human preference dataset integrating 1.08M text-image pairs and 1.17M annotated pairwise comparisons from state-of-the-art generative models and low to ...
ID: 2508.03789v1 cs.CV
Авторы:

Katherine Liu, Sergey Zakharov, Dian Chen, Takuya Ikeda, Greg Shakhnarovich, Adrien Gaidon, Rares Ambrus

Оценивание полной формы и положения объектов на основе единственного наблюдения — это сложная задача в реальном мире, особенно когда неизвестен 3D-модель или категория объекта. В статье предлагается OmniShape, первая методика, позволяющая выполнять нулевой-слотное оценивание положения и полной формы объекта. OmniShape основывается на осознании, что завершение формы может рассматриваться как двухмодальные распределения: одно следует из проекций на стандартный ссылочный референс объектов в наборе, а другое — из предшествующего распределения объектных геометрий, описываемых трипланарными нейронными полями. Отдельной условными диффузионными моделями обучаются обе эти многомодальные распределения, что позволяет использовать вероятностные модели для генерации множества гипотез по положению и форме. Эксперименты показывают, что OmniShape выдает высокую точность при оценке реальных данных. Это решение наделяет методов новыми возможностями внедрения в реальные приложения.
Annotation:
We would like to estimate the pose and full shape of an object from a single observation, without assuming known 3D model or category. In this work, we propose OmniShape, the first method of its kind to enable probabilistic pose and shape estimation. OmniShape is based on the key insight that shape completion can be decoupled into two multi-modal distributions: one capturing how measurements project into a normalized object reference frame defined by the dataset and the other modelling a prior o...
ID: 2508.03669v1 cs.CV, cs.RO
Авторы:

Youquan Liu, Lingdong Kong, Weidong Yang, Ao Liang, Jianxiong Gao, Yang Wu, Xiang Xu, Xin Li, Linfeng Li, Runnan Chen, Ben Fei

**Резюме** Проблема. Реалистичная и управляемая генерация панорамных данных LiDAR из одного RGB-изображения является ключевой задачей для расширения возможностей 3D-перцепции в сегментах автономных транспортных систем и робототехники. Существующие методы либо не обеспечивают достаточного контроля за результатом, либо применяют текстовые сигналы для управления, которые не могут обеспечить точной спецификации пространственных признаков. Решение. Мы предлагаем Veila — уникальную модель на основе диффузионного подхода, которая использует RGB-изображение в качестве условного сигнала для управляемой генерации панорамных данных LiDAR. Модель решает три основных проблемы: складывающиеся проблемы семантических и геометрических признаков в RGB, гашение геометрических модемов RGB и LiDAR, а также необходимость сохранения структурной согласованности в регионах, не перекрывающихся между RGB-изображением и LiDAR. Для этого Veila использует: механизм устойчивого управления по RGB-сигналу с адаптивным балансированием семантических и геометрических признаков, систему кросс-модального выравнивания для геометрического гармонического соответствия, а также механизм сохранения глобальной структурной выразительности. Основные выводы. Модель Veila демонстрирует перекрытие стандартов по фидбэку по сравнению с текущими методами в трех огромных базах данных (nuScenes, SemanticKITTI и KITTI-Weather). Она также улучшает генетическую семантическую и геометрическую точность в сегментации LiDAR. Эта работа открывает новый путь для эффективного взаимодействия между RGB и LiDAR в сценариях машинного зрения.
Annotation:
Realistic and controllable panoramic LiDAR data generation is critical for scalable 3D perception in autonomous driving and robotics. Existing methods either perform unconditional generation with poor controllability or adopt text-guided synthesis, which lacks fine-grained spatial control. Leveraging a monocular RGB image as a spatial control signal offers a scalable and low-cost alternative, which remains an open problem. However, it faces three core challenges: (i) semantic and depth cues from...
ID: 2508.03690v1 cs.CV, cs.RO
Авторы:

Youquan Liu, Lingdong Kong, Weidong Yang, Xin Li, Ao Liang, Runnan Chen, Ben Fei, Tongliang Liu

Одной из ключевых задач в области робототехники и автомобильной промышленности является эффективное генерирование трехмерных сцен, основанных на LiDAR-данных. Традиционные модели, основанные на распространении, достигают высокого качества в создании LiDAR-сцен, но их лишено явного способа контролировать формацию форений и семантических отношений, что ограничивает их применение в симуляции сценариев и валидации безопасности. Для решения этих проблем предлагается Large-scale Layout-guided LiDAR generation model ("La La LiDAR") — новая рамочная модель, которая вводит семантически улучшенный сценной граф с отношениями в контекстном конджиционировании для структурированного генерирования LiDAR-сцен, а также внедрение управления форением для полного сцены. Это позволяет генерировать LiDAR-сцены, которые могут быть гибко настроены в отношении расположения объектов, сохраняя семантическую и пространственную согласованность. Для поддержки этой работы авторы представили два больших датасета LiDAR-сцен — Waymo-SG и nuScenes-SG, а также новые метрики для оценки графов сцен. Эксперименты показали, что La La LiDAR превышает состояние техники в генерировании LiDAR-сцен и показала себя в задачах предсказания перцепции, установив новый бенчмарк для контролируемого 3D-генерирования сцен.
Annotation:
Controllable generation of realistic LiDAR scenes is crucial for applications such as autonomous driving and robotics. While recent diffusion-based models achieve high-fidelity LiDAR generation, they lack explicit control over foreground objects and spatial relationships, limiting their usefulness for scenario simulation and safety validation. To address these limitations, we propose Large-scale Layout-guided LiDAR generation model ("La La LiDAR"), a novel layout-guided generative framework that...
ID: 2508.03691v1 cs.CV, cs.RO
Авторы:

Ao Liang, Youquan Liu, Yu Yang, Dongyue Lu, Linfeng Li, Lingdong Kong, Huaici Zhao, Wei Tsang Ooi

LiDAR выявляет среду вокруг автомобиля в виде распределения точек в пространстве, обеспечивая ключевую информацию для автономных систем движения. Однако существующие модели генерации 4D моделей среды недостаточно учитывают специфику LiDAR, включая его динамическую природу и сложности в управляемости и консистентности сцены. Для решения этой проблемы предлагается LiDARCrafter — универсальный фреймворк для 4D генерации и редактирования LiDAR-последовательностей. Авторы предлагают построение эго-центрических сценных графов на основе натурального языка, которые управляют сложной сетью diffusion-генераторов для строительства объектов, движений и геометрии. Для обеспечения гладкого потока времени реализован авторегрессионный модуль. Кроме того, авторы предлагают комплексный бенчмарк для оценки качества моделей с точки зрения сцены, объектов и последовательности. Опыт на датасете nuScenes показывает, что LiDARCrafter демонстрирует лучшие результаты по фидбеку, управляемости и гладкости временных потоков. Этот подход открывает новые возможности для дата-аугментации и симуляции в автоматизированных системах.
Annotation:
Generative world models have become essential data engines for autonomous driving, yet most existing efforts focus on videos or occupancy grids, overlooking the unique LiDAR properties. Extending LiDAR generation to dynamic 4D world modeling presents challenges in controllability, temporal coherence, and evaluation standardization. To this end, we present LiDARCrafter, a unified framework for 4D LiDAR generation and editing. Given free-form natural language inputs, we parse instructions into ego...
ID: 2508.03692v1 cs.CV, cs.RO
Показано 11301 - 11310 из 11614 записей