📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Gaze Estimation for Human-Robot Interaction: Analysis Using the NICO Platform

2025-10-01

Авторы:

Matej Palider, Omar Eldardeer, Viktor Kocur

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper evaluates the current gaze estimation methods within an HRI context of a shared workspace scenario. We introduce a new, annotated dataset collected with the NICO robotic platform. We evaluate four state-of-the-art gaze estimation models. The evaluation shows that the angular errors are close to those reported on general-purpose benchmarks. However, when expressed in terms of distance in the shared workspace the best median error is 16.48 cm quantifying the practical limitations of cur...

ID: 2509.24001v1 cs.CV, cs.RO, I.4.9

arXiv PDF

📄 Clebsch-Gordan Transformer: Fast and Global Equivariant Attention

2025-10-01

Авторы:

Owen Lewis Howell, Linfeng Zhao, Xupeng Zhu, Yaoyao Qian, Haojie Huang, Lingfeng Sun, Wil Thomason, Robert Platt, Robin Walters

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The global attention mechanism is one of the keys to the success of transformer architecture, but it incurs quadratic computational costs in relation to the number of tokens. On the other hand, equivariant models, which leverage the underlying geometric structures of problem instance, often achieve superior accuracy in physical, biochemical, computer vision, and robotic tasks, at the cost of additional compute requirements. As a result, existing equivariant transformers only support low-order eq...

ID: 2509.24093v1 cs.LG, cs.CV, cs.RO

arXiv PDF

📄 FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation

2025-10-01

Авторы:

Seungwook Kim, Seunghyeon Lee, Minsu Cho

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Generating realistic robot videos from explicit action trajectories is a critical step toward building effective world models and robotics foundation models. We introduce two training-free, inference-time techniques that fully exploit explicit action parameters in diffusion-based robot video generation. Instead of treating action vectors as passive conditioning signals, our methods actively incorporate them to guide both the classifier-free guidance process and the initialization of Gaussian lat...

ID: 2509.24241v1 cs.CV, cs.RO

arXiv PDF

📄 SCOPE: Semantic Conditioning for Sim2Real Category-Level Object Pose Estimation in Robotics

2025-10-01

Авторы:

Peter Hönig, Stefan Thalhammer, Jean-Baptiste Weibel, Matthias Hirschmanner, Markus Vincze

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Object manipulation requires accurate object pose estimation. In open environments, robots encounter unknown objects, which requires semantic understanding in order to generalize both to known categories and beyond. To resolve this challenge, we present SCOPE, a diffusion-based category-level object pose estimation model that eliminates the need for discrete category labels by leveraging DINOv2 features as continuous semantic priors. By combining these DINOv2 features with photorealistic trainin...

ID: 2509.24572v1 cs.CV, cs.RO

arXiv PDF

📄 Evaluation of Polarimetric Fusion for Semantic Segmentation in Aquatic Environments

2025-10-01

Авторы:

Luis F. W. Batista, Tom Bourbon, Cedric Pradalier

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Accurate segmentation of floating debris on water is often compromised by surface glare and changing outdoor illumination. Polarimetric imaging offers a single-sensor route to mitigate water-surface glare that disrupts semantic segmentation of floating objects. We benchmark state-of-the-art fusion networks on PoTATO, a public dataset of polarimetric images of plastic bottles in inland waterways, and compare their performance with single-image baselines using traditional models. Our results indic...

ID: 2509.24731v1 cs.CV, cs.RO

arXiv PDF

📄 ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

2025-10-01

Авторы:

Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Paired RGB-thermal data is crucial for visual-thermal sensor fusion and cross-modality tasks, including important applications such as multi-modal image alignment and retrieval. However, the scarcity of synchronized and calibrated RGB-thermal image pairs presents a major obstacle to progress in these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image translation has emerged as a promising solution, enabling the synthesis of thermal images from abundant RGB datasets for training purp...

ID: 2509.24878v1 cs.CV, cs.RO

arXiv PDF

📄 Residual Vector Quantization For Communication-Efficient Multi-Agent Perception

2025-09-30

Авторы:

Dereje Shenkut, B. V. K Vijaya Kumar

## Контекст Современное развитие автоматизированных систем, таких как автомобили с возможностью управления без вмешательства человека, роботы-помощники и дроны, требует высокоэффективных методов сенсорного восприятия. Одним из ключевых аспектов является **многоагентное совместное восприятие (CP)**, при котором несколько агентов (например, автомобили, дроны или роботы) делятся своими данными для повышения точности и разрешения сцены. Однако эта методика сталкивается с ограничениями, связанными с **ресурсом передачи данных**. Большие объемы данных, которые должны быть переданы для формирования общего представления о среде, требуют невыносимо большой пропускной способности сети. Таким образом, целью данного исследования является разработка метода, который бы сократил объем передаваемых данных, сохранив высокую точность восприятия. ## Метод Метод, предложенный в работе, называется **ReVQom**. Это **конечно-то метод**, основывающийся на **кодировании признаков с помощью векторного кодирования с резидуальными векторами (RVQ)**. Он состоит из двух основных элементов: 1. **Бутаннек-сеть** (bottleneck network), которая уменьшает размерность признаков, 2. **Кодирование резидуальных векторов (RVQ)**, которое позволяет компрессировать данные, сохранив ключевые свойства признаков. ReVQom работает **полностью в автоматическом режиме** и позволяет **кодировать только конечные индексы резидуальных векторов**, не передавая весь вектор. Это достигается благодаря тому, что кодирование резидуальных векторов позволяет уменьшить размер передаваемого сообщения до минимума, при этом сохраняя максимально возможную точность. ## Результаты Результаты испытаний были получены с использованием датасета **DAIR-V2X**, который представляет собой реальные сцены, собранные в условиях многоагентного взаимодействия. Результаты показали, что **ReVQom обеспечивает значительное сжатие данных** с 8192 бит на пиксель (в случае несжатых данных) до **6-30 бит на пиксель** с помощью RVQ. Это дает возможность **273x до 1365x сжатия**, при этом **не приводит к существенному ухудшению точности**. Даже при наименьших значениях сжатия (например, **6 бит на пиксель**), ReVQom позволяет производить **эффективное совместное восприятие** с минимальными потерями точности. Таким образом, **ReVQom** достигает **эффективного баланса между сжатием и точностью**, что является ключевым для практического применения в реальных сетях, таких как V2X (Vehicle-to-Everything). ## Значимость **ReVQom** открывает новые возможности для **применения многоагентного восприятия** в реальных усло

Annotation:

Multi-agent collaborative perception (CP) improves scene understanding by sharing information across connected agents such as autonomous vehicles, unmanned aerial vehicles, and robots. Communication bandwidth, however, constrains scalability. We present ReVQom, a learned feature codec that preserves spatial identity while compressing intermediate features. ReVQom is an end-to-end method that compresses feature dimensions via a simple bottleneck network followed by multi-stage residual vector qua...

ID: 2509.21464v1 cs.CV, cs.RO

arXiv PDF

📄 DynaNav: Dynamic Feature and Layer Selection for Efficient Visual Navigation

2025-09-30

Авторы:

Jiahui Wang, Changhao Chen

## Контекст Visual navigation является ключевым заданием в области робототехники и embodied AI. Оно позволяет системам визуально изучать и взаимодействовать с окружающим миром. Несмотря на прогресс в области фундаментальных моделей, таких как transformer-based decoders, эти модели сталкиваются с значительными проблемами. Они требуют высокого вычислительного затрат и имеют ограниченную интерпретируемость, что ставит под сомнение их применение в сценариях с ограниченными ресурсами, таких как мобильные роботы в реальном времени. DynaNav предлагает решение, сфокусировавшись на эффективности и понимании результатов. ## Метод DynaNav является динамическим фреймворком для визуальной навигации, который адаптирует выбор функций и слоев в зависимости от сложности сцены. Основной компонент — trainable hard feature selector, работающий на основе спарсных операций, чтобы уменьшить вычислительные затраты. Для улучшения интерпретируемости внедрена механизм выхода задолго до конца вычислений (early-exit), где Bayesian Optimization определяет оптимальные пороги для выхода. Это динамическое решение эффективности позволяет значительно сократить объем вычислительных операций и повысить прозрачность решения. ## Результаты DynaNav протестирован на наборах данных, основанных на реальном мире и симуляционных средах. На основе результатов экспериментов, DynaNav показал существенную эффективность. Он достиг 2.26x уменьшения FLOPs, 42.3% более низкой скорости выполнения инференса и 32.8% более низкого потребления памяти, в сравнении с ViNT. В то же время, DynaNav показал улучшение показателей навигационной производительности на четырех открытых наборах данных. Эти результаты подтверждают высокую эффективность DynaNav в реальных и симуляционных сценариях. ## Значимость DynaNav широко может применяться в различных областях, включая мобильные роботы, embodied AI, и визуальный поиск. Он обеспечивает высокую эффективность, снижает нагрузку на ресурсы и повышает интерпретируемость решений. Эти преимущества делают DynaNav привлекательным для разработки систем, которым необходимо быстро реагировать в реальном времени, при этом сохраняя высокую точность. ## Выводы В результате, DynaNav представляет собой прорыв в области эффективных систем визуальной навигации. Он эффективно адаптирует выбор функций и слоев в зависимости от сложности сцены, реализуя динамическую оптимизацию и интерпретируемость. Будущие исследования будут сфокусированы на расширении функциональных возможностей DynaNav и его применении в реальных мировых задачах.

Annotation:

Visual navigation is essential for robotics and embodied AI. However, existing foundation models, particularly those with transformer decoders, suffer from high computational overhead and lack interpretability, limiting their deployment in resource-tight scenarios. To address this, we propose DynaNav, a Dynamic Visual Navigation framework that adapts feature and layer selection based on scene complexity. It employs a trainable hard feature selector for sparse operations, enhancing efficiency and...

ID: 2509.21930v1 cs.CV, cs.RO

arXiv PDF

📄 MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

2025-09-30

Авторы:

Jinkun Hao, Naifu Liang, Zhen Luo, Xudong Xu, Weipeng Zhong, Ran Yi, Yichen Jin, Zhaoyang Lyu, Feng Zheng, Lizhuang Ma, Jiangmiao Pang

## Контекст Табличные сцены, состоящие из различных предметов, являются важной частью интерактивных систем для роботов, включая помощью в повседневных задачах. Однако создание таких сцен, которые были бы взаимосвязаны с задачами и реалистичными, остается вызовом. Традиционные подходы, такие как ручное размещение объектов или рандомизированные методы, либо требуют много времени, либо недостаточно реалистичны и не достаточно связаны с задачами. Мы предлагаем формулировать задачу генерации табличных сцен, ориентированных на задачи, чтобы улучшить процесс создания таких сцен. Эта задача требует продвинутого подхода, который может воссоздать реальные табличные сцены, которые соответствуют заданным задачам. ## Метод Мы предлагаем архитектуру, называемую Spatial Reasoning Chain, которая разделяет процесс генерации на три этапа: инференция объектов, разумление пространственных связей, и построение сценны графа. Эта цепочка применяется для построения 3D-макета сцены. Мы также предлагаем MesaTask, которая использует LLM (Large Language Model) для улучшения процесса генерации сцен. Для обеспечения реалистичности и физической правдоподобности, мы используем DPO (Differentiable Physics Optimization), чтобы создать табличные сцены, которые соответствуют заданным задачам. ## Результаты Мы провели эксперименты с MesaTask, сравнив ее с другими подходами. Мы использовали нашу новую синтетическую табличную сцену, MesaTask-10K, которая состоит из 10,700 сцен, где каждая сцена была структурирована с помощью ручного размещения. Результаты показывают, что MesaTask превосходит существующие подходы в создании табличных сцен, которые лучше соответствуют заданным задачам. Мы также проверили, что наш подход может генерировать табличные сцены, которые не только выглядят реалистично, но и хорошо соответствуют задачам. ## Значимость Наша работа имеет значительные приложения в сфере роботов, а также в различных областях, таких как виртуальная реальность и игровые системы. Метод, который мы предлагаем, может быть использован для улучшения процесса создания табличных сцен, которые могут использоваться для обучения моделей, проверки систем, и даже для помощи в разработке новых задач. Мы также продемонстрировали, что наш подход может быть использован для решения сложных задач, которые требуют глубокого понятия пространственных отношений и логики. ## Выводы Мы представляем MesaTask, новую методику для решения задачи генерации табличных сцен, ориентированных на задачи. Мы продемонстрировали, что наш подход превосходит существующие подходы в создании табличных сцен, которые соответствуют заданным задачам. М

Annotation:

The ability of robots to interpret human instructions and execute manipulation tasks necessitates the availability of task-relevant tabletop scenes for training. However, traditional methods for creating these scenes rely on time-consuming manual layout design or purely randomized layouts, which are limited in terms of plausibility or alignment with the tasks. In this paper, we formulate a novel task, namely task-oriented tabletop scene generation, which poses significant challenges due to the s...

ID: 2509.22281v1 cs.CV, cs.RO

arXiv PDF

📄 JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

2025-09-30

Авторы:

Shuang Zeng, Dekang Qi, Xinyuan Chang, Feng Xiong, Shichao Xie, Xiaolong Wu, Shiyi Liang, Mu Xu, Xing Wei

#### Контекст Vision-and-Language Navigation (VLN) — это задача, в которой эмбодированный агент должен перемещаться по неизвестной среде, ориентируясь на естественный язык и непрерывный видеопоток. Несмотря на то, что новые подходы в VLN существенно улучшили показатели данной задачи, они часто сталкиваются с проблемами, такими как эффективность памяти и качество понимания сцены. Эти проблемы возникают из-за сложности в оптимальном объединении семантического понимания и геометрических представлений. Мы привлекли внимание к идее двустороннего способа восприятия, присутствующего в человеческой навигации, и предлагаем новую модель, которая деконструирует эти аспекты для более эффективного алгоритма. #### Метод Мы предлагаем JanusVLN, новую модель VLN, основанную на двух специализированных нейросетевых памятях — spatial-geometric memory и visual-semantic memory. Эти две памяти работают как два независимых модуля, объединенных в единое целое. Spatial-geometric memory сохраняет геометрические свойства пространства, в то время как visual-semantic memory заключает в себе семантические характеристики визуального содержимого. Мы также используем Multimodal Large Language Model (MLLM) для расширения модели с трехмерными знаниями, которые помогают модели лучше ориентироваться в пространстве. Для эффективности вычислений используется алгоритм слайдинг-window, который позволяет постоянно обновлять память, но при этом избегать лишнего расчета. #### Результаты Мы провели эксперименты на широко известных данных, таких как Room-to-Room (R2R), Room-for-Room (R4R) и Touchdown, которые показали высокую эффективность JanusVLN. Мы сравнили нашу модель с более чем 20 современными методами, и она показала самые высокие результаты. Например, улучшение успешности на R2R достигло 35.5% при использовании данных типа RGB+Depth в сравнении с другими методами. Наши результаты показали, что модель JanusVLN эффективна даже при ограничении наличия данных, что является ключевым преимуществом в сравнении с другими подходами. #### Значимость Мы показали, что JanusVLN не только улучшает существующие рекорды, но и открывает новые возможности в VLN. Модель может применяться в таких областях, как проектирование интерактивных сред и виртуальная реальность. Основное преимущество заключается в том, что она сочетает в себе эффективность в памяти и точность в ориентировании, что делает ее особенно полезной для задач, требующих высокой эффективности. #### Выводы Мы достигли значительных улучшений в VLN с помощью модели JanusVLN, которая деконструирует пространственные и семантические задачи. Наша работа открывает путь к будущим исследованиям в об

Annotation:

Vision-and-Language Navigation requires an embodied agent to navigate through unseen environments, guided by natural language instructions and a continuous video stream. Recent advances in VLN have been driven by the powerful semantic understanding of Multimodal Large Language Models. However, these methods typically rely on explicit semantic memory, such as building textual cognitive maps or storing historical visual frames. This type of method suffers from spatial information loss, computation...

ID: 2509.22548v1 cs.CV, cs.RO

arXiv PDF

Показано 151 - 160 из 246 записей