📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Yuhang Gao, Xiang Xiang, Sheng Zhong, Guoyou Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Vision-Language Models (VLMs) have shown significant progress in open-set challenges. However, the limited availability of 3D datasets hinders their effective application in 3D scene understanding. We propose LOC, a general language-guided framework adaptable to various occupancy networks, supporting both supervised and self-supervised learning paradigms. For self-supervised tasks, we employ a strategy that fuses multi-frame LiDAR points for dynamic/static scenes, using Poisson reconstruction to...
ID: 2510.22141v1 cs.CV, cs.CL, cs.LG, cs.RO, eess.IV
Авторы:

Harry Robertshaw, Han-Ru Wu, Alejandro Granados, Thomas C Booth

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Autonomous navigation for mechanical thrombectomy (MT) remains a critical challenge due to the complexity of vascular anatomy and the need for precise, real-time decision-making. Reinforcement learning (RL)-based approaches have demonstrated potential in automating endovascular navigation, but current methods often struggle with generalization across multiple patient vasculatures and long-horizon tasks. We propose a world model for autonomous endovascular navigation using TD-MPC2, a model-based ...
ID: 2509.25518v2 cs.LG, cs.RO, eess.IV
Авторы:

Wenxin Li, Kunyu Peng, Di Wen, Ruiping Liu, Mengfei Duan, Kai Luo, Kailun Yang

## Контекст Embodied intelligence требует точного выделения объектов, активно участвующих в интеракции. Активная обработка видеоматериалов позволяет связать обработку семантике действий, однако это зависит от больших наборов данных с этикетками, которые требуются для подготовки моделей. Такие данные трудоемки в получении, чувствительны к ошибкам и часто непоследовательны. Данную проблему ещё не изучали. В настоящей работе мы стремимся изучить активную сегментацию видеообъектов в условиях шума в этикетках, ориентируясь на два источника шума: шум в текстовых приглашениях (ошибки в категориальных принадлежностях и внутрикатегорийных сменах глаголов) и шум в масках (неточные границы объектов, что моделирует неточное направление). ## Метод Мы предлагаем новую модель для активной сегментации видео, которая может выдерживать шум в категориях и неточности в масках. Методика включает в себя обучение модели с разными уровнями шума в этикетках и масках, а также улучшение структуры видеомаскировки, чтобы улучшить точность работы с неточными данными. Мы также разработали новый бенчмарк ActiSeg-NL, который позволяет измерить устойчивость моделей к шуму в этикетках в разных условиях. ## Результаты Мы проводили эксперименты с разными моделями, тестировали их на ActiSeg-NL и проверяли их устойчивость к разным видам шума. Мы обнаружили, что некоторые модели более устойчивы к текстовым шумам, в то время как другие устойчивы к маскировочным шумам. Мы также установили, что новые методы улучшения маскировки, такие как Parallel Mask Head Mechanism (PMHM), могут значительно повысить устойчивость к неточностям в масках. ## Значимость Наша работа может использоваться в различных приложениях, где необходима взаимодействие с объектами в реальном времени, например в системах-роботах, видеонаблюдении и AR/VR. Новая модель демонстрирует значительные преимущества в обработке шума в этикетках и может использоваться в искусственном интеллекте для более точных и надёжных систем. ## Выводы Мы установили новый бенчмарк для изучения шума в этикетках в активной сегментации видеообъектов. Мы разработали новые методы для улучшения устойчивости моделей к шумам и показали, что они могут существенно повысить точность в условиях шума. В дальнейшем, мы планируем расширить тестирование на более сложных сценариях и улучшить модель для обработки более сложных типов шума.
Annotation:
Embodied intelligence relies on accurately segmenting objects actively involved in interactions. Action-based video object segmentation addresses this by linking segmentation with action semantics, but it depends on large-scale annotations and prompts that are costly, inconsistent, and prone to multimodal noise such as imprecise masks and referential ambiguity. To date, this challenge remains unexplored. In this work, we take the first step by studying action-based video object segmentation unde...
ID: 2509.16677v1 cs.CV, cs.LG, cs.RO, eess.IV