📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Seq-DeepIPC: Sequential Sensing for End-to-End Control in Legged Robot Navigation

2025-10-29

Авторы:

Oskar Natan, Jun Miura

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present Seq-DeepIPC, a sequential end-to-end perception-to-control model for legged robot navigation in realworld environments. Seq-DeepIPC advances intelligent sensing for autonomous legged navigation by tightly integrating multi-modal perception (RGB-D + GNSS) with temporal fusion and control. The model jointly predicts semantic segmentation and depth estimation, giving richer spatial features for planning and control. For efficient deployment on edge devices, we use EfficientNet-B0 as the ...

ID: 2510.23057v1 cs.RO, cs.CV, cs.SY, eess.IV, eess.SY

arXiv PDF

📄 Can SSD-Mamba2 Unlock Reinforcement Learning for End-to-End Motion Control?

2025-09-11

Авторы:

Gavin Tao, Yinuo Wang, Jinzhao Zhou

## Контекст Многие современные системы моторного управления построены на базе методов реконструкции перцепции и активного управления, но не все эти системы могут обеспечить значительную производительность при сочетании разных типов входных данных. Особенностью таких систем является то, что они часто не могут эффективно обрабатывать данные локального восприятия (проприорецепции) и внешнего восприятия (ексетероцепции) одновременно, что ограничивает их возможности в широком спектре задач. Неверно управляемые системы моторного управления могут привести к нежелательным случайным ситуациям, таким как коллизии, неудачные попытки удержания баланса и другие неблагоприятные результаты. На практике это значит, что необходимо разработать более универсальные и эффективные системы моторного управления, которые могут обрабатывать одновременно большое количество входных данных с различных источников, включая как локальные, так и внешние данные. ## Метод Мы предлагаем развитие фреймворка для решения задач моторного управления с использованием **SSD-Mamba2**, который является современным селективным рекуррентным сетным блоком. Эта модель применяет преобразование стойких состояний для обработки данных входов в виде тензоров, и эти тензоры затем используются в качестве входных данных для алгоритмов моторного управления. Архитектура фреймворка включает в себя модульное сеттное устройство, которое использует **state-space duality** (SSD) для обеспечения рекуррентных и конволюционных процессов в сетке. Таким образом, модель может обрабатывать как быстрые рекуррентные данные, так и детальные конволюционные данные. Благодаря этому, модель SSD-Mamba2 может обеспечить высокую производительность, как при работе с локальными данными, так и при обработке внешних входных данных. ## Результаты Мы провели эксперименты с данными, полученными в различных модификациях задач моторного управления. Использовались различные типы входных данных, в том числе изображения, глубинные карты и другие сенсорные данные. Результаты показали, что наша модель **SSD-Mamba2** показывает значительно улучшенную эффективность по сравнению с другими моделями, которые не использовали новые структуры сетки. Модель обеспечивает более высокую производительность в задачах моторного управления, в том числе в задачах, требующих сложного взаимодействия с окружающим пространством. Эксперименты показали, что нашу модель можно использовать в различных сценариях, включая сценарии с управлением роботов, которые должны решать задачи, включая коллизии, удержание баланса и другие. ## Значимость Наша модель может быть применена в различных

Annotation:

End-to-end reinforcement learning for motion control promises unified perception-action policies that scale across embodiments and tasks, yet most deployed controllers are either blind (proprioception-only) or rely on fusion backbones with unfavorable compute-memory trade-offs. Recurrent controllers struggle with long-horizon credit assignment, and Transformer-based fusion incurs quadratic cost in token length, limiting temporal and spatial context. We present a vision-driven cross-modal RL fram...

ID: 2509.07593v1 cs.RO, cs.AI, cs.CV, cs.SY, eess.IV, eess.SY

arXiv PDF

📄 F2PASeg: Feature Fusion for Pituitary Anatomy Segmentation in Endoscopic Surgery

2025-08-09

Авторы:

Lumin Chen, Zhiying Wu, Tianye Lei, Xuexue Bai, Ming Feng, Yuxi Wang, Gaofeng Meng, Zhen Lei, Hongbin Liu

**Резюме** В питомической хирургии возникает трудность с предсказанием рисков повреждения близлежащих важных анатомических структур в реальном времени. Одной из ключевых задач здесь является сегментация анатомических структур во время операции. Однако отсутствие больших анотированных тренировочных данных и особенности интраоперационной среды (камерный движение, кровоизлияния и пр.) препятствуют развитию эффективных алгоритмов. Мы предлагаем F2PASeg — модель, основанную на функции слияния признаков (Feature Fusion), которая улучшает сегментацию анатомических структур в условиях внутриоперационных неполадок. Модель обучается на новом датасете **Pituitary Anatomy Segmentation (PAS)**, содержащем 7,845 временно связанных изображений из 120 видео. Для уменьшения классового несбалансированности были использованы аугментационные техники, представляющие собой имитацию наличия средств в операционной сцене. Результаты экспериментов показали, что F2PASeg обеспечивает точную и быструю сегментацию ключевых анатомических структур, даже при переменных условиях внутриоперационной среды. Это делает её полезной для улучшения безопасности и планирования операций.

Annotation:

Pituitary tumors often cause deformation or encapsulation of adjacent vital structures. Anatomical structure segmentation can provide surgeons with early warnings of regions that pose surgical risks, thereby enhancing the safety of pituitary surgery. However, pixel-level annotated video stream datasets for pituitary surgeries are extremely rare. To address this challenge, we introduce a new dataset for Pituitary Anatomy Segmentation (PAS). PAS comprises 7,845 time-coherent images extracted from ...

ID: 2508.05465v1 cs.CV, cs.SY, eess.IV, eess.SY

arXiv PDF