📚 Саммари научных статей из arXiv

Найдено 126 результатов по запросу 'cs.AI, cs.RO' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Train-Once Plan-Anywhere Kinodynamic Motion Planning via Diffusion Trees

2025-08-29

Авторы:

Yaniv Hassidof, Tom Jurgenson, Kiril Solovey

#################### ## Контекст #################### Kinodynamic motion planning является ключевым вопросом в автоматизированных системах, где необходимо вычислить коллизионно-свободные маршруты для роботов, при этом соблюдая их динамические ограничения. Эта задача часто решается с помощью sampling-based planners (SBPs), которые исследуют высокомерное состояние робота, построя структуры поиска в виде дерева действий. Хотя SBPs обеспечивают глобальные гарантии на выполнимость и качество решения, их эффективность часто ограничивается неоптимальным поиском в связи с необразованным выбором действий. Учитывая это, нейронные сети и машинное обучение могут существенно ускорить работу, однако они сталкиваются с проблемами общительности и безопасности, что сделает их непригодными для применения в реальных системах. Мы предлагаем Diffusion Tree (DiTree), новый планировщик, который объединяет силу diffusion policies (DPs) с выполнительными свойствами SBPs, чтобы быстро и безопасно решать задачи движения в трудных средах. #################### ## Метод #################### Diffusion Tree (DiTree) использует diffusion policies (DPs) как информированные сэмплеры для эффективного прохождения пространства состояний в SBP. DPs могут эффективно аппроксимировать распределение экспертных маршрутов, оптимизировав выбор действий на основе локальных наблюдений. Это позволяет DiTree руководствоваться SBP-алгоритмом, обеспечивая точность и полноту решения во время короткого времени. Мы внедрили DiTree в классический RRT-планировщик, обучив DPs на данных, собранных в одной среде, что делает его гибким и эффективным в разных условиях. #################### ## Результаты #################### Мы провели комплексные эксперименты на сложных тренажерах, включая неизвестные среды (OOD), чтобы проверить эффективность DiTree. Результаты показали, что DiTree не только достигает 3x быстрее выполнения по сравнению с RBSP (разумная нижняя граница для SBP-достижение), но и превосходит классические SBP-алгоритмы, повышая успешность решения более чем на 30%. Эти результаты доказывают, что DiTree обеспечивает быстрое, безопасное и универсальное решение для кинодинамического планирования движения. #################### ## Значимость #################### DiTree может применяться в различных системах автоматизированного управления, включая роботов-роботов, воздушные транспортные средства и другие системы, требующие комплексного контроля динамики. Его основным преимуществом является способность быстро и безопасно решать задачи в сложных динамических средах с высоким уровнем зависимости от обучения. Помимо скорости и безопасности, DiTree может существенно снизить расходы на вычислительные ресурсы и увеличить эффективность работы роботизированных систем. #################### ## Выводы #################### Di

Annotation:

Kinodynamic motion planning is concerned with computing collision-free trajectories while abiding by the robot's dynamic constraints. This critical problem is often tackled using sampling-based planners (SBPs) that explore the robot's high-dimensional state space by constructing a search tree via action propagations. Although SBPs can offer global guarantees on completeness and solution quality, their performance is often hindered by slow exploration due to uninformed action sampling. Learning-b...

ID: 2508.21001v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 Neural Algorithmic Reasoners informed Large Language Model for Multi-Agent Path Finding

2025-08-27

Авторы:

Pu Feng, Size Wang, Yuhong Cao, Junkang Liang, Rongye Shi, Wenjun Wu

## Контекст Multi-agent path finding (MAPF) является относительно недавно исследуемой областью в искусственном интеллекте, которая заключается в управлении несколькими агентами, чтобы они могли перемещаться по карте, избегая коллизий. Эту задачу можно применять в различных сценариях, включая робототехнику, игры с несколькими участниками и управление транспортом. Несмотря на то, что обычные традиционные методы, такие как A* или динамическое программирование, работают достаточно хорошо для MAPF, они часто имеют ограничения в обработке больших данных или сложных сценариев. Однако недавнее развитие больших моделей языка (LLM) позволило использовать их для решения широкого спектра задач, включая MAPF. Однако существуют недостатки в способности LLM решать MAPF, что делает необходимым развитие новых подходов для улучшения их эффективности в таких задачах. ## Метод Мы предлагаем **LLM-NAR (Large Language Model with Neural Algorithmic Reasoner)** — новую архитектуру, которая использует LLM в качестве основы и включает модель графов с нейронными алгоритмическими моделями (NAR) для улучшения производительности в задачах MAPF. Данная модель состоит из трех элементов: **LLM для MAPF**, которая предоставляет базовую модель для обработки языка, **предварительно обученной модели графов с GNN** (Graph Neural Network), которая обрабатывает карту и данные по маршрутам, и **кросс-аттенционной механизмом**, которая помогает LLM и NAR взаимодействовать. Это взаимодействие позволяет LLM использовать графы и карты для более точного планирования. Мы также внедрили адаптивную стратегию обучения, позволяющую LLM-NAR становиться более эффективной при решении сложных задач MAPF. ## Результаты Мы провели ряд экспериментов для оценки эффективности LLM-NAR. Для этого мы использовали две различные среды: симуляционную и реальную, для проверки возможности модели. Мы сравнили LLM-NAR с другими существующими подходами, в том числе с LLM-only моделями и традиционными MAPF-методами. Отчеты показали, что LLM-NAR не только существенно улучшает производительность в сравнении с LLM-only моделями, но и превосходит традиционные MAPF-методы в сложных задачах. В симуляционных и реальных экспериментах LLM-NAR показал высокую точность и эффективность в решении задач, что демонстрирует его высокую применимость в различных сценариях. ## Значимость LLM-NAR может быть применено в различных областях, включая робототехнику, системы управления транспортом и игровые системы. Одним из основных преимуществ является улучшение производительности в задачах MAPF за счет интеграции LLM с нейронными моделями, что позволяет обрабатывать более сложные сценарии. Кроме того, L

Annotation:

The development and application of large language models (LLM) have demonstrated that foundational models can be utilized to solve a wide array of tasks. However, their performance in multi-agent path finding (MAPF) tasks has been less than satisfactory, with only a few studies exploring this area. MAPF is a complex problem requiring both planning and multi-agent coordination. To improve the performance of LLM in MAPF tasks, we propose a novel framework, LLM-NAR, which leverages neural algorithm...

ID: 2508.17971v1 cs.AI, cs.RO

arXiv PDF

📄 Do What? Teaching Vision-Language-Action Models to Reject the Impossible

2025-08-26

Авторы:

Wen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan

## Контекст В статье Do What? Teaching Vision-Language-Action Models to Reject the Impossible рассматривается вопрос обучения Vision-Language-Action (VLA) моделей распознавать и отвергать задачи, невыполнимые из-за ложных предположений. Эти задачи возникают, когда команды пользователей описывают ситуации, отсутствующие в реальности. Это сложность становится важной, так как VLA модели, основанные на мультимодальных входных данных, должны не только предсказывать действия, но и корректно интерпретировать цели пользователей, даже если постановка задачи некорректна. Некорректность может привести к ошибкам в распознавании, что затрудняет обеспечение надежности и эффективности таких моделей. Интерес к данному вопросу связан с целью улучшения способности VLA моделей работать в реальных условиях, где ложные предположения часто встречаются. ## Метод Для решения данной проблемы предложена методология Instruct-Verify-and-Act (IVA). Она состоит из трех этапов: (i) распознавание ложных предположений в командах пользователей, (ii) уточнение или исправление некорректной команды с помощью естественного языка, (iii) переход к действию, исходя из возможностей распознавания и действий модели. Для обучения и тестирования IVA была разработана инновационная семиклассовая структура языковых запросов с искусственными сценариями, позволяющими симулировать различные ситуации с ложными предположениями. Модель обучалась на сочетании данных, наблюдаемых в живых условиях и полученных в имитационных средах. Данный подход позволил обеспечить широкий спектр ситуаций, включая те, которые невозможно реализовать в реальной среде. ## Результаты Исследования показали, что IVA значительно улучшает точность распознавания ложных предположений (на 97.56%) по сравнению с базовыми моделями. Также возрос успешность ответа на задачи с ложными предположениями (на 50.78%). Это достигнуто благодаря контекстно уточняемой структуре языковых запросов и использованию семиклассового подхода в обучении модели. Модель демонстрирует высокую резильтативность в обнаружении и корректировке ложных предположений, что улучшает надежность работы модели в реальных условиях. ## Значимость Предложенный подход может быть применен в различных областях, где VLA модели применяются в сочетании с робототехникой и управлением. Особенно полезен для систем, работающих в условиях неопределенности и несогласованности в командах пользователей. Основное преимущество IVA заключается в его способности естественным языком уточнять некорректные запросы, что уменьшает частоту ошибок и повышает эффективность. Будущие исследования будут направлены на допол

Annotation:

Recently, Vision-Language-Action (VLA) models have demonstrated strong performance on a range of robotic tasks. These models rely on multimodal inputs, with language instructions playing a crucial role -- not only in predicting actions, but also in robustly interpreting user intent, even when the requests are impossible to fulfill. In this work, we investigate how VLAs can recognize, interpret, and respond to false-premise instructions: natural language commands that reference objects or conditi...

ID: 2508.16292v1 cs.AI, cs.RO

arXiv PDF

📄 Learning to Drive Ethically: Embedding Moral Reasoning into Autonomous Driving

2025-08-23

Авторы:

Dianzhao Li, Ostap Okhrin

#### Контекст Исследование рассматривает вопросы этического принятия решений в автономном вождении, что является ключевым фактором для успешного внедрения автономных транспортных систем. Несмотря на прогресс в области искусственного интеллекта и автоматизации, автомобили с автономным управлением сталкиваются с проблемами этики в сложных сценариях, таких как принятие моральных решений в ситуациях неопределенности или опасности. Эти проблемы приобретают большое значение для создания доверия к технологии, обеспечения соответствия законам и реализации безопасных, удовлетворительных для всех решений в транспортной системе. В статье предлагается новый подход к решению этой проблемы путем внедрения морального разума в автономное управление велосипедами и подобными активными системами. #### Метод Предлагаемая модель основывается на фреймворке Safe Reinforcement Learning (Safe RL), который сочетает моральные рассуждения с традиционными целями вождения, такими как безопасность и эффективность. На уровне принятия решений создана система, которая использует композитный этический кост, включающий в себя вероятность столкновения и серьезность последствий. Эта модель позволяет формировать высокоуровневые моторные цели, принимая во внимание этики. На уровне исполнения полиномиальные алгоритмы планирования пути и контроллеры Proportional-Integral-Derivative (PID) и Stanley используются для преобразования высокоуровневых моторных целей в рабочие пути. Для улучшения обучения используется динамическая механика Prioritized Experience Replay, которая повышает внимание к редким, но критичным ситуациям. #### Результаты Метод был тестирован на разнообразных реальных данных с высокой разнообразием транспортных средств, включая автомобили, велосипеды и пешеходов. Эксперименты проводились с помощью симуляторов и реальных экспериментов. Результаты показали, что подход эффективно решает проблему этического принятия решений, сокращая риск столкновений и повышая безопасность вождения. Особое внимание уделяется тому, что модель не только эффективно решает моральные задачи, но и сохраняет высокую производительность вождения. #### Значимость Предложенный подход имеет широкие потенциальные применения в области автономного транспорта, включая улучшение безопасности, соответствия нормам и удовлетворение моральных стандартов вождения. Одним из основных преимуществ является возможность обучения модели в реальных сценариях, что обеспечивает более точное и эффективное принятие решений. Этот подход может сыграть ключевую роль в ускорении внедрения автономных транспортных систем, обеспечивая их безо

Annotation:

Autonomous vehicles hold great promise for reducing traffic fatalities and improving transportation efficiency, yet their widespread adoption hinges on embedding robust ethical reasoning into routine and emergency maneuvers. Here, we present a hierarchical Safe Reinforcement Learning (Safe RL) framework that explicitly integrates moral considerations with standard driving objectives. At the decision level, a Safe RL agent is trained using a composite ethical risk cost, combining collision probab...

ID: 2508.14926v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 RynnEC: Bringing MLLMs into Embodied World

2025-08-22

Авторы:

Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao

#### Контекст Область исследования, связанная с embodied cognition, нацелена на развитие технологий, позволяющих системам понимать и взаимодействовать с физическим миром на более точном уровне. Однако существуют значительные проблемы в этой области, включая недостаточность данных для обучения моделей, ограниченные возможности понимания видеопоследовательностей и недостаточное развитие общих решений для обеспечения гранулярности и точности взаимодействия. Мотивация для этого исследования заключается в развитии моделей, которые могут эффективно обрабатывать видеоданные, обеспечивая глубокое понимание физического мира и поддерживая тонко настроенные взаимодействия. #### Метод RynnEC является видеомодульным большой языковой моделью, ориентированной на embodied cognition. Основной архитектурой является общего назначения модель видения и языка, дополненная региональным кодировщиком и масковым декодером. Эти компоненты позволяют модели взаимодействовать с видео на уровне регионов, обеспечивая гранулярность в обработке. Метод использует готовую модель видения и языка, улучшая ее для обработки видео с точки зрения регионов. Процесс обучения включает адаптацию модели к задачам, таким как обнаружение свойств объектов, сегментация объектов и пространственное рассуждение, используя новые данные, полученные с помощью предложенного пайплайна для генерирования 3D-данных. #### Результаты Результаты показывают, что RynnEC превосходит существующие модели по метрикам, таким как Precision, Recall и F1-score, в задачах, таких как обнаружение свойств объектов, сегментация и пространственное рассуждение. Эксперименты проводились на собственном RynnEC-Bench, специально разработанном для оценки embodied cognition. Эти результаты доказывают, что RynnEC не только эффективно обрабатывает видеоданные, но и может совершенствоваться в задачах, требующих тонкой обработки сложных визуальных и пространственных сигналов. #### Значимость Результаты RynnEC имеют широкие области применения, включая области, где требуется точная обработка видеоданных, такие как видеонаблюдение, интерактивные системы, проектирование интеллектуальных агентов. Одним из ключевых преимуществ является улучшение точности взаимодействия с физическим миром, что может повлиять на развитие робототехники, AR/VR и систем контроля. Благодаря предлагаемому подходу, модель может стать основой для развития общих центров обработки информации для embodied agents, что способствует расширению возможностей в различных областях. #### Выводы RynnEC достигает состояния лидера в области embodied cognition, демонстрируя свою эффективность в трех ключевых задачах. Она обеспечивает то

Annotation:

We introduce RynnEC, a video multimodal large language model designed for embodied cognition. Built upon a general-purpose vision-language foundation model, RynnEC incorporates a region encoder and a mask decoder, enabling flexible region-level video interaction. Despite its compact architecture, RynnEC achieves state-of-the-art performance in object property understanding, object segmentation, and spatial reasoning. Conceptually, it offers a region-centric video paradigm for the brain of embodi...

ID: 2508.14160v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Learning Point Cloud Representations with Pose Continuity for Depth-Based Category-Level 6D Object Pose Estimation

2025-08-22

Авторы:

Zhujun Li, Shuo Zhang, Ioannis Stamos

## Контекст Category-level 6D object pose estimation является важной задачей в области зрения компьютера, нацеленной на определение 6D-позы и 3D-размеров объектов в представлении данных глубины. Данная задача находит применение в ассистированном робототводе, виртуальной реальности и других областях. Однако, существующие подходы, основанные на простых 6D-позных сигналах, часто страдают от несогласованности предсказаний и ограниченности в области новых поз, что снижает качество решения. Мотивирует нашу работу необходимость в улучшении точности и устойчивости предсказаний для универсального использования. ## Метод Мы предлагаем HRC-Pose, новую методику для выделения представлений точечных облаков, сохраняющих пределы 6D-позы. Наша методика основывается на контрастном обучении, который позволяет учитывать связанность между 6D-позами. HRC-Pose разделяет 6D-позу на компоненты поворота и перемещения, которые обрабатываются отдельно. Мы предлагаем 6D pose-aware hierarchical ranking scheme, который использует 6D-позы для сравнения точечных облаков из нескольких категорий. Для позиционирования, мы разработали модули для обработки rotation-aware и translation-aware embeddings, улучшая стабильность и точность. ## Результаты Мы проверили HRC-Pose на двух наборах данных REAL275 и CAMERA25. Выборка REAL275 включает реальные сцены, а CAMERA25 — синтетические. Наши эксперименты показали, что HRC-Pose выдает значительно улучшенную точность во всех категориях в сравнении с состоянием искусства, специально для глубинных данных. Мы также показали, что методика работает в реальном времени, что демонстрирует ее применность в реальных системах. ## Значимость Методика HRC-Pose может применяться в различных областях, таких как ассистированный робот, системы AR/VR и автоматизированная сборка. Она предлагает более точные и устойчивые предсказания 6D-позы в сравнении с состоянием искусства. Благодаря своей эффективности, она позволяет улучшить качество работы в реальных условиях. ## Выводы Мы доказали, что HRC-Pose позволяет улучшить точность 6D-позы в depth-based category-level estimation. Будущие исследования будут направлены на улучшение сложности модели и расширение ее применения к более широкой области 6D-поз.

Annotation:

Category-level object pose estimation aims to predict the 6D pose and 3D size of objects within given categories. Existing approaches for this task rely solely on 6D poses as supervisory signals without explicitly capturing the intrinsic continuity of poses, leading to inconsistencies in predictions and reduced generalization to unseen poses. To address this limitation, we propose HRC-Pose, a novel depth-only framework for category-level object pose estimation, which leverages contrastive learni...

ID: 2508.14358v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Recent Advances in Transformer and Large Language Models for UAV Applications

2025-08-19

Авторы:

Hamza Kheddar, Yassine Habchi, Mohamed Chahine Ghanem, Mustapha Hemis, Dusit Niyato

## Контекст Управление и операция непосредственно зависят от того, насколько эффективно выполняются задачи в области производительности и автономной работы систем непосредственно в рамках функциональных моделей и новых технологий. Развитие Трансформеров и больших языковых моделей (LLM) привело к переосмыслению области Трансформеров и элементов данных в УАВ, в том числе перцепции, решениями, а также в результате устойчивой работы в разных условиях. Однако существуют проблемы, связанные с высоким расходом ресурсов, требованиями к вычислительной эффективности и вопросами реального времени, которые до сих пор не решены в области УАВ. Данная статья стремится к новым техническим решениям, которые позволяют повысить эффективность и оптимизировать использование ресурсов в системах УАВ. ## Метод Данная работа предлагает подробный сопоставительный анализ и новую структуру Трансформеров в УАВ. Она выявляет три основных технических решения: а) использование аттенционных механизмов для улучшения решений в системах непосредственного управления, b) гибридные системы, которые объединяют трансформеры и целковые нейронные сети (CNN), c) реинфорсментовые алгоритмы, сочетающие Трансформеры с алгоритмами решений для реального времени. Также рассматривается развитие больших языковых моделей (LLM) для поддержки этих моделей. Работа по визуализации и оценке решений включает в себя таблицы с результатами и конкретные кейсы из УАВ, такие как автономная навигация и операции в разных условиях. ## Результаты Работа представляет собой трехуровневый подход к сравнению Трансформеров в УАВ: сравнение архитектур, сравнение результатов, а также оценку удовлетворяемости требований к реальному времени. Были рассмотрены несколько данных, включая LLMs и датасеты, которые помогли в тестировании и оценке моделей, в том числе по УАВ. Результаты показывают, что новые гибридные модели и Трансформеры на основе визуальных сигналов позволяют повысить точность решений и работу в реальном времени. Отдельная оценка основана на симуляторах и реальных данных, что позволяет сравнить решения в разных условиях. ## Значимость Открытое применение Трансформеров и LLMs в УАВ открывает новые возможности в области автономной работы и управления, в том числе в полевых операциях, фермерском секторе, доставке и других. Трансформеры предоставляют высокую точность и устойчивость, что является ключевым преимуществом. Большие языковые модели также позволяют оптимизировать работу, умень

Annotation:

The rapid advancement of Transformer-based models has reshaped the landscape of uncrewed aerial vehicle (UAV) systems by enhancing perception, decision-making, and autonomy. This review paper systematically categorizes and evaluates recent developments in Transformer architectures applied to UAVs, including attention mechanisms, CNN-Transformer hybrids, reinforcement learning Transformers, and large language models (LLMs). Unlike previous surveys, this work presents a unified taxonomy of Transfo...

ID: 2508.11834v1 cs.CV, cs.AI, cs.RO, cs.SY, eess.IV, eess.SY

arXiv PDF

📄 Scaling Up without Fading Out: Goal-Aware Sparse GNN for RL-based Generalized Planning

2025-08-16

Авторы:

Sangwoo Jeon, Juchul Shin, Gyeong-Tae Kim, YeonJe Cho, Seongwoo Kim

## Контекст Generalized planning — это задача автоматического построения решений для широкого класса задач, построенных на основе описаний в PDDL (Planning Domain Definition Language). Несмотря на то, что deep reinforcement learning (RL) и graph neural networks (GNNs) показали себя эффективными в этой области, существуют значительные проблемы. Основная трудность заключается в том, что planning states представляются как полносвязные графы, что приводит к затруднению обнаружения локальных зависимостей. Это усложняет обучение моделей в больших или сложных средах, таких как большие грид-среды. Увеличение масштаба задачи приводит к значительной проблеме с памятью и снижению точности. Наша мотивация заключается в разработке метода, который сумеет работать в этих сложных условиях, обеспечивая эффективность и гарантию общей политики. ## Метод Мы предлагаем **sparse, goal-aware GNN** — совершенно новую архитектуру, которая решает проблемы с памятью и производительностью в задачах generalized planning. Главная идея заключается в том, чтобы сделать представление графа **sparse**, то есть отображать только значимые отношения между узлами, а также добавить **explicit spatial features**, относящиеся к цели. Это позволяет эффективно интегрировать информацию о цели в данные планирования. Модель использует **goal-aware attention**, которая фокусируется на целевых объектах и исключает ненужные детали, снижая затраты памяти и улучшая обучение. ## Результаты Мы провели эксперименты в созданных PDDL-сценариях, основанных на грид-средах. Наши эксперименты показали, что наш метод **сильно превосходит** существующие подходы в следующих аспектах: 1. **Scale-up without Fading Out**: Модель способна эффективно работать на больших грид-средах, где другие подходы сталкиваются с проблемами с памятью и снижаются в точности. 2. **Improved Policy Generalization**: Наша модель показала значительное улучшение в общей политике, что делает ее применимую к различным задачам в рамках одной среды. 3. **Sparsity and Efficiency**: Мы доказали, что наш алгоритм эффективно использует ресурсы, поддерживая высокую производительность при меньшем потреблении памяти. ## Значимость Наш метод открывает новые возможности для решения **large-scale generalized planning tasks**. Он может быть применен в различных областях, таких как: - **Drone Mission Planning**: Ускорение и улучшение работы в сложных средах. - **Robotics**: Эффективное планирование в средах с неоднородной структурой. - **Smart Factories**: Увеличение уровня автоматизации и точности в задачах управления производством. Преимущество нашего подхода заключается в своей **scalability** и **generalization**, что делает его универсальным и применимым в различных классах задач. ## Выводы Мы представили **Scaling Up without Fading Out: Goal-Aware Sparse GNN for RL-based Generalized Planning**, который является прорывом в об

Annotation:

Generalized planning using deep reinforcement learning (RL) combined with graph neural networks (GNNs) has shown promising results in various symbolic planning domains described by PDDL. However, existing approaches typically represent planning states as fully connected graphs, leading to a combinatorial explosion in edge information and substantial sparsity as problem scales grow, especially evident in large grid-based environments. This dense representation results in diluted node-level inform...

ID: 2508.10747v1 cs.AI, cs.RO

arXiv PDF

📄 Surg-InvNeRF: Invertible NeRF for 3D tracking and reconstruction in surgical vision

2025-08-15

Авторы:

Gerardo Loza, Junlei Hu, Dominic Jones, Sharib Ali, Pietro Valdastri

#### Контекст Трекинг 3D-точек — ключевой вопрос в сфере стереоскопического визуального сервинга (SVS), сложным областью в становлении искусственного зрения в хирургии. Он требует постоянного отслеживания объектов в пространстве за счет передачи соответствий между кадрами. Основная проблема в трекинге заключается в необходимости обеспечить точность, устойчивость и высокую скорость вычислений. Существующие подходы часто сталкиваются с проблемами неквалифицированного оценивания движения или ограниченности в 2D-пространстве. Наша мотивация заключается в создании метода, который объединит точность, устойчивость и многослойный анализ пространственного пространства в системах хирургического визуального сервинга. #### Метод Мы предлагаем Surg-InvNeRF — новую модель, основанную на Invertible Neural Radiance Fields (InvNeRF), для решения проблемы трекинга в 3D. Наш подход тесно интегрирует нейронные сети с деформируемым NeRF для достижения бидирекционального деформируемого канонического отображения. Surg-InvNeRF предлагает несколько ключевых усовершенствований: 1. **Инверсионная NeRF-архитектура:** Она предлагает оптимизацию в тест-тайме (TTO), которая агрегирует соответствия из существующих методов TTO. 2. **Деформируемый NeRF:** Мы используем этот подход для обеспечения бидирекционального преобразования между деформированной и канонической системой координат. 3. **HexPlanes:** Это модифицированный вариант тензорных слоёв, который позволяет достичь быстрого расчёта. 4. **Процедура выбора пикселей и критерии сходимости:** Мы предлагаем новую процедуру для улучшения точности и скорости сходимости. Эти технические решения позволяют применять нашу модель в сценариях хирургического визуального сервинга, где необходима высокая точность и устойчивость. #### Результаты Мы проводили эксперименты на двух наборах данных: STIR и SCARE. На STIR мы оценивали точность 2D-трекинга, а на SCARE — 3D-трекинг и внедрение кинематических данных. Сравнение с текущими методами показало, что наш метод превосходит них в 2D-трекинге на 50% при той же скорости работы. В 3D-трекинге мы представляем первый TTO-подход, объединяющий точность и структуру, специфичные для деформируемого NeRF-подхода. #### Значимость Наш подход может применяться в следующих областях: - Хирургическое визуальное сервинге для улучшения точности и динамического отслеживания. - Развитии искусственного зрения для 3D-моделей в реальном времени. - Обучении и анализу движения в сложных трёхмерных пространствах. Преимущ

Annotation:

We proposed a novel test-time optimisation (TTO) approach framed by a NeRF-based architecture for long-term 3D point tracking. Most current methods in point tracking struggle to obtain consistent motion or are limited to 2D motion. TTO approaches frame the solution for long-term tracking as optimising a function that aggregates correspondences from other specialised state-of-the-art methods. Unlike the state-of-the-art on TTO, we propose parametrising such a function with our new invertible Neur...

ID: 2508.09681v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Shape Completion and Real-Time Visualization in Robotic Ultrasound Spine Acquisitions

2025-08-14

Авторы:

Miruna-Alexandra Gafencu, Reem Shaban, Yordanka Velikova, Mohammad Farid Azampour, Nassir Navab

## Контекст Ультразвуковое исследование (US) становится все более популярным при проведении процедур при позвоночнике, благодаря его реальному времени отображению и отсутствию излучений. Однако, его эффективность существенно ограничивается феноменом затемнения (shadowing artifacts), который затрудняет видимость глубинных тканей. Традиционные методы, такие как регистрация CT-to-US, используют анатомическую информацию из предварительных CT-сканов для улучшения визуализации, но они страдают от сложности регистрации, различий в кривизне позвоночника и необходимости иметь актуальные CT-сканы. Недавние методы комплексного описания формы могут предложить альтернативу, восстанавливая анатомические структуры в данных US, при этом используя предварительно обученные модели на огромных объемах публичных данных CT. Несмотря на это, эти подходы типично являются оффлайнными и имеют ограниченную воспроизводимость. Мы предлагаем новую, интегрированную систему, объединяющую роботизированный ультразвук и реальное время комплексного описания, для повышения визуализации позвоночника в ультразвуковых процедурах. ## Метод Наша система автоматически выполняет ультразвуковые сканы нижнего позвоночника с помощью роботизированного ультразвукового сканера, извлекает поверхности позвоночника из ультразвука и восстанавливает полную анатомию с помощью глубокого нейронного сетевого сетевого метода комплексного описания. Мы разрабатываем алгоритмы для точного восстановления анатомических структур и интегрируем их с роботизированной платформой для реального времени. Метод протестирован на макете и на данных волонтера, используя качественные и количественные подходы для оценки точности восстановления и визуализации. ## Результаты Мы проверяем нашу систему на макете и волонтерских данных. На макете, наши эксперименты показывают, что модель демонстрирует высокую точность восстановления глубинных анатомических структур, а также производит реальному времени визуализацию. На данных волонтера, система продемонстрировала возможность автоматического повторения сканов и интерактивной визуализации, что помогает повысить точность и понимание анатомии. Результаты показывают, что наш подход может сделать процедуры более последовательными и надежными. ## Значимость Наш подход может быть применен в различных областях медицины, включая хирургию позвоночника и другие сложные процедуры, где визуализация ключева. Он предоставляет преимущества, такие как улучшение точности, последовательности и понимания анатомии. Будущие исследования будут фоку

Annotation:

Ultrasound (US) imaging is increasingly used in spinal procedures due to its real-time, radiation-free capabilities; however, its effectiveness is hindered by shadowing artifacts that obscure deeper tissue structures. Traditional approaches, such as CT-to-US registration, incorporate anatomical information from preoperative CT scans to guide interventions, but they are limited by complex registration requirements, differences in spine curvature, and the need for recent CT imaging. Recent shape c...

ID: 2508.08923v1 cs.CV, cs.AI, cs.RO

arXiv PDF

1
2
10
11
12
13

Показано 111 - 120 из 126 записей