Lightweight Structured Multimodal Reasoning for Clinical Scene Understanding in Robotics

2509.22014v1 cs.CV, cs.AI, cs.HC, cs.RO 2025-09-30
Авторы:

Saurav Jha, Stefan K. Ehrlich

Резюме на русском

#### Контекст Область робототехники в медицине становится все более важной для обеспечения безопасности и эффективности в динамичных клинических средах. Необходима внедрение развитых возможностей мультимодального понимания и рассуждения для адекватного взаимодействия роботов с окружающим миром. Несмотря на прогресс в области Vision-Language Models (VLMs), они до сих пор имеют ограничения в области логического и временного рассуждения, оценки неопределенности, а также в поддержке структурированных выводов, необходимых для точного робототехнического планирования. Эта статья предлагает новую модель, способную работать с видео и текстом и обеспечивающую структурированный вывод, чтобы улучшить понимание клинических сценариев в робототехнике. #### Метод Предложенная модель сочетает в себе Qwen2.5-VL-3B-Instruct с моделью SmolAgent. Модель Qwen2.5-VL-3B-Instruct обеспечивает сильную обработку текста и изображений, а SmolAgent добавляет свойства агентской модели, включая цепочки мыслей (chain-of-thought) и динамичную вызов функций. Модель включает гибкую систему восстановления информации, позволяющую адаптироваться к различным видам аналогичных данных. Кроме того, она использует гибридную систему смысловой разборки, которая позволяет строить структурированные графы сцены и анализировать видео поток в реальном времени. Эта архитектура позволяет роботу выполнять более точные и адаптивные операции в клинических условиях. #### Результаты На платформе Video-MME и на определенной клинической выборке, модель показала высокую точность и стабильность в сравнении с современными VLMs. Она существенно улучшила способность робота понимать видео-сценарии в реальном времени, оценивать неопределенность, и применять структурированные выводы для точного планирования действий. Результаты показывают, что модель превосходит текущие модели по метрикам точности и устойчивости в клинических условиях. Это указывает на сильный потенциал модели в применении к робототехнике в медицине, включая роботов-хирургов и системы мониторинга пациентов. #### Значимость Предлагаемая модель имеет широкие возможности применения в медицинской робототехнике, в том числе в таких областях, как роботовая хирургия, мониторинг пациентов и поддержка клинических решений. Ее особенностью является возможность гибкого интерактивного взаимодействия, что позволяет роботу еще более эффективно участвовать в клинических процессах. Модель также может повысить безопасность и эффективность в клинической практике, особенно при работе с нестандартными или неоднозначными ситуаци

Abstract

Healthcare robotics requires robust multimodal perception and reasoning to ensure safety in dynamic clinical environments. Current Vision-Language Models (VLMs) demonstrate strong general-purpose capabilities but remain limited in temporal reasoning, uncertainty estimation, and structured outputs needed for robotic planning. We present a lightweight agentic multimodal framework for video-based scene understanding. Combining the Qwen2.5-VL-3B-Instruct model with a SmolAgent-based orchestration layer, it supports chain-of-thought reasoning, speech-vision fusion, and dynamic tool invocation. The framework generates structured scene graphs and leverages a hybrid retrieval module for interpretable and adaptive reasoning. Evaluations on the Video-MME benchmark and a custom clinical dataset show competitive accuracy and improved robustness compared to state-of-the-art VLMs, demonstrating its potential for applications in robot-assisted surgery, patient monitoring, and decision support.

Ссылки и действия