📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 IndEgo: A Dataset of Industrial Scenarios and Collaborative Work for Egocentric Assistants

2025-11-26

Авторы:

Vivek Chavan, Yasmina Imgrund, Tung Dao, Sanwantri Bai, Bosong Wang, Ze Lu, Oliver Heimann, Jörg Krüger

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce IndEgo, a multimodal egocentric and exocentric dataset addressing common industrial tasks, including assembly/disassembly, logistics and organisation, inspection and repair, woodworking, and others. The dataset contains 3,460 egocentric recordings (approximately 197 hours), along with 1,092 exocentric recordings (approximately 97 hours). A key focus of the dataset is collaborative work, where two workers jointly perform cognitively and physically intensive tasks. The egocentric reco...

ID: 2511.19684v1 cs.CV, cs.AI, cs.HC, cs.RO

arXiv PDF

📄 Lightweight Structured Multimodal Reasoning for Clinical Scene Understanding in Robotics

2025-09-30

Авторы:

Saurav Jha, Stefan K. Ehrlich

#### Контекст Область робототехники в медицине становится все более важной для обеспечения безопасности и эффективности в динамичных клинических средах. Необходима внедрение развитых возможностей мультимодального понимания и рассуждения для адекватного взаимодействия роботов с окружающим миром. Несмотря на прогресс в области Vision-Language Models (VLMs), они до сих пор имеют ограничения в области логического и временного рассуждения, оценки неопределенности, а также в поддержке структурированных выводов, необходимых для точного робототехнического планирования. Эта статья предлагает новую модель, способную работать с видео и текстом и обеспечивающую структурированный вывод, чтобы улучшить понимание клинических сценариев в робототехнике. #### Метод Предложенная модель сочетает в себе Qwen2.5-VL-3B-Instruct с моделью SmolAgent. Модель Qwen2.5-VL-3B-Instruct обеспечивает сильную обработку текста и изображений, а SmolAgent добавляет свойства агентской модели, включая цепочки мыслей (chain-of-thought) и динамичную вызов функций. Модель включает гибкую систему восстановления информации, позволяющую адаптироваться к различным видам аналогичных данных. Кроме того, она использует гибридную систему смысловой разборки, которая позволяет строить структурированные графы сцены и анализировать видео поток в реальном времени. Эта архитектура позволяет роботу выполнять более точные и адаптивные операции в клинических условиях. #### Результаты На платформе Video-MME и на определенной клинической выборке, модель показала высокую точность и стабильность в сравнении с современными VLMs. Она существенно улучшила способность робота понимать видео-сценарии в реальном времени, оценивать неопределенность, и применять структурированные выводы для точного планирования действий. Результаты показывают, что модель превосходит текущие модели по метрикам точности и устойчивости в клинических условиях. Это указывает на сильный потенциал модели в применении к робототехнике в медицине, включая роботов-хирургов и системы мониторинга пациентов. #### Значимость Предлагаемая модель имеет широкие возможности применения в медицинской робототехнике, в том числе в таких областях, как роботовая хирургия, мониторинг пациентов и поддержка клинических решений. Ее особенностью является возможность гибкого интерактивного взаимодействия, что позволяет роботу еще более эффективно участвовать в клинических процессах. Модель также может повысить безопасность и эффективность в клинической практике, особенно при работе с нестандартными или неоднозначными ситуаци

Annotation:

Healthcare robotics requires robust multimodal perception and reasoning to ensure safety in dynamic clinical environments. Current Vision-Language Models (VLMs) demonstrate strong general-purpose capabilities but remain limited in temporal reasoning, uncertainty estimation, and structured outputs needed for robotic planning. We present a lightweight agentic multimodal framework for video-based scene understanding. Combining the Qwen2.5-VL-3B-Instruct model with a SmolAgent-based orchestration la...

ID: 2509.22014v1 cs.CV, cs.AI, cs.HC, cs.RO

arXiv PDF