How Good are Foundation Models in Step-by-Step Embodied Reasoning?
2509.15293v1
cs.CV, cs.RO
2025-09-23
Авторы:
Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, Noor Ahsan, Ritesh Thawkar, Ketan More, Jean Lahoud, Rao Anwer, Hisham Cholakkal, Ivan Laptev, Fahad Shahbaz Khan, Salman Khan
Резюме на русском
#### Контекст
Область исследования включает развитие и применение широковещательных моделей для обеспечения решающих возможностей у роботов в физическом мире. Эти модели должны не только эффективно решать задачи, но и быть безопасными, специфичными и обоснованными в контексте. Несмотря на успехы в области зрительного понимания и генерации текста, современные модели сталкиваются с трудностями при выполнении сложных задач, требующих логического и структурированного рассуждения в реальных средах. Наша мотивация заключается в изучении возможностей широковещательных моделей в области шаг за шагом принятия решений в условиях роботов с полным телом, оперирующих в физической среде.
#### Метод
Мы предлагаем новый бенчмарк под названием Foundation Model Embodied Reasoning (FoMER), предназначенный для оценки возможностей широковещательных моделей в области логического планирования и принятия решений в условиях роботов. Бенчмарк включает разнообразные задачи, требующие роботов интерпретировать многомодальные данные, учитывать физические ограничения и риски, а также формировать действия в естественной речи. Мы использовали разнообразные типы роботов, что позволило создать широкий пере rechtи докладчиков: Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, Noor Ahsan, Ritesh Thawkar, Ketan More, Jean Lahoud, Rao Anwer, Hisham Cholakkal, Ivan Laptev, Fahad Shahbaz Khan, Salman Khan.
Abstract
Embodied agents operating in the physical world must make decisions that are
not only effective but also safe, spatially coherent, and grounded in context.
While recent advances in large multimodal models (LMMs) have shown promising
capabilities in visual understanding and language generation, their ability to
perform structured reasoning for real-world embodied tasks remains
underexplored. In this work, we aim to understand how well foundation models
can perform step-by-step reasoning in embodied environments. To this end, we
propose the Foundation Model Embodied Reasoning (FoMER) benchmark, designed to
evaluate the reasoning capabilities of LMMs in complex embodied decision-making
scenarios. Our benchmark spans a diverse set of tasks that require agents to
interpret multimodal observations, reason about physical constraints and
safety, and generate valid next actions in natural language. We present (i) a
large-scale, curated suite of embodied reasoning tasks, (ii) a novel evaluation
framework that disentangles perceptual grounding from action reasoning, and
(iii) empirical analysis of several leading LMMs under this setting. Our
benchmark includes over 1.1k samples with detailed step-by-step reasoning
across 10 tasks and 8 embodiments, covering three different robot types. Our
results highlight both the potential and current limitations of LMMs in
embodied reasoning, pointing towards key challenges and opportunities for
future research in robot intelligence. Our data and code will be made publicly
available.
Ссылки и действия
Дополнительные ресурсы: