Score the Steps, Not Just the Goal: VLM-Based Subgoal Evaluation for Robotic Manipulation

2509.19524v1 cs.AI, cs.RO 2025-09-26
Авторы:

Ramy ElMallah, Krish Chhajer, Chi-Guhn Lee

Резюме на русском

## Контекст Научные исследования в области робототехники часто опираются на меру успеха, определяемую стандартным показателем успешности (SR), который возвращается после завершения целого эксперимента. Однако этот подход скрывает информацию о том, как политика или агент справляется с каждым отдельным шагом в многошаговом манипуляционном задании. Например, в постановке цели гарантированного успеха могут быть обнаружены проблемы с отдельными действиями (например, захватом или полива). Данная проблема требует альтернативных подходов к оценке производительности, которые могут помочь выявить слабые места и сократить время на отладку. ## Метод Мы предлагаем методологию, основанную на использовании виджета лингвистического моделирования (VLM) для оценки подзадач в многошаговой манипуляции. Наша методика заключается в том, чтобы измерять производительность по отдельным подзадачам (например, захват, подъем, полив), которые составляют целостную задачу. Мы предлагаем архитектуру StepEval, которая использует VLM для автоматической оценки подзадач на основе видео- или изображений-кадров. Эта архитектура использует метрики, такие как время работы, затраты на ресурсы и позиционирование, чтобы выявлять слабые места в поведении робота. Также мы предлагаем расширить текущую модель, добавив поддержку многоканальных входных данных и многомерной оценки. ## Результаты Мы провели эксперименты с помощью нашего подхода на задачах, включающих три независимых подзадачи: подъем, захват и полив. В качестве данных для тестирования мы использовали видеосъемки робота в разных сценариях. Результаты показали, что наша методика позволяет выявить слабые места в производительности робота на каждой отдельной подзадаче, что дает новый взгляд на общую эффективность. Мы также проверили, насколько наша модель может быть устойчива к разным типам данных и сценариям. ## Значимость Наш подход может быть применен в различных областях, таких как робототехника, логистика и медицинские технологии, где требуется точная эффективность в многошаговых операциях. Он обеспечивает более глубокий анализ производительности робота, позволяя выявить и исправить слабые места в процессе. Также этот подход может быть использован для оптимизации ресурсов, таких как энергопотребление и время работы, что делает его привлекательным для индустрии. ## Выводы Мы предложили новый подход к оценке производительности роботов, который ориентирован на подзадачи. Наша работа может стать началом для создания открытого проекта, который поможет стандартизировать и улучшить мето

Abstract

Robot learning papers typically report a single binary success rate (SR), which obscures where a policy succeeds or fails along a multi-step manipulation task. We argue that subgoal-level reporting should become routine: for each trajectory, a vector of per-subgoal SRs that makes partial competence visible (e.g., grasp vs. pour). We propose a blueprint for StepEval, a cost-aware plug-in evaluation framework that utilizes vision-language models (VLMs) as automated judges of subgoal outcomes from recorded images or videos. Rather than proposing new benchmarks or APIs, our contribution is to outline design principles for a scalable, community-driven open-source project. In StepEval, the primary artifact for policy evaluation is the per-subgoal SR vector; however, other quantities (e.g., latency or cost estimates) are also considered for framework-optimization diagnostics to help the community tune evaluation efficiency and accuracy when ground-truth subgoal success labels are available. We discuss how such a framework can remain model-agnostic, support single- or multi-view inputs, and be lightweight enough to adopt across labs. The intended contribution is a shared direction: a minimal, extensible seed that invites open-source contributions, so that scoring the steps, not just the final goal, becomes a standard and reproducible practice.

Ссылки и действия