Score the Steps, Not Just the Goal: VLM-Based Subgoal Evaluation for Robotic Manipulation
2509.19524v1
cs.AI, cs.RO
2025-09-26
Авторы:
Ramy ElMallah, Krish Chhajer, Chi-Guhn Lee
Резюме на русском
## Контекст
Научные исследования в области робототехники часто опираются на меру успеха, определяемую стандартным показателем успешности (SR), который возвращается после завершения целого эксперимента. Однако этот подход скрывает информацию о том, как политика или агент справляется с каждым отдельным шагом в многошаговом манипуляционном задании. Например, в постановке цели гарантированного успеха могут быть обнаружены проблемы с отдельными действиями (например, захватом или полива). Данная проблема требует альтернативных подходов к оценке производительности, которые могут помочь выявить слабые места и сократить время на отладку.
## Метод
Мы предлагаем методологию, основанную на использовании виджета лингвистического моделирования (VLM) для оценки подзадач в многошаговой манипуляции. Наша методика заключается в том, чтобы измерять производительность по отдельным подзадачам (например, захват, подъем, полив), которые составляют целостную задачу. Мы предлагаем архитектуру StepEval, которая использует VLM для автоматической оценки подзадач на основе видео- или изображений-кадров. Эта архитектура использует метрики, такие как время работы, затраты на ресурсы и позиционирование, чтобы выявлять слабые места в поведении робота. Также мы предлагаем расширить текущую модель, добавив поддержку многоканальных входных данных и многомерной оценки.
## Результаты
Мы провели эксперименты с помощью нашего подхода на задачах, включающих три независимых подзадачи: подъем, захват и полив. В качестве данных для тестирования мы использовали видеосъемки робота в разных сценариях. Результаты показали, что наша методика позволяет выявить слабые места в производительности робота на каждой отдельной подзадаче, что дает новый взгляд на общую эффективность. Мы также проверили, насколько наша модель может быть устойчива к разным типам данных и сценариям.
## Значимость
Наш подход может быть применен в различных областях, таких как робототехника, логистика и медицинские технологии, где требуется точная эффективность в многошаговых операциях. Он обеспечивает более глубокий анализ производительности робота, позволяя выявить и исправить слабые места в процессе. Также этот подход может быть использован для оптимизации ресурсов, таких как энергопотребление и время работы, что делает его привлекательным для индустрии.
## Выводы
Мы предложили новый подход к оценке производительности роботов, который ориентирован на подзадачи. Наша работа может стать началом для создания открытого проекта, который поможет стандартизировать и улучшить мето
Abstract
Robot learning papers typically report a single binary success rate (SR),
which obscures where a policy succeeds or fails along a multi-step manipulation
task. We argue that subgoal-level reporting should become routine: for each
trajectory, a vector of per-subgoal SRs that makes partial competence visible
(e.g., grasp vs. pour). We propose a blueprint for StepEval, a cost-aware
plug-in evaluation framework that utilizes vision-language models (VLMs) as
automated judges of subgoal outcomes from recorded images or videos. Rather
than proposing new benchmarks or APIs, our contribution is to outline design
principles for a scalable, community-driven open-source project. In StepEval,
the primary artifact for policy evaluation is the per-subgoal SR vector;
however, other quantities (e.g., latency or cost estimates) are also considered
for framework-optimization diagnostics to help the community tune evaluation
efficiency and accuracy when ground-truth subgoal success labels are available.
We discuss how such a framework can remain model-agnostic, support single- or
multi-view inputs, and be lightweight enough to adopt across labs. The intended
contribution is a shared direction: a minimal, extensible seed that invites
open-source contributions, so that scoring the steps, not just the final goal,
becomes a standard and reproducible practice.
Ссылки и действия
Дополнительные ресурсы: