Tenma: Robust Cross-Embodiment Robot Manipulation with Diffusion Transformer

2509.11865v1 cs.RO, cs.AI 2025-09-17
Авторы:

Travis Davies, Yiqi Huang, Yunxin Liu, Xiang Chen, Huxian Liu, Luhui Hu

Резюме на русском

## Контекст Модели трансформера и модели диффузии (diffusion models) стали важными инструментами в области робототехники, особенно в задачах управления роботами. Однако, внедрение этих моделей в сценарии с множеством роботов (cross-embodiment) остается трудной проблемой. Основные задачи включают в себя обеспечение стабильности обучения, увеличение производительности и поддержание универсальности. Несмотря на успех трансформеров и моделей диффузии в робототехнических задачах, их эффективное интегрирование в средах с разными типами роботов и различными данными остается сложной задачей. Большая часть робототехнической литературы как раз и исследует эти проблемы, пытаясь создать модели, которые могли бы применяться в различных сценариях с множеством роботов. ## Метод Для решения этих проблем разработана модель Tenma, которая является легковесной моделью диффузионного трансформера. Tenma работает с бимановым управлением роботов и объединяет различные виды данных, такие как RGB-изображения, проприоцепция и языковые команды. Модель включает в себя несколько ключевых компонентов: **Cross-Embodiment Normalizer**, который нормализует различные многообразные пространства состояний и действий в единое пространство, **Joint State-Time Encoder**, который объединяет наблюдения во временной последовательности для лучшего понимания динамики, и **Diffusion Action Decoder**, оптимизированный для улучшения обучения и способствующий увеличению общей мощности модели. Эти компоненты делают Tenma универсальной и стабильной в различных условиях. ## Результаты На экспериментальных испытаниях Tenma показала высокую устойчивость и эффективность. Она достигла успешности в работе на 88.95% при использовании одного и того же количества вычислительных ресурсов, что значительно превосходит базовые модели, где лучшая успешность составила 18.12%. Этот результат достигнут благодаря особенностям Tenma, включая универсальность в работе с разными типами роботов и способность учитывать многообразие входных данных. Даже при небольшом объеме данных, Tenma показывает высокую универсальность и общие способности, что демонстрирует возможности данного подхода для увеличения производительности и общей мощности трансформеров-имитаторов. ## Значимость Tenma может применяться в различных робототехнических сценариях, где необходимо эффективное управление несколькими роботами с разными данными и условиями. Основные преимущества Tenma заключаются в высокой производительности, общей модели, которая может применяться в различных условиях, и в способности обрабатывать разные типы данных. Эти возможности открывают новые пер

Abstract

Scaling Transformer policies and diffusion models has advanced robotic manipulation, yet combining these techniques in lightweight, cross-embodiment learning settings remains challenging. We study design choices that most affect stability and performance for diffusion-transformer policies trained on heterogeneous, multimodal robot data, and introduce Tenma, a lightweight diffusion-transformer for bi-manual arm control. Tenma integrates multiview RGB, proprioception, and language via a cross-embodiment normalizer that maps disparate state/action spaces into a shared latent space; a Joint State-Time encoder for temporally aligned observation learning with inference speed boosts; and a diffusion action decoder optimized for training stability and learning capacity. Across benchmarks and under matched compute, Tenma achieves an average success rate of 88.95% in-distribution and maintains strong performance under object and scene shifts, substantially exceeding baseline policies whose best in-distribution average is 18.12%. Despite using moderate data scale, Tenma delivers robust manipulation and generalization, indicating the great potential for multimodal and cross-embodiment learning strategies for further augmenting the capacity of transformer-based imitation learning policies.

Ссылки и действия