Tenma: Robust Cross-Embodiment Robot Manipulation with Diffusion Transformer
2509.11865v1
cs.RO, cs.AI
2025-09-17
Авторы:
Travis Davies, Yiqi Huang, Yunxin Liu, Xiang Chen, Huxian Liu, Luhui Hu
Резюме на русском
## Контекст
Модели трансформера и модели диффузии (diffusion models) стали важными инструментами в области робототехники, особенно в задачах управления роботами. Однако, внедрение этих моделей в сценарии с множеством роботов (cross-embodiment) остается трудной проблемой. Основные задачи включают в себя обеспечение стабильности обучения, увеличение производительности и поддержание универсальности. Несмотря на успех трансформеров и моделей диффузии в робототехнических задачах, их эффективное интегрирование в средах с разными типами роботов и различными данными остается сложной задачей. Большая часть робототехнической литературы как раз и исследует эти проблемы, пытаясь создать модели, которые могли бы применяться в различных сценариях с множеством роботов.
## Метод
Для решения этих проблем разработана модель Tenma, которая является легковесной моделью диффузионного трансформера. Tenma работает с бимановым управлением роботов и объединяет различные виды данных, такие как RGB-изображения, проприоцепция и языковые команды. Модель включает в себя несколько ключевых компонентов: **Cross-Embodiment Normalizer**, который нормализует различные многообразные пространства состояний и действий в единое пространство, **Joint State-Time Encoder**, который объединяет наблюдения во временной последовательности для лучшего понимания динамики, и **Diffusion Action Decoder**, оптимизированный для улучшения обучения и способствующий увеличению общей мощности модели. Эти компоненты делают Tenma универсальной и стабильной в различных условиях.
## Результаты
На экспериментальных испытаниях Tenma показала высокую устойчивость и эффективность. Она достигла успешности в работе на 88.95% при использовании одного и того же количества вычислительных ресурсов, что значительно превосходит базовые модели, где лучшая успешность составила 18.12%. Этот результат достигнут благодаря особенностям Tenma, включая универсальность в работе с разными типами роботов и способность учитывать многообразие входных данных. Даже при небольшом объеме данных, Tenma показывает высокую универсальность и общие способности, что демонстрирует возможности данного подхода для увеличения производительности и общей мощности трансформеров-имитаторов.
## Значимость
Tenma может применяться в различных робототехнических сценариях, где необходимо эффективное управление несколькими роботами с разными данными и условиями. Основные преимущества Tenma заключаются в высокой производительности, общей модели, которая может применяться в различных условиях, и в способности обрабатывать разные типы данных. Эти возможности открывают новые пер
Abstract
Scaling Transformer policies and diffusion models has advanced robotic
manipulation, yet combining these techniques in lightweight, cross-embodiment
learning settings remains challenging. We study design choices that most affect
stability and performance for diffusion-transformer policies trained on
heterogeneous, multimodal robot data, and introduce Tenma, a lightweight
diffusion-transformer for bi-manual arm control. Tenma integrates multiview
RGB, proprioception, and language via a cross-embodiment normalizer that maps
disparate state/action spaces into a shared latent space; a Joint State-Time
encoder for temporally aligned observation learning with inference speed
boosts; and a diffusion action decoder optimized for training stability and
learning capacity. Across benchmarks and under matched compute, Tenma achieves
an average success rate of 88.95% in-distribution and maintains strong
performance under object and scene shifts, substantially exceeding baseline
policies whose best in-distribution average is 18.12%. Despite using moderate
data scale, Tenma delivers robust manipulation and generalization, indicating
the great potential for multimodal and cross-embodiment learning strategies for
further augmenting the capacity of transformer-based imitation learning
policies.
Ссылки и действия
Дополнительные ресурсы: