Text2Touch: Tactile In-Hand Manipulation with LLM-Designed Reward Functions
2509.07445v1
cs.RO, cs.AI
2025-09-11
Авторы:
Harrison Field, Max Yang, Yijiong Lin, Efi Psomopoulou, David Barton, Nathan F. Lepora
Резюме на русском
## Контекст
Декстерная манипуляция — ключевой аспект робототехники, требующий точности, скорости и устойчивости. Тактильные сенсоры, которые предоставляют важные данные о нажатии и сенсорном восприятии, являются критически важными для достижения такой декстерности. Однако существуют значительные вызовы в использовании тактильных сигналов для оптимизации декстерных манипуляций с помощью традиционных алгоритмов обучения. Большие языковые модели (LLMs) показывают перспективы в автоматизации проектирования ревардов, но до сих пор не применялись к задачам, включающим тактильные сигналы. Текстовый конвейер Text2Touch предлагает новый подход к вопросу, используя LLM-разработанные ревард-функции для ускорения развития декстерных трудов с применением реальных тактильных сенсоров.
## Метод
Text2Touch разрабатывает LLM-разработанные ревард-функции для многоосевой декстерной манипуляции с помощью набора реальных тактильных данных. Метод использует цепные модели, настроенные с помощью симуляционных моделей робота и последующего перехода к реальной среде. Основным инструментом является продвинутая стратегия промптинга, которая позволяет обрабатывать более 70 параметров среды. Важным элементом является процесс сим-то-реального перехода, обеспечивающий успешное перенос моделей из симуляционного окружения в реальный мир. Этот подход охватывает задачи многоугольного вращения объекта с жесткостью и многоугольной манипуляцией в разных положениях ладони.
## Результаты
Эксперименты подтвердили существенное превосходство Text2Touch над традиционной руководственной стратегией. Используя LLM-разработанные ревард-функции, система достигла более высокой скорости и устойчивости вращения, с меньшим количеством необходимых параметров. Набор разработанных тактильных сенсорных моделей был успешно перенесен в реальную среду с помощью симуляционных моделей. Эти результаты показывают, что LLM-разработанные модели могут быстро и эффективно решать задачи, включающие трактории вращения и управление сенсорным восприятием.
## Значимость
Text2Touch может быть применен во многих областях, включая робототехнику, производство и помощь роботам в интерфейсах с визуальным восприятием. Одним из основных преимуществ является ускорение разработки декстерных систем с применением реальных тактильных сигналов. Области применения включают не только роботы-манпуляторы, но и системы, требующие точного сенсорного восприятия. Этот подход может положительно повлиять на многомерные системы управления, уменьшая время от концепции к реализации в тонких
Abstract
Large language models (LLMs) are beginning to automate reward design for
dexterous manipulation. However, no prior work has considered tactile sensing,
which is known to be critical for human-like dexterity. We present Text2Touch,
bringing LLM-crafted rewards to the challenging task of multi-axis in-hand
object rotation with real-world vision based tactile sensing in palm-up and
palm-down configurations. Our prompt engineering strategy scales to over 70
environment variables, and sim-to-real distillation enables successful policy
transfer to a tactile-enabled fully actuated four-fingered dexterous robot
hand. Text2Touch significantly outperforms a carefully tuned human-engineered
baseline, demonstrating superior rotation speed and stability while relying on
reward functions that are an order of magnitude shorter and simpler. These
results illustrate how LLM-designed rewards can significantly reduce the time
from concept to deployable dexterous tactile skills, supporting more rapid and
scalable multimodal robot learning. Project website:
https://hpfield.github.io/text2touch-website
Ссылки и действия
Дополнительные ресурсы: