Text2Touch: Tactile In-Hand Manipulation with LLM-Designed Reward Functions

2509.07445v1 cs.RO, cs.AI 2025-09-11

Авторы:

Harrison Field, Max Yang, Yijiong Lin, Efi Psomopoulou, David Barton, Nathan F. Lepora

Резюме на русском

## Контекст Декстерная манипуляция — ключевой аспект робототехники, требующий точности, скорости и устойчивости. Тактильные сенсоры, которые предоставляют важные данные о нажатии и сенсорном восприятии, являются критически важными для достижения такой декстерности. Однако существуют значительные вызовы в использовании тактильных сигналов для оптимизации декстерных манипуляций с помощью традиционных алгоритмов обучения. Большие языковые модели (LLMs) показывают перспективы в автоматизации проектирования ревардов, но до сих пор не применялись к задачам, включающим тактильные сигналы. Текстовый конвейер Text2Touch предлагает новый подход к вопросу, используя LLM-разработанные ревард-функции для ускорения развития декстерных трудов с применением реальных тактильных сенсоров. ## Метод Text2Touch разрабатывает LLM-разработанные ревард-функции для многоосевой декстерной манипуляции с помощью набора реальных тактильных данных. Метод использует цепные модели, настроенные с помощью симуляционных моделей робота и последующего перехода к реальной среде. Основным инструментом является продвинутая стратегия промптинга, которая позволяет обрабатывать более 70 параметров среды. Важным элементом является процесс сим-то-реального перехода, обеспечивающий успешное перенос моделей из симуляционного окружения в реальный мир. Этот подход охватывает задачи многоугольного вращения объекта с жесткостью и многоугольной манипуляцией в разных положениях ладони. ## Результаты Эксперименты подтвердили существенное превосходство Text2Touch над традиционной руководственной стратегией. Используя LLM-разработанные ревард-функции, система достигла более высокой скорости и устойчивости вращения, с меньшим количеством необходимых параметров. Набор разработанных тактильных сенсорных моделей был успешно перенесен в реальную среду с помощью симуляционных моделей. Эти результаты показывают, что LLM-разработанные модели могут быстро и эффективно решать задачи, включающие трактории вращения и управление сенсорным восприятием. ## Значимость Text2Touch может быть применен во многих областях, включая робототехнику, производство и помощь роботам в интерфейсах с визуальным восприятием. Одним из основных преимуществ является ускорение разработки декстерных систем с применением реальных тактильных сигналов. Области применения включают не только роботы-манпуляторы, но и системы, требующие точного сенсорного восприятия. Этот подход может положительно повлиять на многомерные системы управления, уменьшая время от концепции к реализации в тонких

Abstract

Large language models (LLMs) are beginning to automate reward design for dexterous manipulation. However, no prior work has considered tactile sensing, which is known to be critical for human-like dexterity. We present Text2Touch, bringing LLM-crafted rewards to the challenging task of multi-axis in-hand object rotation with real-world vision based tactile sensing in palm-up and palm-down configurations. Our prompt engineering strategy scales to over 70 environment variables, and sim-to-real distillation enables successful policy transfer to a tactile-enabled fully actuated four-fingered dexterous robot hand. Text2Touch significantly outperforms a carefully tuned human-engineered baseline, demonstrating superior rotation speed and stability while relying on reward functions that are an order of magnitude shorter and simpler. These results illustrate how LLM-designed rewards can significantly reduce the time from concept to deployable dexterous tactile skills, supporting more rapid and scalable multimodal robot learning. Project website: https://hpfield.github.io/text2touch-website

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Text2Touch: Tactile In-Hand Manipulation with LLM-Designed Reward Functions

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация