Rational Inverse Reasoning

2508.08983v1 cs.RO, cs.AI 2025-08-14
Авторы:

Ben Zandonati, Tomás Lozano-Pérez, Leslie Pack Kaelbling

Резюме на русском

## Контекст В последние годы растет интерес к развитию роботов, которые могут эффективно имитировать человеческое поведение в различных ситуациях. Однако существуют затруднения в обучении роботов по малому количеству примеров. Человеческий мозг может оптимально адаптироваться под контекст, опираясь на небольшое число опытов, в то время как роботы часто требуют многочисленных итераций для достижения общей эффективности. Основной причиной этого является нехватка способности роботов корректно структурировать предметные знания и достичь высокоуровневого понимания задачи. Мы предлагаем фреймворк Rational Inverse Reasoning (RIR), который стремится решить эту проблему, ориентируясь на воспроизведение логики и интуитивного мышления человека. ## Метод Rational Inverse Reasoning (RIR) — это процедура, основанная на генеративном моделировании, которая опрачивает проблему инверсного упражнения. Метод использует визуально-языковую модель для синтеза теорий в виде структурированных программных ходах. Эти теории проверяются с помощью планировщика, который оценивает логику каждого хода по мере получения новых данных. Это позволяет RIR строить краткие, но точные программы, которые удачно описывают целевые действия в условиях несмежных данных. ## Результаты Мы проверили RIR на основе нескольких сценариев смены объектов и поверхностей, включая перемещения и перегрузки предметов. Наши эксперименты показали, что RIR может эффективно переносить знания после визуального восприятия малого числа примеров. Он превосходит современные модели по скорости и точности понимания целевого хода, даже когда уровень тестовой ситуации отличается от обучающей. ## Значимость RIR может быть применен в различных сферах, включая автоматизацию производств, оптимизацию роботов в сфере здравоохранения, а также в участии в интеллектуальных задачах, подразумевающих преодоление препятствий и решение нестандартных задач. Этот подход обеспечивает быструю адаптацию, меньшее количество данных для обучения и может улучшить производительность роботов в реальных условиях. ## Выводы Мы представили Rational Inverse Reasoning как эффективный метод для понимания и воспроизведения задач, основанных на небольших примерах. Наши результаты показывают, что этот подход способен значительно улучшить роботскую интеллектуальную адаптацию в сложных средах. Мы планируем дальнейшие исследования в области улучшения параметров обучения и проверки RIR в новых задачах, чтобы усилить модельную универсальность.

Abstract

Humans can observe a single, imperfect demonstration and immediately generalize to very different problem settings. Robots, in contrast, often require hundreds of examples and still struggle to generalize beyond the training conditions. We argue that this limitation arises from the inability to recover the latent explanations that underpin intelligent behavior, and that these explanations can take the form of structured programs consisting of high-level goals, sub-task decomposition, and execution constraints. In this work, we introduce Rational Inverse Reasoning (RIR), a framework for inferring these latent programs through a hierarchical generative model of behavior. RIR frames few-shot imitation as Bayesian program induction: a vision-language model iteratively proposes structured symbolic task hypotheses, while a planner-in-the-loop inference scheme scores each by the likelihood of the observed demonstration under that hypothesis. This loop yields a posterior over concise, executable programs. We evaluate RIR on a suite of continuous manipulation tasks designed to test one-shot and few-shot generalization across variations in object pose, count, geometry, and layout. With as little as one demonstration, RIR infers the intended task structure and generalizes to novel settings, outperforming state-of-the-art vision-language model baselines.

Ссылки и действия