PersONAL: Towards a Comprehensive Benchmark for Personalized Embodied Agents

2509.19843v1 cs.CV, cs.RO 2025-09-26

Авторы:

Filippo Ziliotto, Jelin Raphael Akkara, Alessandro Daniele, Lamberto Ballan, Luciano Serafini, Tommaso Campari

Резюме на русском

## Контекст В последние годы, Embodied AI стали возможностью для агентов, выполняющих комплексные задачи и адаптирующихся к различным окружениям. Однако, применение таких агентов в реальных сценариях, таких как домашние окружения, по-прежнему сложным и вызовом. Одним из ключевых проблемов является моделирование индивидуальных предпочтений и поведений людей. Для решения этой проблемы, мы предлагаем PersONAL (PERSonalized Object Navigation And Localization) — комплексный бенчмарк, который рассматривает вопросы персонализации в Embodied AI. Агенты должны выполнять задачи, такие как поиск и доставка предметов, относящихся к конкретному пользователю, посредством естественного общения. ## Метод PersONAL включает более 2000 высококачественных эпизодов, размещенных в 30+ фотореалистичных домах из HM3D датасета. Каждый эпизод содержит естественно-языковую сценарную описание, связывающую предметы с их владельцами (например, "найди рюкзак Лилли"). Бенчмарк поддерживает две режима оценки: (1) активное навигирование в новых окружениях и (2) гранулярное размещение предметов в уже изученных сценах. Это позволяет изучить способность агентов различать семантику, связанную с каждым пользователем. ## Результаты Эксперименты с текущими состояниями технологий показали существенное расстояние между их результатами и поведением человека. Агенты сталкиваются с трудностями в распознавании индивидуальных предпочтений и воспроизведении пользовательской семантики. Например, агенты столкнулись с проблемами в том, чтобы распознать и привязать объекты к их владельцам в новых сценах, что демонстрирует необходимость более сложных моделей, умеющих обрабатывать индивидуальные данные. ## Значимость PersONAL открывает новые перспективы для применения в различных областях, включая робототехнику, ассистирующие роботы и интеллектуальные дома. Улучшение моделей, способных принимать решения на основе индивидуальных предпочтений, может обеспечить более эффективное взаимодействие с людьми и расширить возможности использования агентов в реальном мире. ## Выводы PersONAL показывает, что вопрос персонализации в Embodied AI все еще остается открытым и требует дальнейшего исследования. Будущие работы будут сфокусированы на развитии моделей, которые будут умеет реагировать на уникальные особенности каждого пользователя, а также на расширении вычислительных мощностей для поддержки более сложных сценариев.

Abstract

Recent advances in Embodied AI have enabled agents to perform increasingly complex tasks and adapt to diverse environments. However, deploying such agents in realistic human-centered scenarios, such as domestic households, remains challenging, particularly due to the difficulty of modeling individual human preferences and behaviors. In this work, we introduce PersONAL (PERSonalized Object Navigation And Localization, a comprehensive benchmark designed to study personalization in Embodied AI. Agents must identify, retrieve, and navigate to objects associated with specific users, responding to natural-language queries such as "find Lily's backpack". PersONAL comprises over 2,000 high-quality episodes across 30+ photorealistic homes from the HM3D dataset. Each episode includes a natural-language scene description with explicit associations between objects and their owners, requiring agents to reason over user-specific semantics. The benchmark supports two evaluation modes: (1) active navigation in unseen environments, and (2) object grounding in previously mapped scenes. Experiments with state-of-the-art baselines reveal a substantial gap to human performance, highlighting the need for embodied agents capable of perceiving, reasoning, and memorizing over personalized information; paving the way towards real-world assistive robot.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

PersONAL: Towards a Comprehensive Benchmark for Personalized Embodied Agents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация