PersONAL: Towards a Comprehensive Benchmark for Personalized Embodied Agents
2509.19843v1
cs.CV, cs.RO
2025-09-26
Авторы:
Filippo Ziliotto, Jelin Raphael Akkara, Alessandro Daniele, Lamberto Ballan, Luciano Serafini, Tommaso Campari
Резюме на русском
## Контекст
В последние годы, Embodied AI стали возможностью для агентов, выполняющих комплексные задачи и адаптирующихся к различным окружениям. Однако, применение таких агентов в реальных сценариях, таких как домашние окружения, по-прежнему сложным и вызовом. Одним из ключевых проблемов является моделирование индивидуальных предпочтений и поведений людей. Для решения этой проблемы, мы предлагаем PersONAL (PERSonalized Object Navigation And Localization) — комплексный бенчмарк, который рассматривает вопросы персонализации в Embodied AI. Агенты должны выполнять задачи, такие как поиск и доставка предметов, относящихся к конкретному пользователю, посредством естественного общения.
## Метод
PersONAL включает более 2000 высококачественных эпизодов, размещенных в 30+ фотореалистичных домах из HM3D датасета. Каждый эпизод содержит естественно-языковую сценарную описание, связывающую предметы с их владельцами (например, "найди рюкзак Лилли"). Бенчмарк поддерживает две режима оценки: (1) активное навигирование в новых окружениях и (2) гранулярное размещение предметов в уже изученных сценах. Это позволяет изучить способность агентов различать семантику, связанную с каждым пользователем.
## Результаты
Эксперименты с текущими состояниями технологий показали существенное расстояние между их результатами и поведением человека. Агенты сталкиваются с трудностями в распознавании индивидуальных предпочтений и воспроизведении пользовательской семантики. Например, агенты столкнулись с проблемами в том, чтобы распознать и привязать объекты к их владельцам в новых сценах, что демонстрирует необходимость более сложных моделей, умеющих обрабатывать индивидуальные данные.
## Значимость
PersONAL открывает новые перспективы для применения в различных областях, включая робототехнику, ассистирующие роботы и интеллектуальные дома. Улучшение моделей, способных принимать решения на основе индивидуальных предпочтений, может обеспечить более эффективное взаимодействие с людьми и расширить возможности использования агентов в реальном мире.
## Выводы
PersONAL показывает, что вопрос персонализации в Embodied AI все еще остается открытым и требует дальнейшего исследования. Будущие работы будут сфокусированы на развитии моделей, которые будут умеет реагировать на уникальные особенности каждого пользователя, а также на расширении вычислительных мощностей для поддержки более сложных сценариев.
Abstract
Recent advances in Embodied AI have enabled agents to perform increasingly
complex tasks and adapt to diverse environments. However, deploying such agents
in realistic human-centered scenarios, such as domestic households, remains
challenging, particularly due to the difficulty of modeling individual human
preferences and behaviors. In this work, we introduce PersONAL (PERSonalized
Object Navigation And Localization, a comprehensive benchmark designed to study
personalization in Embodied AI. Agents must identify, retrieve, and navigate to
objects associated with specific users, responding to natural-language queries
such as "find Lily's backpack". PersONAL comprises over 2,000 high-quality
episodes across 30+ photorealistic homes from the HM3D dataset. Each episode
includes a natural-language scene description with explicit associations
between objects and their owners, requiring agents to reason over user-specific
semantics. The benchmark supports two evaluation modes: (1) active navigation
in unseen environments, and (2) object grounding in previously mapped scenes.
Experiments with state-of-the-art baselines reveal a substantial gap to human
performance, highlighting the need for embodied agents capable of perceiving,
reasoning, and memorizing over personalized information; paving the way towards
real-world assistive robot.
Ссылки и действия
Дополнительные ресурсы: