ParaEQsA: Parallel and Asynchronous Embodied Questions Scheduling and Answering

2509.11663v1 cs.RO, cs.AI, cs.CV 2025-09-17
Авторы:

Haisheng Wang, Weiming Zhi

Резюме на русском

## Контекст Область исследования, связанная с Embodied Question Answering (EQA), фокусируется на создании роботов и софтверных систем, которые могут отвечать на вопросы, активно исследуя трехмерные пространства. Это проблема чрезвычайно важна для развития интеллектуальных систем, используемых в сферах, таких как управление домашними устройствами, автоматизация производства и помощь в жизненных задачах. Несмотря на успехи, полученные в EQA, существуют значительные ограничения. Традиционно EQA строится на действиях, которые проводятся последовательно и существенно зависят от успешного исследования окружающей среды. Однако в реальных ситуациях, возникают ситуации, когда необходимо обрабатывать множество вопросов, которые могут приходить вне порядка и с разным у deе. Это требует создания новых подходов, которые могут обеспечить эффективность и реагирование на асинхронные запросы. ## Метод Для решения данной проблемы, авторы предлагают формализовать новую задачу, называемую Embodied Questions Answering (EQsA), которая позволяет обрабатывать множество вопросов, включая асинхронные и с разным уровнем приоритета. Для этого разработана система ParaEQsA, которая включает в себя два основных модуля: **групповую память** для уменьшения проверок без добавления новой информации и **модуль планирования приоритетов**, который определяет порядок обработки вопросов в зависимости от их актуальности. Для обучения и оценки алгоритмов разработан бенчмарк, содержащий 40 интерьеров с вопросами, в том числе следующими, которые требуют различных действий и имеют различные веса приоритета. ## Результаты Проведенные эксперименты показали, что ParaEQsA превосходит существующие последовательные системы в обработке асинхронных вопросов, уменьшая суммарное время исследования и повышая точность реагирования. Более того, новая метрика **Direct Answer Rate (DAR)** и **Normalized Urgency-Weighted Latency (NUWL)** позволяет эффективно оценить производительность системы. Результаты показали, что эти метрики измеряют не только точность ответов, но и скорость их получения, что является ключевым фактором в реальных ситуациях. ## Значимость Предложенный подход имеет широкие возможности для применения в сферах, где необходимо обрабатывать множество вопросов в реальном времени, таких как управление домашними роботами, помощь в ситуациях с ограниченными ресурсами, таких как аппараты здравоохранения, или обработка вопросов в центрах обслуживания клиентов. Улучшение эффективности и скорости реагирования в ParaEQsA может значительно повысить удобство и надежность работы систем, обеспечивая улучш

Abstract

This paper formulates the Embodied Questions Answering (EQsA) problem, introduces a corresponding benchmark, and proposes a system to tackle the problem. Classical Embodied Question Answering (EQA) is typically formulated as answering one single question by actively exploring a 3D environment. Real deployments, however, often demand handling multiple questions that may arrive asynchronously and carry different urgencies. We formalize this setting as Embodied Questions Answering (EQsA) and present ParaEQsA, a framework for parallel, urgency-aware scheduling and answering. ParaEQsA leverages a group memory module shared among questions to reduce redundant exploration, and a priority-planning module to dynamically schedule questions. To evaluate this setting, we contribute the Parallel Asynchronous Embodied Questions (PAEQs) benchmark containing 40 indoor scenes and five questions per scene (200 in total), featuring asynchronous follow-up questions and urgency labels. We further propose metrics for EQsA performance: Direct Answer Rate (DAR), and Normalized Urgency-Weighted Latency (NUWL), which jointly measure efficiency and responsiveness of this system. ParaEQsA consistently outperforms strong sequential baselines adapted from recent EQA systems, while reducing exploration and delay. Empirical evaluations investigate the relative contributions of priority, urgency modeling, spatial scope, reward estimation, and dependency reasoning within our framework. Together, these results demonstrate that urgency-aware, parallel scheduling is key to making embodied agents responsive and efficient under realistic, multi-question workloads.

Ссылки и действия