ParaEQsA: Parallel and Asynchronous Embodied Questions Scheduling and Answering
2509.11663v1
cs.RO, cs.AI, cs.CV
2025-09-17
Авторы:
Haisheng Wang, Weiming Zhi
Резюме на русском
## Контекст
Область исследования, связанная с Embodied Question Answering (EQA), фокусируется на создании роботов и софтверных систем, которые могут отвечать на вопросы, активно исследуя трехмерные пространства. Это проблема чрезвычайно важна для развития интеллектуальных систем, используемых в сферах, таких как управление домашними устройствами, автоматизация производства и помощь в жизненных задачах. Несмотря на успехи, полученные в EQA, существуют значительные ограничения. Традиционно EQA строится на действиях, которые проводятся последовательно и существенно зависят от успешного исследования окружающей среды. Однако в реальных ситуациях, возникают ситуации, когда необходимо обрабатывать множество вопросов, которые могут приходить вне порядка и с разным у deе. Это требует создания новых подходов, которые могут обеспечить эффективность и реагирование на асинхронные запросы.
## Метод
Для решения данной проблемы, авторы предлагают формализовать новую задачу, называемую Embodied Questions Answering (EQsA), которая позволяет обрабатывать множество вопросов, включая асинхронные и с разным уровнем приоритета. Для этого разработана система ParaEQsA, которая включает в себя два основных модуля: **групповую память** для уменьшения проверок без добавления новой информации и **модуль планирования приоритетов**, который определяет порядок обработки вопросов в зависимости от их актуальности. Для обучения и оценки алгоритмов разработан бенчмарк, содержащий 40 интерьеров с вопросами, в том числе следующими, которые требуют различных действий и имеют различные веса приоритета.
## Результаты
Проведенные эксперименты показали, что ParaEQsA превосходит существующие последовательные системы в обработке асинхронных вопросов, уменьшая суммарное время исследования и повышая точность реагирования. Более того, новая метрика **Direct Answer Rate (DAR)** и **Normalized Urgency-Weighted Latency (NUWL)** позволяет эффективно оценить производительность системы. Результаты показали, что эти метрики измеряют не только точность ответов, но и скорость их получения, что является ключевым фактором в реальных ситуациях.
## Значимость
Предложенный подход имеет широкие возможности для применения в сферах, где необходимо обрабатывать множество вопросов в реальном времени, таких как управление домашними роботами, помощь в ситуациях с ограниченными ресурсами, таких как аппараты здравоохранения, или обработка вопросов в центрах обслуживания клиентов. Улучшение эффективности и скорости реагирования в ParaEQsA может значительно повысить удобство и надежность работы систем, обеспечивая улучш
Abstract
This paper formulates the Embodied Questions Answering (EQsA) problem,
introduces a corresponding benchmark, and proposes a system to tackle the
problem. Classical Embodied Question Answering (EQA) is typically formulated as
answering one single question by actively exploring a 3D environment. Real
deployments, however, often demand handling multiple questions that may arrive
asynchronously and carry different urgencies. We formalize this setting as
Embodied Questions Answering (EQsA) and present ParaEQsA, a framework for
parallel, urgency-aware scheduling and answering. ParaEQsA leverages a group
memory module shared among questions to reduce redundant exploration, and a
priority-planning module to dynamically schedule questions. To evaluate this
setting, we contribute the Parallel Asynchronous Embodied Questions (PAEQs)
benchmark containing 40 indoor scenes and five questions per scene (200 in
total), featuring asynchronous follow-up questions and urgency labels. We
further propose metrics for EQsA performance: Direct Answer Rate (DAR), and
Normalized Urgency-Weighted Latency (NUWL), which jointly measure efficiency
and responsiveness of this system. ParaEQsA consistently outperforms strong
sequential baselines adapted from recent EQA systems, while reducing
exploration and delay. Empirical evaluations investigate the relative
contributions of priority, urgency modeling, spatial scope, reward estimation,
and dependency reasoning within our framework. Together, these results
demonstrate that urgency-aware, parallel scheduling is key to making embodied
agents responsive and efficient under realistic, multi-question workloads.
Ссылки и действия
Дополнительные ресурсы: