OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

2508.05614v1 cs.CL, cs.AI 2025-08-08

Авторы:

Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные большие языковые модели (LLM) продемонстрировали выдающиеся способности к абстрактному рассуждению в задачах математики, логики и общих знаний. Однако их потенциал в области воплощенного интеллекта (embodied intelligence), включающего физическое взаимодействие с окружающей средой, использование инструментов и координацию между множеством агентов, остается практически неизученным. Существующие бенчмарки для оценки воплощенного интеллекта страдают от фундаментальных ограничений: они либо предоставляют заранее определенные наборы инструментов, либо явно указывают стратегии совместной работы, что не отражает реальную сложность воплощенных задач. Ключевая проблема заключается в том, что реальные воплощенные задачи требуют от агентов динамического приобретения новых способностей и автономного определения стратегий координации на основе текущих потребностей задачи. Современные LLM ориентированы на обработку текстовой информации и не имеют встроенного механизма для моделирования непрерывных физических свойств, сложных пространственных отношений и динамических взаимодействий между объектами. Это создает значительный разрыв между теоретическими возможностями моделей и практическими требованиями воплощенных систем. Авторы статьи подчеркивают, что отсутствие комплексного бенчмарка, способного оценивать способность моделей к рассуждениям в условиях ограничений и неопределенности, затрудняет развитие воплощенного ИИ. Традиционные подходы к оценке фокусируются на конечных результатах, игнорируя процесс рассуждений и взаимодействие с ограничениями среды, что не позволяет выявить фундаментальные ограничения архитектуры современных LLM в контексте воплощенных задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения указанных проблем авторы разработали OmniEAR - комплексную платформу для оценки способности языковых моделей к рассуждениям о физических взаимодействиях, использовании инструментов и координации множества агентов в воплощенных задачах. В отличие от существующих решений, OmniEAR не предоставляет агентам заранее определенные наборы инструментов или явные инструкции для сотрудничества. Вместо этого система требует от агентов динамического приобретения необходимых способностей и автономного определения оптимальных стратегий координации на основе анализа текущей задачи и доступных ресурсов. Архитектура OmniEAR базируется на текстовом представлении окружающей среды, что позволяет моделировать непрерывные физические свойства объектов и сложные пространственные отношения без необходимости визуальной обработки. Платформа включает 1500 уникальных сценариев, охватывающих как бытовые, так и промышленные домены, каждый из которых специально разработан для тестирования конкретных аспектов воплощенного рассуждения. Сценарии разделены на три основные категории: задачи использования инструментов, задачи неявной координации и комбинированные задачи, требующие одновременного использования обоих навыков. Система оценивания реализует многоуровневый подход к измерению эффективности рассуждений. На первом уровне оценивается способность модели к идентификации релевантных ограничений среды и инструментов. На втором - качество планирования последовательности действий с учетом физических ограничений. На третьем - эффективность координации между множеством агентов в условиях частичной информации и неопределенности. Для каждого уровня разработаны специфические метрики качества, включающие как количественные показатели успешности, так и качественную оценку рациональности принятых решений. Экспериментальная методология включает сравнение производительности моделей при различных условиях предоставления информации: от полного доступа к состоянию среды до ограниченного наблюдения. Это позволяет выявить, как модели справляются с фильтрацией релевантной информации и принятием решений в условиях информационной перегрузки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная кампания включала систематическую оценку производительности различных языковых моделей на всех 1500 сценариях OmniEAR. Основное внимание уделялось анализу спадов производительности при переходе от явных инструкций к неявным огран

Abstract

Large language models excel at abstract reasoning but their capacity for embodied agent reasoning remains largely unexplored. We present OmniEAR, a comprehensive framework for evaluating how language models reason about physical interactions, tool usage, and multi-agent coordination in embodied tasks. Unlike existing benchmarks that provide predefined tool sets or explicit collaboration directives, OmniEAR requires agents to dynamically acquire capabilities and autonomously determine coordination strategies based on task demands. Through text-based environment representation, we model continuous physical properties and complex spatial relationships across 1,500 scenarios spanning household and industrial domains. Our systematic evaluation reveals severe performance degradation when models must reason from constraints: while achieving 85-96% success with explicit instructions, performance drops to 56-85% for tool reasoning and 63-85% for implicit collaboration, with compound tasks showing over 50% failure rates. Surprisingly, complete environmental information degrades coordination performance, indicating models cannot filter task-relevant constraints. Fine-tuning improves single-agent tasks dramatically (0.6% to 76.3%) but yields minimal multi-agent gains (1.5% to 5.5%), exposing fundamental architectural limitations. These findings demonstrate that embodied reasoning poses fundamentally different challenges than current models can address, establishing OmniEAR as a rigorous benchmark for evaluating and advancing embodied AI systems. Our code and data are included in the supplementary materials and will be open-sourced upon acceptance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация