OmniPlay: Benchmarking Omni-Modal Models on Omni-Modal Game Playing

2508.04361v2 cs.AI 2025-08-09
Авторы:

Fuqing Bie, Shiyu Huang, Xijia Tao, Zhiqin Fang, Leyi Pan, Junzhe Chen, Min Ren, Liuyu Xiang, Zhaofeng He

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы общеупотребительные фундаментальные модели, такие как Gemini и GPT-4o, демонстрируют выдающиеся результаты в мультимодальных задачах. Однако существующие методы оценки этих моделей имеют существенные ограничения. Традиционные статические бенчмарки не позволяют оценить интеллектуальные возможности моделей в динамических, интерактивных средах, где необходимо принимать решения в реальном времени. Интерактивные бенчмарки, напротив, часто страдают от "модального узкого места", т.е. они не учитывают важные аудиторные и временные контексты, что ограничивает возможности полноценного тестирования моделей. Эта проблема особенно актуальна в контексте оценки моделей на способность к синергическому и конфликтующему мультимодальному разумению. Для того чтобы эффективно решать задачи, требующие интеграции и анализа данных из различных модалей (визуальных, звуковых, временных), модели должны не только обрабатывать информацию из каждой модали, но и уметь выявлять взаимозависимости между ними. Несмотря на то, что современные модели показывают высокие результаты на задачах, связанных с высокоточной памятью и классификацией, они нередко не справляются с задачами, требующими глубокого мультимодального разумения и стратегического планирования. Исходя из этой проблематики, авторы статьи предлагают новый бенчмарк OmniPlay, который направлен на диагностику и оценку способности моделей к синергическому и конфликтующему разумению между модалями. OmniPlay создан для того, чтобы предоставить комплексную оценку моделей в условиях реального взаимодействия с мультимодальными данными, включая аудио, визуальные сигналы и временные последовательности. ## ПРЕДЛОЖЕННЫЙ МЕТОД OmniPlay представляет собой диагностический бенчмарк, состоящий из пяти игровых сред, каждая из которых специально разработана для тестирования мультимодальных моделей на их способность к синергии и конфликту между модалями. Эти игровые среды строятся на принципе модальной взаимозависимости, то есть они создают ситуации, где необходимо совмещать информацию из разных модалей для успешного выполнения задачи. Каждая игровая среда в OmniPlay представляет собой уникальный набор задач, где агент должен использовать визуальные, аудио и временные данные для принятия решений. Например, в некоторых сценариях модель должна уметь сопоставлять визуальные образы с аудио-подсказками, в то время как в других случаях она должна уметь работать в условиях конфликтующих или неполных данных. Архитектура OmniPlay основана на идее модального конфликта и синергии, при которой модели должны не только обрабатывать каждую модальность по отдельности, но и уметь выявлять связи и различия между ними. Это позволяет выявить слабые места в механизмах фундаментальных моделей, которые могут приводить к снижению эффективности при конфликтующих модальных входах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования было проведено тестирование шести ведущих мультимодальных моделей на бенчмарке OmniPlay. Результаты экспериментов показали интересный контраст в производительности моделей. Большинство моделей демонстрировали высокую эффективность в задачах, связанных с высокоточной памятью и классификацией, однако серьезно сталкивались с трудностями в задачах, требующих глубокого мультимодального разумения и стратегического планирования. Одним из ключевых результатов было обнаружение того, что модели часто страдают от хрупких механизмов слияния (fusion) модальных данных. Это приводит к системным сбоям в случаях конфликтующих модалей, когда информация из разных источников не может быть эффективно интегрирована. Более того, исследование выявило "парадокс меньшего количества", где удаление части сенсорной информации может улучшить производительность модели, так как это помогает избежать конфликтов и неточностей в функционировании модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ OmniPlay предлагает новый инструмент для оценки мультимодальных моделей, который может быть использован для диагностики их способности к мультимодальному разумению в реальных интерактивных средах. Это может быть полезно в различных областях, таких как робототехника, компьютерное зрение, естественный язык и другие, где необходимо обрабатывать и интегрировать данные из различных модалей. Практическая значение OmniPlay заключается в том, что он позволяет выявить слабые места в моделях и помогает разработчикам сосредоточиться на улучшении механизмов модальной интеграции. Это может привести к разработке более надежных и робастных моделей, способных эффективно работать в условиях неполноты и конфликтующих данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате исследования было выявлено, что современные модели, несмотря на их высокую эффективность в некоторых задачах, все еще страдают от серьезных недостатков в области мультимодального разумения. Это подчеркивает необходимость в развитии более продвинутых методов модальной интеграции и разумения, которые могут эффективно обрабатывать конфликтующие и неполные данные. Будущие исследования должны сосредоточиться не только на масштабировании моделей, но и на разработке методов, которые позволят обеспечить более сильную и надежную синергию между модалями. OmniPlay может стать важной платформой для дальнейших исследований в этом направлении, помогая разработчикам создавать более робастные и интеллектуальные модели.

Abstract

While generalist foundation models like Gemini and GPT-4o demonstrate impressive multi-modal competence, existing evaluations fail to test their intelligence in dynamic, interactive worlds. Static benchmarks lack agency, while interactive benchmarks suffer from a severe modal bottleneck, typically ignoring crucial auditory and temporal cues. To bridge this evaluation chasm, we introduce OmniPlay, a diagnostic benchmark designed not just to evaluate, but to probe the fusion and reasoning capabilities of agentic models across the full sensory spectrum. Built on a core philosophy of modality interdependence, OmniPlay comprises a suite of five game environments that systematically create scenarios of both synergy and conflict, forcing agents to perform genuine cross-modal reasoning. Our comprehensive evaluation of six leading omni-modal models reveals a critical dichotomy: they exhibit superhuman performance on high-fidelity memory tasks but suffer from systemic failures in challenges requiring robust reasoning and strategic planning. We demonstrate that this fragility stems from brittle fusion mechanisms, which lead to catastrophic performance degradation under modality conflict and uncover a counter-intuitive "less is more" paradox, where removing sensory information can paradoxically improve performance. Our findings suggest that the path toward robust AGI requires a research focus beyond scaling to explicitly address synergistic fusion. Our platform is available for anonymous review at https://github.com/fuqingbie/omni-game-benchmark.

Ссылки и действия