📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang

## Контекст В последние годы многомодальные модели демонстрируют уверенный прогресс, но столкнулись с острой проблемой — недостаточной способностью к пространственному пониманию и рассуждению. Эти навыки являются ключевыми для достижения искусственного общего разума (Artificial General Intelligence, AGI). На этой фоне выход GPT-5, который утверждается как самая мощная модель AI, приобрел особое значение. Чтобы оценить современное состояние моделей в пространственной сфере, необходимо провести комплексный анализ их способности. Наша мотивация заключается в том, чтобы выявить текущие ограничения, определить основные проблемы в оценке пространственной интеллектуальности и привлечь внимание к развитию более совершенных решений. ## Метод Мы разработали подробную категоризацию пространственных задач, которая объединила различные бенчмарки и указала на их слабые места. Для оценки моделей использовались современные архитектуры, включая GPT-5, а также несколько открытых решений. Для обеспечения справедливой сравнительной оценки были применены стандартизированные данные и метрики. Эксперименты были проведены на восьми ключевых бенчмарках, требующих различных пространственных навыков, от простого распознавания объектов до сложных задач пространственного рассуждения. Бюджет экспериментов превысил 1 миллиард токенов, что дало возможность обоснованно понять силу и слабости моделей. ## Результаты Новая модель GPT-5 продемонстрировала примечательные улучшения в пространственном понимании, но еще не достигла гуманского уровня производительности. Мы выявили следующие результаты: (1) на первых трех бенчмарках GPT-5 показал самые высокие результаты, оказавшись лучше всех остальных моделей, (2) в более сложных задачах, особенно тех, требующих глубокого контекстуального понимания, его производительность падала, (3) открытые модели демонстрировали практически одинаковую производительность по сравнению с закрытыми решениями в самых сложностных сценариях. Также мы выявили некоторые ключевые проблемы, на которых даже самые мощные модели до сих пор не сумели дать полноценного ответа, включая задачи с неоднозначным контекстом и ситуациями, требующими глубокого знания ситуации. ## Значимость Результаты нашего исследования имеют большое значение в нескольких областях: (1) модели GPT-5 демонстрируют, что пространственное понимание может быть эффективно интегрировано в общую модель многомодального рассуждения, но (2) остаются проблемы в задачах, требующих высокой степени контекстуального понимания, (3) открытые модели, несмотря на недостатки, показывают высокую э
Annotation:
Multi-modal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, which are fundamental capabilities to achieving artificial general intelligence. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models stand on the path toward spatial intelligence. First, we propose a comprehensive taxonomy of spatial tasks that unifies e...
ID: 2508.13142v1 cs.CV, cs.CL, cs.LG, cs.MM, cs.RO