#### Контекст
В последние годы третье измерение стало одной из направленностей развития визуальных технологий. Одним из основных задач является реконструкция трехмерных сцен с помощью различных входных данных, включая изображения, геометрические данные и даже частичные реконструкции. Несмотря на развитие специализированных моделей для отдельных задач, таких как однокамерная глубинная оценка или структура из движения, не получилось создать универсальную модель, которая могла бы объединить в себе все эти задачи. Наша модель MapAnything рассчитана на решение этой проблемы и представляет собой универсальную трансформер-базированную модель, которая вместо разметки в 3D в реальном времени выводит метрическую геометрию трехмерной сцены и камеры.
#### Метод
MapAnything является трансформер-базированной моделью, которая принимает в качестве входных данных изображения, а также геометрические данные, такие как камерные интринсики, позы, дальности и частичные реконструкции. Основная идея заключается в том, чтобы использовать факторизованное представление много birds-eye-view-geometries, которое включает в себя не только глубинные карты, но и локальные карты лучей, камерные позы, а также метрический коэффициент масштабирования. Это позволяет модели MapAnything переходить от локальной реконструкции к глобальной, сохраняя метрическую консистентность. Модель поддерживает широкий спектр входных данных и может работать с несколькими изображениями, что делает её универсальной и перспективной в разных областях 3D-визуализации.
#### Результаты
Проведенные эксперименты показали, что MapAnything может решать широкий спектр задач в области 3D-визуализации, включая однокамерный depth estimation, структуру из движения, камерную локализацию и другие. Мы проводили тесты на различных датасетах, включающих KITTI, SUN RGB-D и другие. Результаты показали, что MapAnything не только достигает высокого качества решения отдельных задач, но и превосходит специализированные модели, в то же время обладая более эффективным обучением. Наши эксперименты показали, что модель способна выполнять различные задачи 3D-визуализации в меньший срок и с меньшим потреблением ресурсов, чем специализированные модели.
#### Значимость
Модель MapAnything имеет широкие возможности в области 3D-визуализации. Она может применяться в различных областях, таких как интерактивные системы, виртуальная и реальность, компьютерное зрение и геолокация. Модель значительно упрощает процесс 3D-реконструкции, предоставляя возможность решать различные задачи в области трехмерного видения в одном простом и универсальном решении. Это не только