📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu

## Контекст В последние годы растет интерес к развитию объектно-ориентированных моделей мира в рамках робототехники и искусственного интеллекта. Однако эти модели сталкиваются с значительными ограничениями, связанными с объемом и сложностью данных, необходимых для обучения. Особенно чувствуется эта проблема в области роботов, взаимодействующих с физическим миром. Ограниченность доступных данных и сложность их сбора не позволяют полностью использовать потенциал моделей в области управления и развития ими универсальных стратегий. Точность и эффективность таких моделей ограничиваются не только их конструктивными особенностями, но и сложностью обработки данных, подразумевающей высокоинтегрированные алгоритмы. Развитие методов, расширяющих границы возможностей роботов в области понимания и взаимодействия с окружающим миром, является актуальным заданием. ## Метод Для решения проблемы ограниченных объемов данных и сложности обучения разработана методология **Primitive Embodied World Models (PEWM)**. Эта модель ограничивает видео-генерацию в рамках краткого промежутка времени, что позволяет осуществлять точную связь между языковыми понятиями и визуальными представлениями. Метод также включает в себя **Vision-Language Model (VLM)** для планирования и **Start-Goal Heatmap Guidance Mechanism (SGG)** для управления. Такая структура позволяет повысить эффективность обучения, сократить требования к данным и улучшить возможности управления в реальном времени. ## Результаты Проведены эксперименты, используя различные данные, включая видеоснимки и данные об интеракции с миром. Были проанализированы результаты, показавшие повышение точности и эффективности модели PEWM в сравнении с другими подходами. В частности, удалось достичь наилучших результатов в сфере структурированного обучения и управления, что подтвердило высокую эффективность применения PEWM в реальных сценариях. ## Значимость Метод PEWM может применяться в различных областях, включая робототехнику, интеллектуальные системы, а также в интерактивные приложения, требующие понимания и взаимодействия с физическим окружением. Основное преимущество PEWM заключается в улучшении точности, эффективности и предсказуемости моделей в области объектно-ориентированного понимания. Это может привести к развитию универсальных моделей, которые могут использоваться в различных сферах, вплоть до роботов-ассистентов в каждодневной жизни. ## Выводы Разработанная модель PEWM продемонстрировала высокую эффективность в решении задач, связанных с обучением в мире роботов. Она позволяет повысить точность, уменьшить требования к дан
Annotation:
While video-generation-based embodied world models have gained increasing attention, their reliance on large-scale embodied interaction data remains a key bottleneck. The scarcity, difficulty of collection, and high dimensionality of embodied data fundamentally limit the alignment granularity between language and actions and exacerbate the challenge of long-horizon video generation--hindering generative models from achieving a "GPT moment" in the embodied domain. There is a naive observation: th...
ID: 2508.20840v1 cs.RO, cs.AI, cs.MM