Lang2Lift: A Framework for Language-Guided Pallet Detection and Pose Estimation Integrated in Autonomous Outdoor Forklift Operation
2508.15427v1
cs.RO, cs.CV
2025-08-23
Авторы:
Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz, Tobias Glueck, Minh Nhat Vu, Andreas Kugi
Резюме на русском
## Контекст
Логистический и строительный секторы сталкиваются с трудностями в автоматизации работ, связанных с обработкой поддонов, особенно в условиях внешней среды. Эти трудности включают в себя нестандартные размеры и качество поддонов, хаотичные окружающие условия и нехватку трудовых ресурсов. Такие условия способствуют высоким рискам для безопасности и низкой эффективности. Целью данной работы является разработка системы, позволяющей облегчить задачи по поддоновой грузоподъемности, используя естественный язык для определения и распознавания поддонов, а также их положения в пространстве.
## Метод
Lang2Lift — это рам hayworkkфреймворк, который объединяет несколько современных технологий. Используется Florence-2 и SAM-2 для осуществления языкового связывания с разделением сцены, а FoundationPose для точного распознавания положения поддона в многоподдонных сценах. Результаты распознавания используются для построения маршрутов для автономного движения форклифта. Основной мотивацией является создание решения, которое может быть интегрировано в существующие системы логистики и строительства, обеспечивая безопасность и эффективность в работе.
## Результаты
Работа проводилась на базе автономного форклифта ADAPT. На реальных данных была получена точность распознавания поддонов 0.76 mIoU. Эксперименты показали высокую устойчивость системы к различным условиям освещения и размерам поддонов. Анализ ошибок и времени работы подтвердил хорошую скорость реакции и устойчивость системы к различным обстоятельствам. Результаты демонстрируются в видео формате.
## Значимость
Lang2Lift может быть применено в различных сферах, включая логистику, строительство и производство. Он облегчает работу операторов, повышает безопасность и эффективность работы. Также он может быть использован для решения проблемы нехватки трудовых ресурсов и улучшения производительности в условиях сложных окружающих условий.
## Выводы
Разработанный фреймворк Lang2Lift продемонстрировал свою эффективность в автоматизации работы с поддонами в условиях внешней среды. Он может стать ключевым элементом в интеграции естественного языка в системы автоматизации. Будущие исследования будут сконцентрированы на увеличении точности распознавания и расширении области применения системы.
Abstract
The logistics and construction industries face persistent challenges in
automating pallet handling, especially in outdoor environments with variable
payloads, inconsistencies in pallet quality and dimensions, and unstructured
surroundings. In this paper, we tackle automation of a critical step in pallet
transport: the pallet pick-up operation. Our work is motivated by labor
shortages, safety concerns, and inefficiencies in manually locating and
retrieving pallets under such conditions. We present Lang2Lift, a framework
that leverages foundation models for natural language-guided pallet detection
and 6D pose estimation, enabling operators to specify targets through intuitive
commands such as "pick up the steel beam pallet near the crane." The perception
pipeline integrates Florence-2 and SAM-2 for language-grounded segmentation
with FoundationPose for robust pose estimation in cluttered, multi-pallet
outdoor scenes under variable lighting. The resulting poses feed into a motion
planning module for fully autonomous forklift operation. We validate Lang2Lift
on the ADAPT autonomous forklift platform, achieving 0.76 mIoU pallet
segmentation accuracy on a real-world test dataset. Timing and error analysis
demonstrate the system's robustness and confirm its feasibility for deployment
in operational logistics and construction environments. Video demonstrations
are available at https://eric-nguyen1402.github.io/lang2lift.github.io/
Ссылки и действия
Дополнительные ресурсы: