Point-RTD: Replaced Token Denoising for Pretraining Transformer Models on Point Clouds
2509.17207v1
cs.CV, cs.AI, cs.LG
2025-09-24
Авторы:
Gunner Stone, Youngsook Choi, Alireza Tavakkoli, Ankita Shukla
Резюме на русском
#### Контекст
Transformer-based модели широко применяются к задачам обработки точечных массивов трёхмерных объектов. Однако, предварительное обучение (pretraining) этих моделей существенно сложнее, чем для стандартных ансамблей изображений. Основная проблема заключается в том, что точечные массивы требуют более сложной архитектуры для извлечения структурных признаков. Недостаток эффективных методов pretraining приводит к низкой точности и ограниченности моделей. Таким образом, возникает необходимость в разработке новых подходов, которые могут улучшить характеристики моделей на трёхмерных данных.
#### Метод
Point-RTD (Replaced Token Denoising) представляет собой совершенно новую методику для pretraining моделей на точечных массивах. В этой стратегии, точечные массивы трансформируются в токены, которые последующим образом подвергаются повреждению (corruption). Затем, это повреждение предсказывается с помощью модели, которая реконструирует поврежденные токены с помощью архитектуры генератора-дискриминатора. Это позволяет модели изучить более сильные структурные признаки, чем в стандартных подходах, например Point-MAE. Такой подход дозволяет модели быстрее выучивать структурные характеристики, требуемые для распознавания объектов на трёхмерных сценах.
#### Результаты
В Point-RTD проводился ряд экспериментов на различных данных, включая ShapeNet, ModelNet10 и ModelNet40. На ShapeNet, Point-RTD достиг значительных улучшений, сократив реконструкционный ошибки в 93% по сравнению с Point-MAE. Также, Point-RTD показал значительно более высокую точность распознавания объектов на ModelNet10 и ModelNet40. Еще, Point-RTD достиг более высокой эффективности и быстрого схождения во время обучения. Эти результаты очевидно подтверждают высокую эффективность Point-RTD по сравнению с остальными подходами.
#### Значимость
Point-RTD может быть применен в широком спектре приложений, включая автоматизированное зрение, виртуальную реальность, интеллектуальный анализ данных. Этот подход обладает преимуществами об улучшенной точности, более быстром схождении во время обучения и высокой эффективности. Это может привести к развитию более точных и эффективных моделей для работы с трёхмерными данными, которые могут использоваться в широком спектре технологий.
#### Выводы
Point-RTD демонстрирует удачный подход к pretraining моделей трёхмерных точечных массивов. Он показал существенные улучшения в точности, эффективности и скорости обучения по сравнению с Point-MAE. В дальнейших исследованиях, будет интересно исследовать влияние Point-RTD на другие модели трёхмерных данных, а также на различные сценарии применения в глубоком обучении.
Abstract
Pre-training strategies play a critical role in advancing the performance of
transformer-based models for 3D point cloud tasks. In this paper, we introduce
Point-RTD (Replaced Token Denoising), a novel pretraining strategy designed to
improve token robustness through a corruption-reconstruction framework. Unlike
traditional mask-based reconstruction tasks that hide data segments for later
prediction, Point-RTD corrupts point cloud tokens and leverages a
discriminator-generator architecture for denoising. This shift enables more
effective learning of structural priors and significantly enhances model
performance and efficiency. On the ShapeNet dataset, Point-RTD reduces
reconstruction error by over 93% compared to PointMAE, and achieves more than
14x lower Chamfer Distance on the test set. Our method also converges faster
and yields higher classification accuracy on ShapeNet, ModelNet10, and
ModelNet40 benchmarks, clearly outperforming the baseline Point-MAE framework
in every case.
Ссылки и действия
Дополнительные ресурсы: