Point-RTD: Replaced Token Denoising for Pretraining Transformer Models on Point Clouds

2509.17207v1 cs.CV, cs.AI, cs.LG 2025-09-24

Авторы:

Gunner Stone, Youngsook Choi, Alireza Tavakkoli, Ankita Shukla

Резюме на русском

#### Контекст Transformer-based модели широко применяются к задачам обработки точечных массивов трёхмерных объектов. Однако, предварительное обучение (pretraining) этих моделей существенно сложнее, чем для стандартных ансамблей изображений. Основная проблема заключается в том, что точечные массивы требуют более сложной архитектуры для извлечения структурных признаков. Недостаток эффективных методов pretraining приводит к низкой точности и ограниченности моделей. Таким образом, возникает необходимость в разработке новых подходов, которые могут улучшить характеристики моделей на трёхмерных данных. #### Метод Point-RTD (Replaced Token Denoising) представляет собой совершенно новую методику для pretraining моделей на точечных массивах. В этой стратегии, точечные массивы трансформируются в токены, которые последующим образом подвергаются повреждению (corruption). Затем, это повреждение предсказывается с помощью модели, которая реконструирует поврежденные токены с помощью архитектуры генератора-дискриминатора. Это позволяет модели изучить более сильные структурные признаки, чем в стандартных подходах, например Point-MAE. Такой подход дозволяет модели быстрее выучивать структурные характеристики, требуемые для распознавания объектов на трёхмерных сценах. #### Результаты В Point-RTD проводился ряд экспериментов на различных данных, включая ShapeNet, ModelNet10 и ModelNet40. На ShapeNet, Point-RTD достиг значительных улучшений, сократив реконструкционный ошибки в 93% по сравнению с Point-MAE. Также, Point-RTD показал значительно более высокую точность распознавания объектов на ModelNet10 и ModelNet40. Еще, Point-RTD достиг более высокой эффективности и быстрого схождения во время обучения. Эти результаты очевидно подтверждают высокую эффективность Point-RTD по сравнению с остальными подходами. #### Значимость Point-RTD может быть применен в широком спектре приложений, включая автоматизированное зрение, виртуальную реальность, интеллектуальный анализ данных. Этот подход обладает преимуществами об улучшенной точности, более быстром схождении во время обучения и высокой эффективности. Это может привести к развитию более точных и эффективных моделей для работы с трёхмерными данными, которые могут использоваться в широком спектре технологий. #### Выводы Point-RTD демонстрирует удачный подход к pretraining моделей трёхмерных точечных массивов. Он показал существенные улучшения в точности, эффективности и скорости обучения по сравнению с Point-MAE. В дальнейших исследованиях, будет интересно исследовать влияние Point-RTD на другие модели трёхмерных данных, а также на различные сценарии применения в глубоком обучении.

Abstract

Pre-training strategies play a critical role in advancing the performance of transformer-based models for 3D point cloud tasks. In this paper, we introduce Point-RTD (Replaced Token Denoising), a novel pretraining strategy designed to improve token robustness through a corruption-reconstruction framework. Unlike traditional mask-based reconstruction tasks that hide data segments for later prediction, Point-RTD corrupts point cloud tokens and leverages a discriminator-generator architecture for denoising. This shift enables more effective learning of structural priors and significantly enhances model performance and efficiency. On the ShapeNet dataset, Point-RTD reduces reconstruction error by over 93% compared to PointMAE, and achieves more than 14x lower Chamfer Distance on the test set. Our method also converges faster and yields higher classification accuracy on ShapeNet, ModelNet10, and ModelNet40 benchmarks, clearly outperforming the baseline Point-MAE framework in every case.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Point-RTD: Replaced Token Denoising for Pretraining Transformer Models on Point Clouds

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация