GPS-MTM: Capturing Pattern of Normalcy in GPS-Trajectories with self-supervised learning

2509.24031v1 cs.LG, cs.AI, cs.CV, cs.MA 2025-10-01
Авторы:

Umang Garg, Bowen Zhang, Anantanjit Subrahmanya, Chandrakanth Gudavalli, BS Manjunath

Резюме на русском

#### Контекст Городские транспортные системы и мобильность человека являются ключевыми компонентами современных городов. Однако моделирование и анализ мобильных данных человека, таких как GPS-траектории, остается сложной задачей. Обычно, эти данные требуют ручного меток или подготовки, что ограничивает масштаб и эффективность. В этом контексте возникает потребность в разработке методов, которые могут автоматически учитывать контекстный смысл и структуру данных без ручного вмешательства. Это требуется для развития более точных моделей для прогнозирования движения, выявления аномалий и других задач в области мобильности. #### Метод GPS-MTM (GPSMasked Trajectory Transformer) представляет собой фундаментальную модель для анализа траекторий, основанную на трансформерах. Она разделяет мобильные данные на две модальности: **статы** (категории точек интереса) и **действия** (переходы между точками). Главной особенностью является использование бидирекционального трансформера с самостоятельным обучением (self-supervised learning). Модель обучается через задачу маскирования: она предсказывает пропущенные значения в обоих модальностях, что позволяет устанавливать семантические связи без посредственного меток. Эта архитектура обеспечивает гибкость и эффективность в обработке больших наборов данных. #### Результаты Модель была протестирована на трех популярных датасетах: Numosim-LA, Urban Anomalies и Geolife. Она показала выдающиеся результаты на задачах **реконструкции траекторий**, **предсказания следующей точки перемещения** и **аномалии в движении**. Особенно выдающимися были показатели в **динамических задачах**, таких как **обратное и прямое динамическое моделирование**, где критически важно учитывать контекст. GPS-MTM показала стабильную превосходность по сравнению с существующими методами, такими как LSTMs и CNNs, в частности, при прогнозировании следующей точки перемещения. #### Значимость GPS-MTM может применяться в различных областях, включая **мобильность человека**, **управление городскими транспортными системами**, **выявление аномалий** и **задачи безопасности**. Ее мощь заключается в том, что она не требует ручной подготовки данных и может автоматически выделять значимые корреляции. Благодаря своему универсальному подходу, GPS-MTM открывает пути к новым возможностям в **репрезентационном обучении** и **мобильных системах**. #### Выводы GPS-MTM устанавливает новые стандарты в области моделирования траекторий, используя самостоятельное обучение и бидирекциональную модель трансформера. Это демонстрирует потенциал фундаментальных моделей для мобильных данных и их важност

Abstract

Foundation models have driven remarkable progress in text, vision, and video understanding, and are now poised to unlock similar breakthroughs in trajectory modeling. We introduce the GPSMasked Trajectory Transformer (GPS-MTM), a foundation model for large-scale mobility data that captures patterns of normalcy in human movement. Unlike prior approaches that flatten trajectories into coordinate streams, GPS-MTM decomposes mobility into two complementary modalities: states (point-of-interest categories) and actions (agent transitions). Leveraging a bi-directional Transformer with a self-supervised masked modeling objective, the model reconstructs missing segments across modalities, enabling it to learn rich semantic correlations without manual labels. Across benchmark datasets, including Numosim-LA, Urban Anomalies, and Geolife, GPS-MTM consistently outperforms on downstream tasks such as trajectory infilling and next-stop prediction. Its advantages are most pronounced in dynamic tasks (inverse and forward dynamics), where contextual reasoning is critical. These results establish GPS-MTM as a robust foundation model for trajectory analytics, positioning mobility data as a first-class modality for large-scale representation learning. Code is released for further reference.

Ссылки и действия