GPS-MTM: Capturing Pattern of Normalcy in GPS-Trajectories with self-supervised learning
2509.24031v1
cs.LG, cs.AI, cs.CV, cs.MA
2025-10-01
Авторы:
Umang Garg, Bowen Zhang, Anantanjit Subrahmanya, Chandrakanth Gudavalli, BS Manjunath
Резюме на русском
#### Контекст
Городские транспортные системы и мобильность человека являются ключевыми компонентами современных городов. Однако моделирование и анализ мобильных данных человека, таких как GPS-траектории, остается сложной задачей. Обычно, эти данные требуют ручного меток или подготовки, что ограничивает масштаб и эффективность. В этом контексте возникает потребность в разработке методов, которые могут автоматически учитывать контекстный смысл и структуру данных без ручного вмешательства. Это требуется для развития более точных моделей для прогнозирования движения, выявления аномалий и других задач в области мобильности.
#### Метод
GPS-MTM (GPSMasked Trajectory Transformer) представляет собой фундаментальную модель для анализа траекторий, основанную на трансформерах. Она разделяет мобильные данные на две модальности: **статы** (категории точек интереса) и **действия** (переходы между точками). Главной особенностью является использование бидирекционального трансформера с самостоятельным обучением (self-supervised learning). Модель обучается через задачу маскирования: она предсказывает пропущенные значения в обоих модальностях, что позволяет устанавливать семантические связи без посредственного меток. Эта архитектура обеспечивает гибкость и эффективность в обработке больших наборов данных.
#### Результаты
Модель была протестирована на трех популярных датасетах: Numosim-LA, Urban Anomalies и Geolife. Она показала выдающиеся результаты на задачах **реконструкции траекторий**, **предсказания следующей точки перемещения** и **аномалии в движении**. Особенно выдающимися были показатели в **динамических задачах**, таких как **обратное и прямое динамическое моделирование**, где критически важно учитывать контекст. GPS-MTM показала стабильную превосходность по сравнению с существующими методами, такими как LSTMs и CNNs, в частности, при прогнозировании следующей точки перемещения.
#### Значимость
GPS-MTM может применяться в различных областях, включая **мобильность человека**, **управление городскими транспортными системами**, **выявление аномалий** и **задачи безопасности**. Ее мощь заключается в том, что она не требует ручной подготовки данных и может автоматически выделять значимые корреляции. Благодаря своему универсальному подходу, GPS-MTM открывает пути к новым возможностям в **репрезентационном обучении** и **мобильных системах**.
#### Выводы
GPS-MTM устанавливает новые стандарты в области моделирования траекторий, используя самостоятельное обучение и бидирекциональную модель трансформера. Это демонстрирует потенциал фундаментальных моделей для мобильных данных и их важност
Abstract
Foundation models have driven remarkable progress in text, vision, and video
understanding, and are now poised to unlock similar breakthroughs in trajectory
modeling. We introduce the GPSMasked Trajectory Transformer (GPS-MTM), a
foundation model for large-scale mobility data that captures patterns of
normalcy in human movement. Unlike prior approaches that flatten trajectories
into coordinate streams, GPS-MTM decomposes mobility into two complementary
modalities: states (point-of-interest categories) and actions (agent
transitions). Leveraging a bi-directional Transformer with a self-supervised
masked modeling objective, the model reconstructs missing segments across
modalities, enabling it to learn rich semantic correlations without manual
labels. Across benchmark datasets, including Numosim-LA, Urban Anomalies, and
Geolife, GPS-MTM consistently outperforms on downstream tasks such as
trajectory infilling and next-stop prediction. Its advantages are most
pronounced in dynamic tasks (inverse and forward dynamics), where contextual
reasoning is critical. These results establish GPS-MTM as a robust foundation
model for trajectory analytics, positioning mobility data as a first-class
modality for large-scale representation learning. Code is released for further
reference.