RampNet: A Two-Stage Pipeline for Bootstrapping Curb Ramp Detection in Streetscape Images from Open Government Metadata

2508.09415v1 cs.CV, cs.AI, I.2 2025-08-15
Авторы:

John S. O'Meara, Jared Hwang, Zeyu Wang, Michael Saugstad, Jon E. Froehlich

Резюме на русском

## Контекст Curb ramps являются критически важными для городского развития, так как обеспечивают доступность для людей с ограниченными физическими возможностями. Однако их точное расположение на спутниковых изображениях недостаточно хорошо определено, что создает проблемы для построения моделей детектирования. Несмотря на то, что ранее были предприняты усилия для создания данных с помощью краудсорсинга или ручной разметки, эти методы часто либо ограничены в масштабе, либо недостаточно точны. Хотя такие подходы могут быть полезными в маломасштабных проектах, они не подходят для развития моделей, которые должны работать в городах разных размеров. ## Метод Мы предлагаем две-ступенчатую архитектуру для создания и обучения моделей детектирования curb ramps. В первой стадии мы автоматически переводим географические координаты городских curb ramps (из открытых метаданных властей) в пиксельные координаты на Google Street View (GSV) картинках. Это позволяет автоматически создать большой датасет с разметкой. Во второй стадии мы обучаем модель детектирования на этом датасете, используя современные архитектуры сверточных нейронных сетей. Это позволяет не только создать модель с высокой точностью, но и тренировать ее на большом датасете, повышая ее универсальность. ## Результаты Мы сгенерировали датасет из более чем 210,000 изображений GSV с разметкой, используя первую стадию нашей архитектуры. Наша модель детектирования, основанная на ConvNeXt V2, достигла аппроксимированной точности (AP) 0.9236, значительно превосходя предыдущие результаты в области. Мы также проверили точность и достоверность нашего датасета, получив 94.0% при полноте и 92.5% при точности. Эти результаты указывают на высокую качественную работу нашего подхода и его готовность к применению в реальных сценариях. ## Значимость Наша работа предлагает первый большой датасет для детектирования curb ramps, который может быть использован для обучения моделей и тестирования их эффективности. Он также позволяет существенно повысить точность моделей, что может быть применено в различных городах для улучшения доступности городского пространства. Наши вычислительные модели могут быть использованы для сканирования городов на поиск curb ramps, чтобы снизить барьеры для инвалидов и людей с ограниченными возможностями. ## Выводы Мы представили RampNet, первую успешную двухстадийную архитектуру для создания и обучения моделей детектирования curb ramps. Наши результаты показывают, что наш подход может быть применен в больших городах для улучшения доступности. В будущем мы планируем расширить датасет, предложить новые приз

Abstract

Curb ramps are critical for urban accessibility, but robustly detecting them in images remains an open problem due to the lack of large-scale, high-quality datasets. While prior work has attempted to improve data availability with crowdsourced or manually labeled data, these efforts often fall short in either quality or scale. In this paper, we introduce and evaluate a two-stage pipeline called RampNet to scale curb ramp detection datasets and improve model performance. In Stage 1, we generate a dataset of more than 210,000 annotated Google Street View (GSV) panoramas by auto-translating government-provided curb ramp location data to pixel coordinates in panoramic images. In Stage 2, we train a curb ramp detection model (modified ConvNeXt V2) from the generated dataset, achieving state-of-the-art performance. To evaluate both stages of our pipeline, we compare to manually labeled panoramas. Our generated dataset achieves 94.0% precision and 92.5% recall, and our detection model reaches 0.9236 AP -- far exceeding prior work. Our work contributes the first large-scale, high-quality curb ramp detection dataset, benchmark, and model.

Ссылки и действия