The 9th AI City Challenge
2508.13564v1
cs.CV, cs.AI, cs.LG, cs.RO
2025-08-21
Авторы:
Zheng Tang, Shuo Wang, David C. Anastasiu, Ming-Ching Chang, Anuj Sharma, Quan Kong, Norimasa Kobori, Munkhjargal Gochoo, Ganzorig Batnasan, Munkh-Erdene Otgonbold, Fady Alnajjar, Jun-Wei Hsieh, Tomasz Kornuta, Xiaolong Li, Yilin Zhao, Han Zhang, Subhashree Radhakrishnan, Arihant Jain, Ratnesh Kumar, Vidya N. Murali, Yuxing Wang, Sameer Satish Pusegaonkar, Yizhou Wang, Sujit Biswas, Xunlei Wu, Zhedong Zheng, Pranamesh Chakraborty, Rama Chellappa
Резюме на русском
#### Контекст
Автоматизация процессов в транспортировке, производстве и общественной безопасности требует продвижения реального применения компьютерного зрения и искусственного интеллекта. Наблюдается рост сложности задач, в которых необходимо интегрировать различные сигналы в реальном времени, обеспечивая точность и эффективность. AI City Challenge (AICity), шестой год подряд, призван улучшить технологии в решении этих проблем, предлагая многообразные треки для исследования и конкуренции.
#### Метод
AI City Challenge состоит из четырех треков, каждый из которых предлагает уникальные вызовы.
- **Track 1**: Многоклассовая 3D-многокамерная трекинг, включая людей, роботов и автотранспортную технику. Использовались сложные калибровочные данные и 3D-баундинговые коробки.
- **Track 2**: Видео-вопрос-ответ для обеспечения транспортной безопасности, включая многокамерный анализ сцен, расширенный с помощью 3D-меток взгляда.
- **Track 3**: Конечно-гранный рассуждения в динамичных складских средах, требующих интерпретации RGB-D данных и решения проблем, комбинирующих визуальную обработку, геометрию и естественный язык.
- **Track 4**: Оптимизированное обнаружение предметов на дорогах с использованием камер с фишей, с учетом эффективности и реального времени для развертывания на ребрах.
Каждый трек требует уникальных подходов, сочетающих различные исходные данные и алгоритмы для решения сложных реальных проблем.
#### Результаты
Проведение четвертого AI City Challenge привлекло 245 команд из 15 стран, что показало 17% рост участия по сравнению с прошлым годом. Были публикованы публичные датасеты, набравшие более 30,000 загрузок. Результаты были оценены с помощью частично закрытого тестового набора для обеспечения репродуцируемости и уменьшения вероятности переобучения.
- **Track 1**: Лидеры достигли рекордных показателей в 3D-трекинге.
- **Track 2**: Было достигнуто улучшение точности видео-вопрос-ответа в области транспортной безопасности.
- **Track 3**: Новые алгоритмы позволили повысить точность в рассуждениях на основе 3D-данных в складских условиях.
- **Track 4**: Новые подходы к обнаружению предметов на дорогах с фишевыми камерами позволили расширить мощность и реальное время работы.
#### Значимость
Результаты AICity Challenge имеют широкое применение в области транспорта, производства, общественной безопасности и интеллектуальной аналитики. Улучшенные технологии дополняют существующие системы, увеличивая их эффективность и ровный рост. Их влияние может распространиться на многие области
Abstract
The ninth AI City Challenge continues to advance real-world applications of
computer vision and AI in transportation, industrial automation, and public
safety. The 2025 edition featured four tracks and saw a 17% increase in
participation, with 245 teams from 15 countries registered on the evaluation
server. Public release of challenge datasets led to over 30,000 downloads to
date. Track 1 focused on multi-class 3D multi-camera tracking, involving
people, humanoids, autonomous mobile robots, and forklifts, using detailed
calibration and 3D bounding box annotations. Track 2 tackled video question
answering in traffic safety, with multi-camera incident understanding enriched
by 3D gaze labels. Track 3 addressed fine-grained spatial reasoning in dynamic
warehouse environments, requiring AI systems to interpret RGB-D inputs and
answer spatial questions that combine perception, geometry, and language. Both
Track 1 and Track 3 datasets were generated in NVIDIA Omniverse. Track 4
emphasized efficient road object detection from fisheye cameras, supporting
lightweight, real-time deployment on edge devices. The evaluation framework
enforced submission limits and used a partially held-out test set to ensure
fair benchmarking. Final rankings were revealed after the competition
concluded, fostering reproducibility and mitigating overfitting. Several teams
achieved top-tier results, setting new benchmarks in multiple tasks.