The 9th AI City Challenge

2508.13564v1 cs.CV, cs.AI, cs.LG, cs.RO 2025-08-21
Авторы:

Zheng Tang, Shuo Wang, David C. Anastasiu, Ming-Ching Chang, Anuj Sharma, Quan Kong, Norimasa Kobori, Munkhjargal Gochoo, Ganzorig Batnasan, Munkh-Erdene Otgonbold, Fady Alnajjar, Jun-Wei Hsieh, Tomasz Kornuta, Xiaolong Li, Yilin Zhao, Han Zhang, Subhashree Radhakrishnan, Arihant Jain, Ratnesh Kumar, Vidya N. Murali, Yuxing Wang, Sameer Satish Pusegaonkar, Yizhou Wang, Sujit Biswas, Xunlei Wu, Zhedong Zheng, Pranamesh Chakraborty, Rama Chellappa

Резюме на русском

#### Контекст Автоматизация процессов в транспортировке, производстве и общественной безопасности требует продвижения реального применения компьютерного зрения и искусственного интеллекта. Наблюдается рост сложности задач, в которых необходимо интегрировать различные сигналы в реальном времени, обеспечивая точность и эффективность. AI City Challenge (AICity), шестой год подряд, призван улучшить технологии в решении этих проблем, предлагая многообразные треки для исследования и конкуренции. #### Метод AI City Challenge состоит из четырех треков, каждый из которых предлагает уникальные вызовы. - **Track 1**: Многоклассовая 3D-многокамерная трекинг, включая людей, роботов и автотранспортную технику. Использовались сложные калибровочные данные и 3D-баундинговые коробки. - **Track 2**: Видео-вопрос-ответ для обеспечения транспортной безопасности, включая многокамерный анализ сцен, расширенный с помощью 3D-меток взгляда. - **Track 3**: Конечно-гранный рассуждения в динамичных складских средах, требующих интерпретации RGB-D данных и решения проблем, комбинирующих визуальную обработку, геометрию и естественный язык. - **Track 4**: Оптимизированное обнаружение предметов на дорогах с использованием камер с фишей, с учетом эффективности и реального времени для развертывания на ребрах. Каждый трек требует уникальных подходов, сочетающих различные исходные данные и алгоритмы для решения сложных реальных проблем. #### Результаты Проведение четвертого AI City Challenge привлекло 245 команд из 15 стран, что показало 17% рост участия по сравнению с прошлым годом. Были публикованы публичные датасеты, набравшие более 30,000 загрузок. Результаты были оценены с помощью частично закрытого тестового набора для обеспечения репродуцируемости и уменьшения вероятности переобучения. - **Track 1**: Лидеры достигли рекордных показателей в 3D-трекинге. - **Track 2**: Было достигнуто улучшение точности видео-вопрос-ответа в области транспортной безопасности. - **Track 3**: Новые алгоритмы позволили повысить точность в рассуждениях на основе 3D-данных в складских условиях. - **Track 4**: Новые подходы к обнаружению предметов на дорогах с фишевыми камерами позволили расширить мощность и реальное время работы. #### Значимость Результаты AICity Challenge имеют широкое применение в области транспорта, производства, общественной безопасности и интеллектуальной аналитики. Улучшенные технологии дополняют существующие системы, увеличивая их эффективность и ровный рост. Их влияние может распространиться на многие области

Abstract

The ninth AI City Challenge continues to advance real-world applications of computer vision and AI in transportation, industrial automation, and public safety. The 2025 edition featured four tracks and saw a 17% increase in participation, with 245 teams from 15 countries registered on the evaluation server. Public release of challenge datasets led to over 30,000 downloads to date. Track 1 focused on multi-class 3D multi-camera tracking, involving people, humanoids, autonomous mobile robots, and forklifts, using detailed calibration and 3D bounding box annotations. Track 2 tackled video question answering in traffic safety, with multi-camera incident understanding enriched by 3D gaze labels. Track 3 addressed fine-grained spatial reasoning in dynamic warehouse environments, requiring AI systems to interpret RGB-D inputs and answer spatial questions that combine perception, geometry, and language. Both Track 1 and Track 3 datasets were generated in NVIDIA Omniverse. Track 4 emphasized efficient road object detection from fisheye cameras, supporting lightweight, real-time deployment on edge devices. The evaluation framework enforced submission limits and used a partially held-out test set to ensure fair benchmarking. Final rankings were revealed after the competition concluded, fostering reproducibility and mitigating overfitting. Several teams achieved top-tier results, setting new benchmarks in multiple tasks.

Ссылки и действия