📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Mona Mirzaie, Bodo Rosenhahn

## Контекст Автоматизированная система управления автомобилями является ключевым элементом развития дорожного транспорта. Однако для распространенного применения таких систем необходимо обеспечить доверие к их решениям. Это особенно важно в современных городских условиях, где необходимо адекватное восприятие сложных сценариев. Несмотря на продвижение технологий, особенно в области глубокого обучения, не всегда возможно понять, что влияет на решения моделей. Это проблема становится еще более актуальной при использовании неглубоких моделей, которые не всегда могут выделять ключевые области в изображении, отвечающие за прогнозирование движения. Наша модель стремится решить эту проблему, обеспечивая лучшую прозрачность в автоматизированных системах управления. ## Метод Мы предложили новую архитектуру нейронной сети, нацеленную на улучшение интерпретируемости решений в автономном вождении. Наша модель основывается на глубоких нейронных сетях с применением специальных функций потерь, которые поощряют спарсинг и локализованные активации фич. Это позволяет модели определять именно те области изображения, которые подпитывают прогноз движения. Мы также внедрили методы абляционных исследований, чтобы определить, как различные этапы модели влияют на интерпретируемость и на целевые показатели производительности. Наши эксперименты проводились на бенчмарке CARLA, что дало возможность оценить модель в сложных городских условиях. ## Результаты Мы провели обширные эксперименты, включая абляционные исследования, которые показали, что наша модель более эффективно выделяет значимые области изображения, что в свою очередь повышает надежность и безопасность автономного вождения. Наша модель показала самые низкие показатели нарушений правил дорожного движения и самую высокую степень прохождения маршрутов в среднем, что демонстрирует ее превосходство по сравнению с другими моделями на CARLA Leaderboard. Благодаря использованию только одного монитора, что важно для реального применения, высокая прозрачность наших решений стала достижением, которое дополнительно повысило безопасность на дорогах. ## Значимость Наша модель может быть применена в автономных системах управления, где важно понимать причины прогнозируемых решений. Она предоставляет новые возможности для глубокого понимания и доверия к моделям, что может быть применено в дорожной безопасности и управлении транспортом. Этот подход может иметь потенциал для улучшения доверия к AI в сфере автоматизированного вождения, что может привести к ее более широкому применению в реальной жизни. ## Выводы Мы предложили модель, которая обеспечивает лучшую про
Annotation:
Trustworthy AI is mandatory for the broad deployment of autonomous vehicles. Although end-to-end approaches derive control commands directly from raw data, interpreting these decisions remains challenging, especially in complex urban scenarios. This is mainly attributed to very deep neural networks with non-linear decision boundaries, making it challenging to grasp the logic behind AI-driven decisions. This paper presents a method to enhance interpretability while optimizing control commands in ...
ID: 2508.18898v1 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Pedro Antonio Rabelo Saraiva, Enzo Ferreira de Souza, Joao Manoel Herrera Pinheiro, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Автоматизация промышленных процессов, в том числе в сфере нефтяного и газового дела, становится все более важной в условиях возрастающих требований к безопасности и экономичности. Одной из ключевых задач в этой области является развитие систем автоматического распознавания объектов, таких как трубы или манометры, в условиях труднодоступных и опасных промышленных объектов, таких как нефтяные платформы. Однако, наличие реальных данных для обучения моделей существенно ограничено систематическими и экономическими ограничениями. Добыча данных в таких условиях не только трудоемка, но и связана с высокими рисками. Данная статья рассматривает проблему и предлагает решение в виде гибридной синтетической системы синтеза данных. ## Метод Предложенная методология основывается на синтезе систематически регулируемых синтетических данных и нейросетевых моделей. Используется BlenderProc для создания фотореалистичных изображений с высокоточными аннотациями. Это позволяет контролировать доменные различия и улучшать регуляризацию моделей. В качестве дополнительного инструмента использована Cosmos-Predict2, которая генерирует видео последовательности с визуальной разнообразием и физически достоверным поведением. Изначально синтетические данные комбинируются с реальными, чтобы обучить и проверить модели на их основе. Это позволяет повысить точность моделей даже при небольших объемах реальных данных. ## Результаты Эксперименты проводились на сочетании реальных и синтетических данных. Была проанализирована степень влияния различных доляв синтетических данных на точность моделей. Оказалось, что модель, обученная на комбинации 50% синтетических и 50% реальных данных, показала наивысшую точность. Это свидетельствует о мощности синтетического подхода в развитии систем распознавания в условиях низкого объема реальных данных. ## Значимость Данный подход имеет широкое применение в сфере автоматизации промышленных процессов, в частности в сфере нефтяного и газового дела. Он позволяет эффективно решать проблему недостатка данных различных промышленных систем, включая не только распознавание объектов, но и другие задачи, такие как слежение за движением и динамикой объектов. Благодаря синтетической системе можно создавать безопасные, экономичные и надежные системы распознавания, что делает его привлекательным для развития беспилотных систем и систем с низким риском в опасных промышленных условиях. ## Выводы Результаты демонстрируют, что синтетический подход является эффективным для развития моделей распознавания объектов в условиях недостатка реальных данных. Будущ
Annotation:
This work addresses the challenges of data scarcity and high acquisition costs for training robust object detection models in complex industrial environments, such as offshore oil platforms. The practical and economic barriers to collecting real-world data in these hazardous settings often hamper the development of autonomous inspection systems. To overcome this, in this work we propose and validate a hybrid data synthesis pipeline that combines procedural rendering with AI-driven video generati...
ID: 2508.17468v1 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Zheng Tang, Shuo Wang, David C. Anastasiu, Ming-Ching Chang, Anuj Sharma, Quan Kong, Norimasa Kobori, Munkhjargal Gochoo, Ganzorig Batnasan, Munkh-Erdene Otgonbold, Fady Alnajjar, Jun-Wei Hsieh, Tomasz Kornuta, Xiaolong Li, Yilin Zhao, Han Zhang, Subhashree Radhakrishnan, Arihant Jain, Ratnesh Kumar, Vidya N. Murali, Yuxing Wang, Sameer Satish Pusegaonkar, Yizhou Wang, Sujit Biswas, Xunlei Wu, Zhedong Zheng, Pranamesh Chakraborty, Rama Chellappa

#### Контекст Автоматизация процессов в транспортировке, производстве и общественной безопасности требует продвижения реального применения компьютерного зрения и искусственного интеллекта. Наблюдается рост сложности задач, в которых необходимо интегрировать различные сигналы в реальном времени, обеспечивая точность и эффективность. AI City Challenge (AICity), шестой год подряд, призван улучшить технологии в решении этих проблем, предлагая многообразные треки для исследования и конкуренции. #### Метод AI City Challenge состоит из четырех треков, каждый из которых предлагает уникальные вызовы. - **Track 1**: Многоклассовая 3D-многокамерная трекинг, включая людей, роботов и автотранспортную технику. Использовались сложные калибровочные данные и 3D-баундинговые коробки. - **Track 2**: Видео-вопрос-ответ для обеспечения транспортной безопасности, включая многокамерный анализ сцен, расширенный с помощью 3D-меток взгляда. - **Track 3**: Конечно-гранный рассуждения в динамичных складских средах, требующих интерпретации RGB-D данных и решения проблем, комбинирующих визуальную обработку, геометрию и естественный язык. - **Track 4**: Оптимизированное обнаружение предметов на дорогах с использованием камер с фишей, с учетом эффективности и реального времени для развертывания на ребрах. Каждый трек требует уникальных подходов, сочетающих различные исходные данные и алгоритмы для решения сложных реальных проблем. #### Результаты Проведение четвертого AI City Challenge привлекло 245 команд из 15 стран, что показало 17% рост участия по сравнению с прошлым годом. Были публикованы публичные датасеты, набравшие более 30,000 загрузок. Результаты были оценены с помощью частично закрытого тестового набора для обеспечения репродуцируемости и уменьшения вероятности переобучения. - **Track 1**: Лидеры достигли рекордных показателей в 3D-трекинге. - **Track 2**: Было достигнуто улучшение точности видео-вопрос-ответа в области транспортной безопасности. - **Track 3**: Новые алгоритмы позволили повысить точность в рассуждениях на основе 3D-данных в складских условиях. - **Track 4**: Новые подходы к обнаружению предметов на дорогах с фишевыми камерами позволили расширить мощность и реальное время работы. #### Значимость Результаты AICity Challenge имеют широкое применение в области транспорта, производства, общественной безопасности и интеллектуальной аналитики. Улучшенные технологии дополняют существующие системы, увеличивая их эффективность и ровный рост. Их влияние может распространиться на многие области
Annotation:
The ninth AI City Challenge continues to advance real-world applications of computer vision and AI in transportation, industrial automation, and public safety. The 2025 edition featured four tracks and saw a 17% increase in participation, with 245 teams from 15 countries registered on the evaluation server. Public release of challenge datasets led to over 30,000 downloads to date. Track 1 focused on multi-class 3D multi-camera tracking, involving people, humanoids, autonomous mobile robots, and ...
ID: 2508.13564v1 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Alexandre Brown, Glen Berseth

## Контекст Visual reinforcement learning (RL) представляет собой сложную задачу, требующую эффективного уровня обучения как с точки зрения восприятия, так и с точки зрения принятия решений. Проблема заключается в том, что высокоразмерные входные данные, такие как изображения, требуют сложной обработки, а ненормализованные награды создают дополнительные сложности. До сих пор, несмотря на развитие моделей в области визуального распознавания, интеграция этих моделей в RL для улучшения общей точности и эффективности выбора остается неочевидной задачей. Мотивация для создания SegDAC (Segmentation-Driven Actor-Critic) заключается в том, чтобы решить эти проблемы, обеспечив улучшенную обработку визуальных данных и усиленный подход к обучению. ## Метод SegDAC основывается на интеграции двух моделей: Segment Anything (SAM) и YOLO-World. SAM используется для декомпозиции изображений на отдельные сегменты, которые затем становятся объектами действий в RL. YOLO-World позволяет трансформировать эти сегменты в семантически значимые элементы с помощью текстовых признаков. Для управления таким динамическим количеством сегментов SegDAC вводит новую архитектуру, основанную на трансформерной структуре. Эта архитектура адаптивна и позволяет RL-агенту динамически выбирать, какие сегменты должны быть особенно внимательно обработаны. Несмотря на это, SegDAC не требует каких-либо размеченных данных, чем упрощает процесс обучения и увеличивает применимость в реальных сценариях. ## Результаты Опытные исследования проводились на бенчмарке ManiSkill3, который представляет собой сложный набор задач манипуляции, включая разнообразные визуальные помехи. В тяжелой версии этого бенчмарка, SegDAC демонстрирует двойной прирост эффективности в обработке визуальных данных по сравнению с предыдущими методами. Также, SegDAC показал примерно одинаковую эффективность в обучении (sample efficiency) по сравнению с другими методами по всем задачам, протестированным в этом эксперименте. Эти результаты подтверждают улучшенную обработку визуальных сигналов и эффективность SegDAC в обучении визуальных RL-систем. ## Значимость SegDAC может быть применен в области визуальных RL для различных задач, таких как манипуляция, игровые сценарии и даже визуальное управление роботами. Основные преимущества SegDAC заключаются в улучшенной общей точности, более эффективном использовании данных и уменьшении потребности в разметке данных. Это также открывает путь к будущим исследованиям в области визуальных RL и взаимодействия роботов с визуальным миром. ## Выводы SegDAC достигает существенных улучшений в области визуального RL, используя дина
Annotation:
Visual reinforcement learning (RL) is challenging due to the need to learn both perception and actions from high-dimensional inputs and noisy rewards. Although large perception models exist, integrating them effectively into RL for visual generalization and improved sample efficiency remains unclear. We propose SegDAC, a Segmentation-Driven Actor-Critic method. SegDAC uses Segment Anything (SAM) for object-centric decomposition and YOLO-World to ground segments semantically via text prompts. It ...
ID: 2508.09325v1 cs.CV, cs.AI, cs.LG, cs.RO
Показано 21 - 24 из 24 записей