📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Po-Hsien Yu, Yu-Syuan Tseng, Shao-Yi Chien

## Контекст Персональная рекогниция персонажей (Person Re-Identification, Re-ID) является ключевым заданием в сфере интеллектуального видеомониторинга и обеспечения общественной безопасности. Классические подходы к этой задаче требуют централизованного обработки больших массивов данных, что создает риски для конфиденциальности и требует высоких ресурсов. Федеративное обучение (Federated Learning, FL) предлагает альтернативу, обеспечивая коллективное обучение моделей без централизованного хранения данных. Однако реализация FL в реальных системах Re-ID сталкивается с двумя основными проблемами: статистической неоднородностью клиентских данных (non-IID) и высоким объемом связи из-за частых передач больших моделей. Целью этой работы является разработка эффективного и экономичного фреймворка для решения этих проблем в контексте Re-ID. ## Метод FedKLPR предлагает новый фреймворк для федеративного обучения, оптимизированный для задач Re-ID. Основной инновацией является **Контроль Дивергенции Кантора-Лебега (KLL)**, который регулирует ошибки клиентских моделей в соответствии с глобальной функцией распределения. **Адаптивная Агрегация с Привязкой к Приращению (KLPWA)** включает в себя новую методику агрегации моделей, учитывающую как дивергенцию, так и размер моделей, чтобы обеспечить стабильность и эффективность. Для снижения объемов передаваемых данных вводится **Спарсинг активаций (SAS)**, который исключает нулевые веса из процесса обновления. Наконец, **Восстановление Кругового Раунда (CRR)** позволяет регулировать прайминг в зависимости от текущих требований, обеспечивая высокую точность при глубоком сжатии модели. ## Результаты Используя 8 бенчмарковых наборов данных, эксперименты показали, что FedKLPR существенно сокращает объем передачи данных. По сравнению с современными методами, FedKLPR уменьшает **33% - 38%** издержек связи при использовании ResNet-50 и **20% - 40%** при использовании ResNet-34, сохранив точность модели на уровне **<1%** от состояния лучшего результата. Эти результаты демонстрируют высокую эффективность FedKLPR в обеспечении связи, минимизации проблем неоднородности данных и сохранении точности модели Re-ID. ## Значимость Разработанный подход может быть применен в системах обеспечения общественной безопасности, интеллектуального видеомониторинга и безопасности транспорта. Он обеспечивает значительную экономию ресурсов связи, улучшает сохранение конфиденциальности данных и поддерживает высокую точность моделей Re-ID. Благодаря использованию адаптивных методов, FedKLPR может быть использован в реальных
Annotation:
Person re-identification (Re-ID) is a fundamental task in intelligent surveillance and public safety. Federated learning (FL) offers a privacy-preserving solution by enabling collaborative model training without centralized data collection. However, applying FL to real-world re-ID systems faces two major challenges: statistical heterogeneity across clients due to non-IID data distributions, and substantial communication overhead caused by frequent transmission of large-scale models. To address t...
ID: 2508.17431v1 cs.CV, cs.AI, cs.LG
Авторы:

Pedro Antonio Rabelo Saraiva, Enzo Ferreira de Souza, Joao Manoel Herrera Pinheiro, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Автоматизация промышленных процессов, в том числе в сфере нефтяного и газового дела, становится все более важной в условиях возрастающих требований к безопасности и экономичности. Одной из ключевых задач в этой области является развитие систем автоматического распознавания объектов, таких как трубы или манометры, в условиях труднодоступных и опасных промышленных объектов, таких как нефтяные платформы. Однако, наличие реальных данных для обучения моделей существенно ограничено систематическими и экономическими ограничениями. Добыча данных в таких условиях не только трудоемка, но и связана с высокими рисками. Данная статья рассматривает проблему и предлагает решение в виде гибридной синтетической системы синтеза данных. ## Метод Предложенная методология основывается на синтезе систематически регулируемых синтетических данных и нейросетевых моделей. Используется BlenderProc для создания фотореалистичных изображений с высокоточными аннотациями. Это позволяет контролировать доменные различия и улучшать регуляризацию моделей. В качестве дополнительного инструмента использована Cosmos-Predict2, которая генерирует видео последовательности с визуальной разнообразием и физически достоверным поведением. Изначально синтетические данные комбинируются с реальными, чтобы обучить и проверить модели на их основе. Это позволяет повысить точность моделей даже при небольших объемах реальных данных. ## Результаты Эксперименты проводились на сочетании реальных и синтетических данных. Была проанализирована степень влияния различных доляв синтетических данных на точность моделей. Оказалось, что модель, обученная на комбинации 50% синтетических и 50% реальных данных, показала наивысшую точность. Это свидетельствует о мощности синтетического подхода в развитии систем распознавания в условиях низкого объема реальных данных. ## Значимость Данный подход имеет широкое применение в сфере автоматизации промышленных процессов, в частности в сфере нефтяного и газового дела. Он позволяет эффективно решать проблему недостатка данных различных промышленных систем, включая не только распознавание объектов, но и другие задачи, такие как слежение за движением и динамикой объектов. Благодаря синтетической системе можно создавать безопасные, экономичные и надежные системы распознавания, что делает его привлекательным для развития беспилотных систем и систем с низким риском в опасных промышленных условиях. ## Выводы Результаты демонстрируют, что синтетический подход является эффективным для развития моделей распознавания объектов в условиях недостатка реальных данных. Будущ
Annotation:
This work addresses the challenges of data scarcity and high acquisition costs for training robust object detection models in complex industrial environments, such as offshore oil platforms. The practical and economic barriers to collecting real-world data in these hazardous settings often hamper the development of autonomous inspection systems. To overcome this, in this work we propose and validate a hybrid data synthesis pipeline that combines procedural rendering with AI-driven video generati...
ID: 2508.17468v1 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Syamantak Sarkar, Revoti P. Bora, Bhupender Kaushal, Sudhish N George, Kiran Raja

## Контекст Class Activation Maps (CAMs) являются важной методологией для визуализации областей входных данных, которые используются глубокими нейронными сетями для принятия решений. CAMs играют ключевую роль в обеспечении прозрачности моделей и интерпретировании их выводов. Однако, несмотря на их популярность, их устойчивость к шумавым воздействиям остается значительно недооцененной. Несомненно, что работа моделей, основанных на CAMs, может быть серьезно затруднена высоким уровнем шума в входных данных, что вносит риск защищенности и надежности таких систем. Настоящее исследование посвящено сравнительному анализу устойчивости различных методов CAM к различным типам шума и разных архитектур моделей. Мы стремимся понять, насколько шумные данные могут повлиять на CAM, и как эти эффекты могут отличаться в зависимости от типа шума, архитектуры модели и характера данных. ## Метод Мы разработали рамку для измерения устойчивости CAM к шумавым воздействиям, охватывающую ряд различных типов шума, таких как добавление шума (Additive Noise), масштабирование (Scaling) и методы меток (Label Noise). Для подробного изучения мы использовали несколько моделей сверточных нейронных сетей (CNN), включая ResNet, VGG и MobileNet. Набор данных состоял из CIFAR-10, CIFAR-100 и ImageNet. Мы проанализировали влияние шума на CAMs, измеряя не только изменение визуализации, но и влияние на получаемые классы. А также мы построили метрику, состоящую из двух основных компонент: **консистентности** (stability) и **отзывчивости** (responsiveness). **Консистентность** измеряется как устойчивость CAM к незначительным входным изменениям, не меняющим выбранный класс, а **отзывчивость** — как чувствительность CAM к изменениям в выводе, вызванным входными изменениями. Эти два аспекта позволяют оценить насколько устойчивы CAM к шумным воздействиям. ## Результаты Наши эксперименты показали значительные различия в устойчивости CAM к разным типам шума в зависимости от метода CAM, архитектуры сети и характера данных. Мы обнаружили, что некоторые CAM-методы оказались более чувствительными к шуму, в то время как другие проявили более высокую устойчивость. Например, метод Grad-CAM оказался более устойчивым к добавленному шуму по сравнению с семантическими взглядами (Semantic CAM). Мы также обнаружили, что использование защищенных данных, таких как ImageNet, может существенно снизить чувствительность к шуму в отношении каких-то CAM-методов. Более того, наши результаты подтвердили, что влияние шума может быть сильно зависим от характера данных, что демонстрирует важность выбора данных для обеспечения точности и надежности CAM. ## З
Annotation:
Class Activation Maps (CAMs) are one of the important methods for visualizing regions used by deep learning models. Yet their robustness to different noise remains underexplored. In this work, we evaluate and report the resilience of various CAM methods for different noise perturbations across multiple architectures and datasets. By analyzing the influence of different noise types on CAM explanations, we assess the susceptibility to noise and the extent to which dataset characteristics may impac...
ID: 2508.18154v1 cs.CV, cs.AI, cs.LG
Авторы:

Jinyue Song, Hansol Ku, Jayneel Vora, Nelson Lee, Ahmad Kamari, Prasant Mohapatra, Parth Pathak

## Контекст Проблема ограниченности точности детектирования объектов в системах автоматического управления автомобилями в условиях плохой видимости и воздействия погодных факторов, таких как дождь и глянцевые поверхности, остается актуальной. Одним из решений этой проблемы являются мм-волновые ФМСВ-радары. Однако эти радары обладают своими ограничениями, в том числе низкая плотность обнаруженных точек и значительное количество шума в полученных данных. Для улучшения показателей точности и надежности детектирования объектов в автомобильных системах используется метод совместной обработки данных сразу из нескольких радаров, установленных на разных автомобилях, что позволяет получить более полное и точное трёхмерное представление окружающей среды. ## Метод Предложенный подход к решению этой проблемы основывается на создании совместной сети обработки данных, включающей в себя множество радаров, размещённых на разных автомобилях. Для начала, данные, полученные из каждого радара, добавляются в общую структуру, которая позволяет их взаимодействовать и уточнять сигналы. Для этого применяется решение, основанное на архитектуре PointNet, которая использует глубокую нейронную сеть для выделения ключевых фичей из сигнала. Кроме того, в рамках этого подхода используется синхронизация времени, чтобы обеспечить корреляцию данных из разных радаров. Благодаря этому, получается улучшенное трёхмерное представление окружающей среды, что позволяет улучшить точность детектирования объектов. ## Результаты Для проверки эффективности предложенной методологии проводились эксперименты, в которых использовались данные, собранные с различных автомобилей. Эти данные включали в себя как точки, полученные от радаров, так и данные от камер и GPS. Исследователи проводили сравнение различных решений, в том числе работы с радаром по отдельности, а также совместным использованием данных из нескольких радаров. Результаты экспериментов показали, что способ, основанный на совместной обработке данных из нескольких радаров, даёт значительное улучшение точности детектирования объектов. Например, используя определённые модификации архитектуры PointNet, удалось увеличить метрику mAP (mean Average Precision) в десять раз при интервале доверия 0.9. ## Значимость Предложенный подход может быть применён в различных автотранспортных системах, включая робототранспортные системы и системы коллективного управления автомобилями. Он оказывается эффективным в условиях плохой видимости, так как позволяет улучшить точность детектирования объектов, используя данные из нескольких радаров. В результате, это может способствовать
Annotation:
Automotive FMCW radars remain reliable in rain and glare, yet their sparse, noisy point clouds constrain 3-D object detection. We therefore release CoVeRaP, a 21 k-frame cooperative dataset that time-aligns radar, camera, and GPS streams from multiple vehicles across diverse manoeuvres. Built on this data, we propose a unified cooperative-perception framework with middle- and late-fusion options. Its baseline network employs a multi-branch PointNet-style encoder enhanced with self-attention to f...
ID: 2508.16030v1 cs.CV, cs.AI, cs.LG, cs.NI
Авторы:

Huanpeng Chu, Wei Wu, Guanyu Fen, Yutao Zhang

#### Контекст Diffusion models являются мощным подходом для решения задач генеративного моделирования, таких как синтез изображений и видео. Особенностью этих моделей является их высокая точность и качество, однако это приходит на разряд высокой вычислительной сложности. Это особенно видно в случае трансформеров для размытия, где высокая сложность вычислений и большое число семплирования шагов становятся значительными ограничениями для реального времени. Отсутствие эффективных методов ускорения, которые сохраняли бы качество генерации, ставит под угрозу внедрение этих моделей в реальные приложения. #### Метод Метод OmniCache предлагает новый подход к ускорению диффузионных трансформеров, основываясь на анализе глобальной редундантности в процессе размытия. В отличие от существующих методов, которые определяют стратегии кеширования на основе сходства между шагами, OmniCache использует перспективу самого размытия. Он оценивает глобальные траектории размытия и распределяет кеш ресурсов по всему процессу, а не только к определенным этапам. Также в процессе кеширования вводится динамическая оценка шума и его фильтрация, что позволяет снизить его влияние на результат. #### Результаты Исследования были проведены на обширных наборах данных, включая изображения и видео. Результаты показывают, что OmniCache эффективно ускоряет процесс размытия, сохраняя высокий уровень качества. Например, на изображениях с высоким разрешением, стандартные методы демонстрируют снижение качества при ускорении, в то время как OmniCache поддерживает высокий уровень качества без дополнительных ресурсов. #### Значимость OmniCache открывает новые возможности для использования диффузионных трансформеров в реальном времени. Он применяется в широком спектре задач, включая синтез изображений, видеогенерацию и даже генеративные модели для текстовых данных. Основные преимущества включают ускорение процесса обучения, сохранение качества результатов и эффективное использование ресурсов. Это может способствовать расширению применения диффузионных моделей в области искусственного интеллекта и синтетического контента. #### Выводы OmniCache продемонстрировал свою эффективность в ускорении размытия, сохраняя качество результатов. Будущие исследования будут фокусироваться на повышении его скорости и эффективности, а также на расширении его применения в различных сферах генеративного моделирования.
Annotation:
Diffusion models have emerged as a powerful paradigm for generative tasks such as image synthesis and video generation, with Transformer architectures further enhancing performance. However, the high computational cost of diffusion Transformers-stemming from a large number of sampling steps and complex per-step computations-presents significant challenges for real-time deployment. In this paper, we introduce OmniCache, a training-free acceleration method that exploits the global redundancy inher...
ID: 2508.16212v2 cs.CV, cs.AI, cs.LG
Авторы:

Sandeep Gupta, Roberto Passerone

#### Контекст Visual Foundation Models (VFMs) являются важной составляющей современной компьютерной зрения, обеспечивая высокую точность и универсальность для различных задач, таких как обнаружение объектов, классификация изображений, сегментация и позиционирование. Использование технологий VFMs стало беспрецедентно распространенным в различных сферах, включая безопасность, автоматизированные системы управления транспортом, анализ медицинских изображений и другие приложения, требующие высокой надежности и прочности. Однако, несмотря на их эффективность, VFMs часто сталкиваются с проблемами, связанными с проникновением шумов, изменением данных, атаками адверсарного характера и динамическими условиями окружающей среды. Эти проблемы могут привести к дефектной работе моделей, что требует разработки эффективных методов повышения их прочности и устойчивости к таким факторам. #### Метод Для оценки прочности VFMs используются различные методы, включая метрики устойчивости, эмпирические защитные методы и инструменты анализа различных данных. Методология включает в себя изучение алгоритмов обучения, адаптации моделей к новым условиям и оценку их прочности в различных сценариях. Также, в рамках исследования, проводится анализ основных компонентов моделей, таких как архитектура сверток, нейронные сети и связанные с ними компоненты, которые влияют на их устойчивость. Для этих целей, в работе применяются аналитические модели, методы бенчмаркинга и симуляционные эксперименты, что позволяет изучить точность, устойчивость к шумам и влияние различных факторов на поведение моделей. #### Результаты Исследование показало, что увеличение устойчивости моделей к шуму и различным атакам приводит к значительному повышению их производительности в реальных условиях. Результаты экспериментов показали, что использование адаптивных методов обучения и применения защитных методов, таких как адаптивная нормализация и добавление шума во время обучения, существенно повышают устойчивость моделей. Также, был проведен анализ характеристик различных алгоритмов и их влияния на способность моделей выдерживать различные типы искажений и нападений. Эти результаты подтвердили, что сильная устойчивость моделей к различным факторам может быть достигнута с помощью тщательного анализа и применения различных методов обучения и оценки. #### Значимость Результаты этого исследования могут быть применены в различных областях, включая безопасность, автоматизированные системы перевозок, медицинский интерпретационный анализ и другие важные технологии.
Annotation:
Visual Foundation Models (VFMs) are becoming ubiquitous in computer vision, powering systems for diverse tasks such as object detection, image classification, segmentation, pose estimation, and motion tracking. VFMs are capitalizing on seminal innovations in deep learning models, such as LeNet-5, AlexNet, ResNet, VGGNet, InceptionNet, DenseNet, YOLO, and ViT, to deliver superior performance across a range of critical computer vision applications. These include security-sensitive domains like bio...
ID: 2508.16225v1 cs.CV, cs.AI, cs.LG
Авторы:

Mustafa Mohammadi Gharasuie, Luis Rueda

## Контекст В последние годы растет интерес к обработке изображений с использованием графовых сетей, включая графовые сверточные сети (GCNs). Это связано с огромным потенциалом GCNs в моделировании сложных структур данных, таких как изображения. Однако имеются сложности, связанные с предварительной обработкой данных и необходимостью оптимальной репрезентации изображений. Существующие подходы часто сталкиваются с проблемами эффективности и точности, особенно при работе с сложными сценами и тонкой классификацией категорий. Мотивацией для данного исследования является развитие более эффективного и точного метода классификации изображений, использующего графовые сети в сочетании с геометрическими подходами для улучшения репрезентации изображений. ## Метод Предлагаемый подход интегрирует GCNs с геометрическими методами, основанными на Voronoi и Delaunay диаграммах. Изображения представляются как графы, где каждый пиксель или регион представляется в виде вершины. Эти графы подвергаются уточнению с помощью Delaunay-триангуляции, чтобы оптимизировать их структуру. Затем используются Вoronoi-диаграммы для уточнения границ регионов и улучшения точности представления. Этот подход позволяет лучше учитывать локальные отношения между пикселями, улучшая точность и эффективность классификации. Метод работает в несколько этапов: предварительная обработка, графовая работа, триангуляция и классификация. ## Результаты Разработанный метод был протестирован на нескольких заметных датасетах классикации изображений, включая CIFAR-10 и ImageNet. Использовались метрики точности классификации и эффективность предварительной обработки. Результаты показали, что предлагаемый подход превосходит существующие GCN-модели и другие подходы к классификации изображений в терминах точности и эффективности. Например, на CIFAR-10, модель достигла точности ~95%, что значительно выше, чем у стандартных CNN-моделей. Эксперименты показали, что интеграция Voronoi-диаграмм в графовые модели способствует более точному представлению сложной структуры изображений, особенно в сложных сценах. ## Значимость Предложенный подход может быть применен в различных областях, включая компьютерное зрение, глубокое обучение и анализ неструктурированных данных. Он предлагает несколько преимуществ, таких как улучшенная точность классификации, эффективность предварительной обработки и гибкость при обработке разных типов данных. Этот подход может быть использован для решения задач в сфере распознавания объектов, анали
Annotation:
The rapid progress in image classification has been largely driven by the adoption of Graph Convolutional Networks (GCNs), which offer a robust framework for handling complex data structures. This study introduces a novel approach that integrates GCNs with Voronoi diagrams to enhance image classification by leveraging their ability to effectively model relational data. Unlike conventional convolutional neural networks (CNNs), our method represents images as graphs, where pixels or regions functi...
ID: 2508.14958v1 cs.CV, cs.AI, cs.LG
Авторы:

Chunming He, Fengyang Xiao, Rihan Zhang, Chengyu Fang, Deng-Ping Fan, Sina Farsiu

## Контекст В области поиска признаков и визуального распознавания скрытых объектов встречаются часто проблемы с неопределенностью, особенно при работе с неполными или зашумленными изображениями. Многие существующие методы используют реversible стратегии для уменьшения неопределенности, однако они ограничиваются только масочным доменом. Это опускает нераскрытый потенциал RGB-домена. Наша работа нацелена на развитие более эффективных алгоритмов для решения задачи Concealed Visual Perception (CVP), объединяя реversible моделирование и генерирующий подход для глубокого улучшения изображений. ## Метод Мы предлагаем Reversible Unfolding Network for Concealed Visual Perception with Generative Refinement (RUN++), который представляет собой динамическую систему, основанную на математической оптимизации. RUN++ разворачивает итеративный процесс решения в многоступенчатую архитектуру нейросети. Он применяет reversible моделирование как в маскировочном, так и в RGB-доменах, что позволяет уменьшить неопределенность с помощью diffusion model. Каждая стадия включает в себя: 1. **Concealed Object Region Extraction (CORE)** – уточняет области объектов в маскировочном домене; 2. **Context-Aware Region Enhancement (CARE)** – улучшает разделение фона и переднего плана в RGB-домене; 3. **Finetuning Iteration via Noise-based Enhancement (FINE)** – использует Bernoulli diffusion model для целевого уточнения неясных областей в segmentation maskе. Эта система синергетически совмещает мощь реversible моделирования с разрешением неопределенности diffusion modelа, что улучшает точность и эффективность распознавания скрытых объектов. ## Результаты Мы провели эксперименты на различных датасетах, таких как CVP-1K и CVP-2K, использовали подход с разделением кросс-валидации. Наши результаты показали, что RUN++ превосходит существующие методы в точности распознавания и снижении false positives и false negatives. Мы также проверили эффективность нашего подхода в условиях реальных зашумлений и деградаций, доказав его жизнеспособность в реальных сценариях. ## Значимость RUN++ может применяться в сферах, требующих точного распознавания скрытых объектов, таких как безопасность, медицина и автоматизированные системы. Он обеспечивает высокую точность и уменьшает false positives, что делает его подходящим для сложных реальных задач. Благодаря использованию diffusion modelа, RUN++ эффективен в ресурсоемких ситуациях, таких как real-time recognition. ## Выводы RUN++ представляет собой перспективный подход к решению задачи Concealed Visual Perception, который совмещает реversible моделирование с генерирующими методами для обеспечения точности и устойчивости. Будущие исследования будут направлены на расширение этого подхода к другим биомедицинским и безопасностным задачам, а также на дополнительное улучшение его эффективности и скорости.
Annotation:
Existing methods for concealed visual perception (CVP) often leverage reversible strategies to decrease uncertainty, yet these are typically confined to the mask domain, leaving the potential of the RGB domain underexplored. To address this, we propose a reversible unfolding network with generative refinement, termed RUN++. Specifically, RUN++ first formulates the CVP task as a mathematical optimization problem and unfolds the iterative solution into a multi-stage deep network. This approach pro...
ID: 2508.15027v1 cs.CV, cs.AI, cs.LG
Авторы:

Yuguang Yue, Chris Green, Samuel Hunt, Irakli Salia, Wenzhe Shi, Jonathan J Hunt

## Контекст Область исследования сосредоточена на создании интеллектуальных агентов, которые способны играть в 3D-видеоигры, имитируя человеческий стиль игры. Данная область привлекательна из-за возможности создания AI-текпов, контролируемых NPC, персонализированных трансляторов и помогающих игровых тестеров. Однако существуют сложности, такие как необходимость использовать только те данные, которые доступны игрокам (пиксельный стрим), и обеспечение генерализуемости метода к различным типам игр без особого адаптационного процесса. Настоящее исследование адресовано этим проблемам, стремясь развить агента, который может учиться играть в новые игры с минимальной дополнительной настройкой. ## Метод Методология построена на принципе бихевиорного клонирования (behavior cloning). Использованы два типа данных: 1) отмеченные демонстрации, собранные из игр игроками; 2) неотмеченные видеоигровые видео, в которых ведется активность. Для этих видео применяется процесс импутации действий с помощью модели инверсных динамик. Затем, трансформер-декодер с авто-регрессивным выводом используется для генерации действий. Эта архитектура работает на доступных потребительских GPU и обеспечивает латентность для удобного использования. ## Результаты В ходе исследования проводились эксперименты на различных типах игр, включая Roblox и классические MS-DOS-игры. Наблюдается хорошая генерализуемость: агент продемонстрировал компетентное игровое поведение и способность учиться в новых условиях. Также проведены абляционные эксперименты, подтвердив важность использования дополнительных данных и эффективности архитектуры. ## Значимость Полученный подход открывает новые возможности в использовании AI в игровой индустрии. Модель может применяться для создания AI-текпов, живых трансляторов, и в других сферах, где необходима грамотная игровая интеллектуальная система. Особым преимуществом является то, что модель работает на одном потребительском GPU и не требует сложной настройки для каждой конкретной игры. ## Выводы На основе видения, названия Pixels2Play-0.1 (P2P0.1), данная работа ставит цель развития широкой общей модели, способной играть в 3D-видеоигры. Будущее исследование будет сосредоточено на достижении высочайшего уровня игрового мастерства и реализации полностью текстово-управляемого контроля.
Annotation:
We introduce Pixels2Play-0.1 (P2P0.1), a foundation model that learns to play a wide range of 3D video games with recognizable human-like behavior. Motivated by emerging consumer and developer use cases - AI teammates, controllable NPCs, personalized live-streamers, assistive testers - we argue that an agent must rely on the same pixel stream available to players and generalize to new titles with minimal game-specific engineering. P2P0.1 is trained end-to-end with behavior cloning: labeled demon...
ID: 2508.14295v1 cs.CV, cs.AI, cs.LG
Авторы:

Zheng Tang, Shuo Wang, David C. Anastasiu, Ming-Ching Chang, Anuj Sharma, Quan Kong, Norimasa Kobori, Munkhjargal Gochoo, Ganzorig Batnasan, Munkh-Erdene Otgonbold, Fady Alnajjar, Jun-Wei Hsieh, Tomasz Kornuta, Xiaolong Li, Yilin Zhao, Han Zhang, Subhashree Radhakrishnan, Arihant Jain, Ratnesh Kumar, Vidya N. Murali, Yuxing Wang, Sameer Satish Pusegaonkar, Yizhou Wang, Sujit Biswas, Xunlei Wu, Zhedong Zheng, Pranamesh Chakraborty, Rama Chellappa

#### Контекст Автоматизация процессов в транспортировке, производстве и общественной безопасности требует продвижения реального применения компьютерного зрения и искусственного интеллекта. Наблюдается рост сложности задач, в которых необходимо интегрировать различные сигналы в реальном времени, обеспечивая точность и эффективность. AI City Challenge (AICity), шестой год подряд, призван улучшить технологии в решении этих проблем, предлагая многообразные треки для исследования и конкуренции. #### Метод AI City Challenge состоит из четырех треков, каждый из которых предлагает уникальные вызовы. - **Track 1**: Многоклассовая 3D-многокамерная трекинг, включая людей, роботов и автотранспортную технику. Использовались сложные калибровочные данные и 3D-баундинговые коробки. - **Track 2**: Видео-вопрос-ответ для обеспечения транспортной безопасности, включая многокамерный анализ сцен, расширенный с помощью 3D-меток взгляда. - **Track 3**: Конечно-гранный рассуждения в динамичных складских средах, требующих интерпретации RGB-D данных и решения проблем, комбинирующих визуальную обработку, геометрию и естественный язык. - **Track 4**: Оптимизированное обнаружение предметов на дорогах с использованием камер с фишей, с учетом эффективности и реального времени для развертывания на ребрах. Каждый трек требует уникальных подходов, сочетающих различные исходные данные и алгоритмы для решения сложных реальных проблем. #### Результаты Проведение четвертого AI City Challenge привлекло 245 команд из 15 стран, что показало 17% рост участия по сравнению с прошлым годом. Были публикованы публичные датасеты, набравшие более 30,000 загрузок. Результаты были оценены с помощью частично закрытого тестового набора для обеспечения репродуцируемости и уменьшения вероятности переобучения. - **Track 1**: Лидеры достигли рекордных показателей в 3D-трекинге. - **Track 2**: Было достигнуто улучшение точности видео-вопрос-ответа в области транспортной безопасности. - **Track 3**: Новые алгоритмы позволили повысить точность в рассуждениях на основе 3D-данных в складских условиях. - **Track 4**: Новые подходы к обнаружению предметов на дорогах с фишевыми камерами позволили расширить мощность и реальное время работы. #### Значимость Результаты AICity Challenge имеют широкое применение в области транспорта, производства, общественной безопасности и интеллектуальной аналитики. Улучшенные технологии дополняют существующие системы, увеличивая их эффективность и ровный рост. Их влияние может распространиться на многие области
Annotation:
The ninth AI City Challenge continues to advance real-world applications of computer vision and AI in transportation, industrial automation, and public safety. The 2025 edition featured four tracks and saw a 17% increase in participation, with 245 teams from 15 countries registered on the evaluation server. Public release of challenge datasets led to over 30,000 downloads to date. Track 1 focused on multi-class 3D multi-camera tracking, involving people, humanoids, autonomous mobile robots, and ...
ID: 2508.13564v1 cs.CV, cs.AI, cs.LG, cs.RO
Показано 311 - 320 из 358 записей