📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 PB-IAD: Utilizing multimodal foundation models for semantic industrial anomaly detection in dynamic manufacturing environments

2025-08-22

Авторы:

Bernd Hofmann, Albert Scheck, Joerg Franke, Patrick Bruendl

## Контекст Индустриальный аномалийный детектирование (IAD) является важной задачей для обеспечения качества продукции и выявления отклонений в производственных процессах. Статистические и данно-научные подходы широко используются в этой области, однако они ограничены в их универсальности и гибкости в условиях сильно динамичных производственных сред. Особенностью таких условий является постоянное изменение условий производства, которые требуют гибкой адаптации системы детектирования аномалий. Недавние достижения в области базовых моделей (foundation models), включая их мультимодальность и рассуждающие возможности, открывают новые перспективы для решения этой задачи. Наша работа посвящена разработке PB-IAD (Prompt-based Industrial Anomaly Detection), рамфтора, который использует эти достижения для адаптации к задаче детектирования аномалий в производственных средах. ## Метод PB-IAD основывается на использовании мультимодальных базовых моделей (например, GPT-4.1) и разрабатываемой микроархитектуры для индустриальных задач. Характерная особенность фреймворка заключается в использовании специальных шаблонов для ввода пользователя, позволяющих динамически адаптироваться к изменяющимся условиям производства. Для этого мы включили в PB-IAD модуль предварительной обработки, который преобразует входные данные пользователя в эффективные системные команды. Такой подход значительно упрощает доступ к системе для технических специалистов без специальной подготовки в области машинного обучения. Кроме того, PB-IAD включает в себя алгоритмы для обработки данных с разными модальностями (например, видео и текстовые метки) и может эффективно работать в условиях дефицита данных. ## Результаты Мы проводили эксперименты с помощью GPT-4.1 на трех разных сценариях производства, используя две модальности данных. В частности, мы проверяли гибкость PB-IAD при малом количестве данных (low-shot) и в условиях нехватки данных. Также мы проводили абляционный анализ, чтобы оценить вклад семантических инструкций в процесс детектирования. Бенчмаркинг PB-IAD проводился в сравнении с современными методами, такими как PatchCore, и показал значительное превосходство, особенно в случаях нехватки данных и в ситуациях, требующих быстрой адаптации. ## Значимость PB-IAD может быть применен в различных производственных средах, включая те, где происходят частые изменения условий производства. Одним из главных преимуществ является его адаптивность к изменениям, не требуя больших объемов данных для обучения. Благодаря пользовательскому центричеству, PB-IAD может быть легко интегрирован в рабочие процессы без глу

Annotation:

The detection of anomalies in manufacturing processes is crucial to ensure product quality and identify process deviations. Statistical and data-driven approaches remain the standard in industrial anomaly detection, yet their adaptability and usability are constrained by the dependence on extensive annotated datasets and limited flexibility under dynamic production conditions. Recent advances in the perception capabilities of foundation models provide promising opportunities for their adaptation...

ID: 2508.14504v1 cs.CV, cs.AI

arXiv PDF

📄 UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling

2025-08-22

Авторы:

Peiming Li, Ziyi Wang, Yulin Yuan, Hong Liu, Xiangming Meng, Junsong Yuan, Mengyuan Liu

## Контекст Point cloud videos представляют собой систему точек, изображающих динамические третье измерение в пространстве. Они эффективны в распознавании тонких и непрерывных движений человека, так как уменьшают зависимость от света и угла просмотра. Однако, их неупорядоченность в пространственно-временной области создает трудности при использовании стандартных стейт-спейс-моделей (SSMs), которые обычно работают с упорядоченными данными. Это ограничение снижает эффективность моделей при работе с point cloud videos. Мотивация заключается в создании модели, которая может эффективно обрабатывать неупорядоченные данные, чтобы повысить точность распознавания движений в потоке точек в видео. ## Метод Мы предлагаем UST-SSM (Unified Spatio-Temporal State Space Model), расширяющую новейшие достижения в области SSMs для работы с point cloud videos. Методология включает в себя: 1. **Spatial-Temporal Selection Scanning (STSS):** Метод, который добавляет в поток точек семантическую организацию, используя подсказки (prompts) для кластеризации точек в логические последовательности. Таким образом, модель может учитывать смежные точки, даже если они находятся в разных частях пространства или времени. 2. **Spatio-Temporal Structure Aggregation (STSA):** Меchanism, который агрегирует пространственно-временные признаки, компенсируя терянные детали в 4D моделировании. 3. **Temporal Interaction Sampling (TIS):** Метод, улучшающий взаимодействие между точками в потоке через увеличение поля восприятия (receptive field) и внедрение неанормальных кадров (non-anchor frames). ## Результаты Мы проверили эффективность UST-SSM на MSR-Action3D, NTU RGB+D и Synthia 4D датасетах. Эксперименты показали, что наша модель превосходит существующие модели в точности распознавания движений, особенно в сложных сценах. Эти результаты подтверждают пользу STSS и STSA в решении проблем с неупорядоченностью и недостаточными деталями в point cloud videos. ## Значимость Модель UST-SSM может применяться в различных прикладных областях, таких как робототехника, анализ поведения, автомобильная техника и видеонаблюдение. Ее основные преимущества заключаются в улучшенной точности распознавания движений, эффективном использовании данных и поддержке неупорядоченных точечных потоков. Улучшенная модель может повлиять на развитие систем, применяющих распознавание движений в реальном времени. ## Выводы Мы предложили UST-SSM, новый подход к моделированию point cloud videos, решающий проблему неупорядоченности и недостатка деталей. Наши результаты показывают, что UST-SSM превосходит текущие модели. Наш код доступен по ссылке: https://github.com/wangzy01/UST-SSM. Будущие исследования будут фокусироваться на улучшении модели для задач, требующи

Annotation:

Point cloud videos capture dynamic 3D motion while reducing the effects of lighting and viewpoint variations, making them highly effective for recognizing subtle and continuous human actions. Although Selective State Space Models (SSMs) have shown good performance in sequence modeling with linear complexity, the spatio-temporal disorder of point cloud videos hinders their unidirectional modeling when directly unfolding the point cloud video into a 1D sequence through temporally sequential scanni...

ID: 2508.14604v1 cs.CV, cs.AI

arXiv PDF

📄 DINOv3 with Test-Time Training for Medical Image Registration

2025-08-22

Авторы:

Shansong Wang, Mojtaba Safari, Mingzhe Hu, Qiang Li, Chih-Wei Chang, Richard LJ Qiu, Xiaofeng Yang

#### Контекст Медицинская обработка изображений широко используется в наборе процедур врачебных диагностики и лечения. Одним из ключевых аспектов этой области является медицинская регистрация изображений, которая призвана выравнивать два или более изображений, полученных в разных моментах времени или у разных приборов. Несмотря на многочисленные достижения, существуют значительные проблемы, связанные с необходимостью в больших объемах данных для обучения моделей, ограничивающих клиническое применение. Существующие алгоритмы часто требуют трудоемкого создания обучающих выборок, что затрудняет их применение в реальных клинических условиях. #### Метод Мы предлагаем инновационный подход, основанный на архитектуре DINOv3, с использованием ее замороженного представителя, а также на методе test-time optimization. Основной идеей является использование заранее обученного кодировщика для извлечения нейронных фичей и оптимизации деформационного поля в пространстве этих фичей. Это позволяет избежать необходимости наличия большого количества данных во время обучения. Метод работает путем адаптации деформационных полей напрямую в пространстве этих нейронных фичей, что позволяет обеспечить точность и регулярность регистрации. #### Результаты Мы провели эксперименты на двух репрезентативных наборах данных: Abdomen MR-CT и ACDC cardiac MRI. На Abdomen MR-CT, наш подход показал самый высокий Dice Similarity Coefficient (DSC) — 0.790, самый низкий 95-й процентиль Hausdorff Distance (HD95) — 4.9 ± 5.0 и низкую стандартную девиацию Log-Jacobian (SDLogJ) — 0.08 ± 0.02. На ACDC cardiac MRI, полученные результаты также привели к улучшению в DSC до 0.769, а также к снижению SDLogJ до 0.11 и HD95 до 4.8. Эти результаты указывают на то, что наш подход не только эффективен, но и устойчив в разных клинических сценариях. #### Значимость Предлагаемый подход имеет широкие клинические применения, в том числе в области лечения рака, в том числе заболеваний печени и молочной железы, а также в онкологии. Он предлагает практическое и широко применимое решение для регистрации изображений медицинских данных без необходимости дополнительного обучения модели. Это упрощает внедрение в клиническую практику и снижает трудозатраты. Кроме того, наш метод имеет потенциал для улучшения точности и регулярности регистрации в медицинских исследованиях и практических задачах. #### Выводы Мы доказали эффективность DINOv3 с test-time training в медицинской регистрации изображений. Наши результаты показали, что этот подход не только эффективен, но и универсален. Будущие исследования будут сфокусированы на расширении этого подхода к другим медицинским за

Annotation:

Prior medical image registration approaches, particularly learning-based methods, often require large amounts of training data, which constrains clinical adoption. To overcome this limitation, we propose a training-free pipeline that relies on a frozen DINOv3 encoder and test-time optimization of the deformation field in feature space. Across two representative benchmarks, the method is accurate and yields regular deformations. On Abdomen MR-CT, it attained the best mean Dice score (DSC) of 0.79...

ID: 2508.14809v1 cs.CV, cs.AI

arXiv PDF

📄 TransLight: Image-Guided Customized Lighting Control with Generative Decoupling

2025-08-22

Авторы:

Zongming Li, Lianghui Zhu, Haocheng Shen, Longjin Ran, Wenyu Liu, Xinggang Wang

Детальное резюме научной статьи "TransLight: Image-Guided Customized Lighting Control with Generative Decoupling" ## Контекст Интерес к области исследования возникает из большого потенциала технологий, которые позволяют создавать и редактировать технические сценарии с особыми требованиями к стилизации освещения. Однако существующие подходы сталкиваются с проблемами, такими как нехватка точности в контроле света и потеря гранулярности содержания изображения. Эти ограничения сделали им ненадёжными для решения реальных задач, в частности, переноса сложных штрихов освещения с одного изображения на другое. Наша мотивация заключается в том, чтобы развить новый подход, который не только предоставлял бы возможность редактировать освещение, но и сохранял бы при этом гармонию и точность в содержании. ## Метод Мы предлагаем TransLight, новую систему, которая обеспечивает высококачественную и гибкую редактирование освещения. Главным этапом метода является **Generative Decoupling**, технология, основанная на двух генерирующих моделях диффузии, которые интеллектуально отделяют содержание изображения от света. Это позволило создать миллионный набор данных с изображениями, их содержанием и светами. Далее, мы используем IC-Light, генерирующую модель, и обучаем её нашим данным, включая дополнительный сигнал управления с помощью референсного света. Этот подход обеспечивает фине-гранулированный контроль над яркостью, направлением и другими свойствами любого света, передаваемого из исходной картинки на целевую. ## Результаты Мы провёлмы ряд экспериментов на различных данных, включая реальные и синтетические изображения. Наши эксперименты показали, что TransLight способен переносить сложные штрихи освещения с гораздо большей точностью и гибкостью, чем существующие алгоритмы. Мы также проверили нашу модель на вариациях задач, от простых сцен до сложных сцен со специфическими требованиями, и показали, что она успешно переносит любые штрихи света с потрясающей точностью. ## Значимость Приложения TransLight распространяются на различные области, включая визуальные эффекты в кино, архитектурный дизайн, интерьерную стилизацию и даже реалистичную игровую среду. Одним из главных преимуществ является высокая точность контроля и гибкость в редактировании. Это делает нашу систему крайне полезной для профессионалов, которым требуется строить реалистичные освещенные сцены. Будущие исследования могут направляться на улучшение качества диффузии, увеличение масштаба обучающих данных и расширение возможностей переноса освещения на другие медиа. ## Выводы М

Annotation:

Most existing illumination-editing approaches fail to simultaneously provide customized control of light effects and preserve content integrity. This makes them less effective for practical lighting stylization requirements, especially in the challenging task of transferring complex light effects from a reference image to a user-specified target image. To address this problem, we propose TransLight, a novel framework that enables high-fidelity and high-freedom transfer of light effects. Extracti...

ID: 2508.14814v1 cs.CV, cs.AI

arXiv PDF

📄 AIM 2025 Rip Current Segmentation (RipSeg) Challenge Report

2025-08-21

Авторы:

Andrei Dumitriu, Florin Miron, Florin Tatui, Radu Tudor Ionescu, Radu Timofte, Aakash Ralhan, Florin-Alexandru Vasluianu, Shenyang Qian, Mitchell Harley, Imran Razzak, Yang Song, Pu Luo, Yumei Li, Cong Xu, Jinming Chai, Kexin Zhang, Licheng Jiao, Lingling Li, Siqi Yu, Chao Zhang, Kehuan Song, Fang Liu, Puhua Chen, Xu Liu, Jin Hu, Jinyang Xu, Biao Liu

#### Контекст Потоки рип, или рип-куренты, представляют собой опасные, быстро перемещающиеся водные потоки на берегу, которые могут быстро перенести плавающих людей в глубину моря. Эти явления являются одной из основных причин гибели плавателей, особенно в частных бичевых зонах, где отсутствуют привлекательные меры безопасности. Автоматическая детекция рип-курентов в изображениях является необходимой задачей для создания эффективных систем слежения за берегами, которые могут помочь предупредить опасность и сократить число жертв. Однако сегодня эта задача остается недостаточно изученной, что делает ее интересной для исследователей. #### Метод Чтобы расширить знания о рип-курентах, была создана база данных RipVIS, которая включает более 32,000 изображений, полученных в разных местах, при разных условиях и видах рип-курентов. Первая редакция RipSeg Challenge была запущена в рамках AIM 2025, призывая участников создавать методы для высокоточной сегментации рип-курентов на единичных классах. Участники сталкивались с разными условиями освещения, ракурсами камер и видами рип-курентов. Задача включала поиск и полное определение рип-курентов, которые могут быть широкими или узкими, иметь разные ритмы и темпы. Использовались не только визуальные признаки, но и дополнительные знания для повышения точности. #### Результаты Приняли участие $75$ команд, но только $5$ команды удалось получить достаточно высокий рейтинг. Участники применили глубокое обучение, доменное адаптирование, предварительно обученные модели и стратегии общей обработки данных. Для оценки результатов использовалось составное меры $F_1$, $F_2$, $AP_{50}$ и $AP_{[50:95]}$. Лучшие результаты были достигнуты теми командами, которые использовали обширные сети, которые могли оптимально адаптироваться к разным условиям. #### Значимость Результаты RipSeg Challenge могут быть применены в системах мониторинга берегов, чтобы создавать более точные системы предупреждения и снижения риска для плавателей. Эта работа также открывает новые возможности для исследования других видов рисков на берегу, таких как опасные очертания моря. Основные преимущества новых методов заключаются в том, что они могут быть применены в разных условиях, включая разные местоположения и различные виды рип-курентов, что делает их более универсальными и эффективными. #### Выводы RipSeg Challenge достигла значительных успехов в повышении точности автоматической сегментации рип-курентов. Однако некоторые проблемы все еще требуют дополнительного изучения, в том числе улучшение точности в сложных условиях и расширение данных

Annotation:

This report presents an overview of the AIM 2025 RipSeg Challenge, a competition designed to advance techniques for automatic rip current segmentation in still images. Rip currents are dangerous, fast-moving flows that pose a major risk to beach safety worldwide, making accurate visual detection an important and underexplored research task. The challenge builds on RipVIS, the largest available rip current dataset, and focuses on single-class instance segmentation, where precise delineation is cr...

ID: 2508.13401v1 cs.CV, cs.AI, I.4.0; I.4.9

arXiv PDF

📄 MIRAGE: Towards AI-Generated Image Detection in the Wild

2025-08-21

Авторы:

Cheng Xia, Manxi Lin, Jiexiang Tan, Xiaoxiong Du, Yang Qiu, Junjun Zheng, Xiangheng Kong, Yuning Jiang, Bo Zheng

## Контекст Образование и распространение искусственных изображений, созданных с использованием генерирующей искусственный интеллектом (Generative AI), представляют собой серьезную угрозу для информационной безопасности и общественного доверия. Несмотря на то, что существующие методы обнаружения таких изображений (AIGI) демонстрируют высокую точность в условиях управляемых экспериментов, они часто не справляются с реальными сценариями использования, где изображения могут быть шумные, многообразны по источникам и подвергнуты дополнительной редактированию. Целью данного исследования является разработка эффективного метода обнаружения AIGI в "диких", реальных условиях. ## Метод Мы предлагаем **MIRAGE**, новый сложный бенчмарк, который эмулирует реальные условия использования AIGI. Он состоит из двух источников данных: (1) большой корпус АИГИ, проверенный экспертами, полученный из Интернета; и (2) синтетический набор данных, созданный специально для эмуляции реальных АИГИ, с помощью взаимодействия нескольких экспертных генераторов. Для обнаружения таких изображений мы предлагаем **Mirage-R1**, новую систему, основанную на модели зрения и языка с механизмом разума, которая включает в себя стадию работы с традиционными логиками (heirarchical reasoning) и стадию зернального разума (reflective reasoning). Мы также внедрили стратегию адаптивного мышления во время вывода, чтобы достичь баланса между скоростью и точностью. ## Результаты Мы проводили значительные эксперименты для оценки эффективности нашей модели. Выборка данных для тестирования включала как синтетические, так и реальные АИГИ. Наша модель демонстрирует значительное улучшение во время вывода по сравнению с другими существующими системами. На Mirage-benchmark, наша модель показывает **5%** выигрыш в точности по сравнению с лучшими существующими решениями, а в глобальном сравнении, на широко используемом публичном бенчмарке, наша модель показала **10%** выигрыш. ## Значимость Решение, предлагаемое в нашей работе, может быть применено в различных областях, включая мониторинг массовых средств массовой информации, защиту от мошенничества в сети, а также в области исследований, связанных с глубоким пониманием визуальных данных. Наш метод позволяет обеспечить более точное и универсальное обнаружение АИГИ, что усиливает безопасность и доверие в информационных системах. ## Выводы Мы представили **MIRAGE**, новую систему для обнаружения АИГИ в реальных условиях. Наша модель Mirage-R1 достигла значительных улучшений в точности и скорости работы

Annotation:

The spreading of AI-generated images (AIGI), driven by advances in generative AI, poses a significant threat to information security and public trust. Existing AIGI detectors, while effective against images in clean laboratory settings, fail to generalize to in-the-wild scenarios. These real-world images are noisy, varying from ``obviously fake" images to realistic ones derived from multiple generative models and further edited for quality control. We address in-the-wild AIGI detection in this p...

ID: 2508.13223v1 cs.CV, cs.AI

arXiv PDF

📄 GaitCrafter: Diffusion Model for Biometric Preserving Gait Synthesis

2025-08-21

Авторы:

Sirshapan Mitra, Yogesh S. Rawat

## Контекст В области биометрического распознавания, гейт-распознавание (gait recognition) является важной задачей, позволяющей идентифицировать физические лица по уникальным паттернам шагов при наблюдении издалека. Однако, эта область сталкивается с несколькими проблемами, включая недостаточное количество больших лабеленных датасетов и сложность коллекции разнообразных гейт-сэмплов каждого идентифицируемого лица, при этом соблюдая конфиденциальность данных. Эти ограничения приводят к необходимости развития новых подходов для эффективного и приватного генерирования имитационных гейт-потоков. ## Метод GaitCrafter представляет собой развитие diffusion-based фреймворка, специально разработанное для синтеза живых гейт-потоков в силуческой области. Оно обучается с нуля на данных гейт-сэмплов, не зависящих от симуляционных сред или альтернативных моделей генерации. Модель GaitCrafter позволяет управлять процессом генерации, включая условия, такие как вид одежды, предметы, несущиеся в руках, и углы обзора. Кроме того, модель генерирует новые идентичности (synthetic identities), которые лежат за пределами исходного датасета, но в то же время обладают консистентными и уникальными паттернами движения, так что могут использоваться для расширения обучающих данных без угрозы конфиденциальности реальных лиц. ## Результаты Через эксперименты, проведенные на различных гейт-датасетах, показано, что GaitCrafter демонстрирует высокую точность в регулярных и сложных условиях распознавания гейт-потоков. Эксперименты показали, что внедрение генерируемых синтетических сэмплов GaitCrafter в решения распознавания гейт позволяет существенно повысить точность распознавания, особенно в условиях с высоким шумом или недостатком данных. Было также показано, что синтетические идентичности, сгенерированные с помощью GaitCrafter, обладают уникальными паттернами шагов, которые могут быть использованы для развития безопасного и эффективного моделирования без нарушения конфиденциальности исходных данных. ## Значимость Помимо применения в биометрии, GaitCrafter может быть применим в таких областях, как симуляция движений, анализ поведения, генерирование видео сцен, и даже в технологиях для оценки здоровья. Важно, что этот подход обеспечивает контроль над поведением синтетических сюжетов, что дает возможность повысить качество и реалистичность гейт-синтеза. Также GaitCrafter может способствовать улучшению методов обучения без причинения вреда конфиденциальности и идентичности реальных лиц, что представляет собой важный прогресс в развитии приватной биометрии. ## Выводы GaitCrafter представля

Annotation:

Gait recognition is a valuable biometric task that enables the identification of individuals from a distance based on their walking patterns. However, it remains limited by the lack of large-scale labeled datasets and the difficulty of collecting diverse gait samples for each individual while preserving privacy. To address these challenges, we propose GaitCrafter, a diffusion-based framework for synthesizing realistic gait sequences in the silhouette domain. Unlike prior works that rely on simul...

ID: 2508.13300v1 cs.CV, cs.AI

arXiv PDF

📄 Mitigating Easy Option Bias in Multiple-Choice Question Answering

2025-08-21

Авторы:

Hao Zhang, Chen Li, Basura Fernando

## Контекст Основной фокус исследования --- изучение проблемы **Easy Option Bias (EOB)** в множественном выборе визуальных вопросов-ответов (VQA). Этот биас затрагивает такие бенчмарки, как MMStar, RealWorldQA, SEED-Bench, Next-QA и STAR benchmark. Такой эффект возникает из-за того, что модели визуально-языковых моделей (VLMs) могут корректно отвечать на вопросы, используя только визуальную информацию (V) и возможные ответы (O), становится необязательным учитывать вопрос (Q). Эта проблема связана с неравномерным весом визуальных признаков: корректный ответ часто более визуально релевантен, чем неверные варианты, что служит моделям готовым "шорткатом" для выбора решения. Исследование подходит к данной проблеме как необходимость создания более сбалансированных условий для эффективного оценивания моделей VQA. ## Метод Методология исследования основывается на разработке и применении инструмента **GroundAttack**, который автоматически генерирует **hard negative options**, которые визуально аналогичны корректным ответам. Это позволяет создавать более сбалансированные наборы данных, снижая EOB в бенчмарках. Использованы данные из области VQA, включая NExT-QA и MMStar. Метод строится на автоматизированном поиске неверных ответов, которые оказываются визуально релевантными, но не соответствуют логике вопроса. Это позволяет структурировать новые данные, на которых VLMs будут оцениваться на более высоком уровне. ## Результаты Применение GroundAttack привело к созданию EOB-free версий данных для NExT-QA и MMStar. Эксперименты показали, что при использовании только визуальных и возможных ответов (V+O), съемки моделей VLMs становится сопоставимой с случайным угадыванием. При добавлении вопроса (V+Q+O) результаты улучшаются, но не достигают явного спада, что свидетельствует о необходимости более сбалансированных тестовых наборов. Удаленный EOB позволил оценить VLMs с более реалистичными условиями, выявив слабые места и направляя направления дальнейших исследований. ## Значимость Результаты исследования имеют важное значение для повышения качества тестирования моделей VQA. Устранение EOB позволяет создавать более сбалансированные данные, что приводит к более реалистичным оценкам моделей QA. Это имеет потенциал для: - Улучшения QA моделей, учитывающих визуальные признаки и логику вопроса. - Разработки более устойчивых к биазу моделей для применения в реальном мире, где бизнес-задачи часто требуют решения с более высоким уровнем целостности. - Включение новых направлений в исследованиях, связанных с созданием более честных тестов для VLMs. ## Выводы В результате работы была выявлена и мощ

Annotation:

In this early study, we observe an Easy-Options Bias (EOB) issue in some multiple-choice Visual Question Answering (VQA) benchmarks such as MMStar, RealWorldQA, SEED-Bench, Next-QA, STAR benchmark and Video-MME. This bias allows vision-language models (VLMs) to select the correct answer using only the vision (V) and options (O) as inputs, without the need for the question (Q). Through grounding experiments, we attribute the bias to an imbalance in visual relevance: the correct answer typically a...

ID: 2508.13428v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference

2025-08-21

Авторы:

Yunxiang Yang, Ningning Xu, Jidong J. Yang

#### Контекст Интеллектуальные транспортные системы (ITS) и автономное вождение требуют эффективного понимания городских и автострадных сцен, а также точного выявления рисков в дорожном трафике. Однако существующие подходы часто сталкиваются с проблемами в области масштабируемости, гибкости и достоверности анализа в условиях сложной и динамичной среды. Эти ограничения приводят к недостаточной точности и неспособности работать в реальном времени. Многие существующие модели не могут обрабатывать видео с низким разрешением или генерировать подробные, контекстуально обоснованные оценки риска. Требуется разработка новых архитектур, которые бы способствовали улучшению точности и эффективности таких систем. #### Метод Мы предлагаем развитый подход, основанный на идее **Structured Prompting** и **Multi-Agent Knowledge Distillation**. Данная модель использует две большие Vision-Language Models (VLMs): GPT-4o и o3-mini. Используя **Chain-of-Thought (CoT)**, эти модели создают разноплановые и подробные выводы, которые в дальнейшем используются для подготовки знаний (pseudo-annotations). Эти аннотации используются для файн-тюнинга меньшего модели, оптимизированной под ресурсы. Результирующая модель, VISTA (Vision for Intelligent Scene and Traffic Analysis), получает мощные результаты в гибридной задаче видео-обработки и риск-инференции, несмотря на то, что имеет многократно меньшую параметрическую структуру. Это позволяет оптимизировать модель для работы на ресурс-ограниченных устройствах, таких как роутеры и смартфоны. #### Результаты В ходе экспериментов мы сравнивали нашу модель VISTA с другими моделями, используя стандартные метрики качества в области видео-описаний, такие как BLEU-4, METEOR, ROUGE-L и CIDEr. Наши результаты показали, что VISTA существенно превосходит своих тестовых моделей по этим метрикам, несмотря на значительное сокращение количества параметров. Мы также проводили эксперименты в среде реального трафика, где видео с низким разрешением были обработаны VISTA с помощью алгоритмов риск-инференции. Эти результаты показали, что VISTA удается генерировать достоверные оценки риска и сформировать контекстуально обоснованные описания трафика, даже при ограниченных возможностях вычислительных ресурсов. #### Значимость Наш подход имеет широкие возможности для применения в различных областях, включая ITS, автономное вождение и системы безопасности транспорта. Визуальный мониторинг трафика, построенный на VISTA, может быть использован для анализа транспортных проблем, оценки рисков и управления дорожной съемкой. Его мощность заключается в том, что он сочетает в себе высокую точность с низкими

Annotation:

Comprehensive highway scene understanding and robust traffic risk inference are vital for advancing Intelligent Transportation Systems (ITS) and autonomous driving. Traditional approaches often struggle with scalability and generalization, particularly under the complex and dynamic conditions of real-world environments. To address these challenges, we introduce a novel structured prompting and knowledge distillation framework that enables automatic generation of high-quality traffic scene annota...

ID: 2508.13439v1 cs.CV, cs.AI, cs.CL, eess.IV

arXiv PDF

📄 STER-VLM: Spatio-Temporal With Enhanced Reference Vision-Language Models

2025-08-21

Авторы:

Tinh-Anh Nguyen-Nhu, Triet Dao Hoang Minh, Dat To-Thanh, Phuc Le-Gia, Tuan Vo-Lan, Tien-Huy Nguyen

## Контекст В последние годы vision-language models (VLMs) стали широко применяться для автоматизации трафик-анализа, обеспечивая возможность выявления и анализа динамических процессов в сложных трафик-сценариях. Однако существующие модели обладают существенными ограничениями: высокие требования к вычислительным ресурсам и недостаточная точность в специфических спектральных и динамических аспектах трафик-сценариев. Эти проблемы препятствуют эффективному использованию VLMs в реальных ситуациях, в том числе для таких задач, как статистическое мониторинга, определение нарушений правил дорожного движения и системы безопасности. Мотивация для разработки STER-VLM заключается в развитии более эффективного, ресурсосберегающего фреймворка, который может значительно улучшить точность и качество трафик-анализа, обеспечивая тонкую спатио-темпоральную интерпретацию. ## Метод STER-VLM представляет собой инновационный подход к виденион-лангуадж моделям, который сочетает несколько ключевых техник для улучшения спатио-темпорального понимания. В частности, фреймворк предлагает (1) разбиение картинно-языковых запросов на составляющие спатиальные и темпоральные для более точного анализа, (2) оптимальный выбор кадров с помощью фильтрации «лучшего вида» (best-view filtering) для обеспечения эффективного сбора темпоральных данных, (3) ссылочно-драйвенный подход, который позволяет лучше понять динамический контекст и движение объектов, и (4) техники подбора визуальных и текстовых стимулов. Эти компоненты объединены в модульный фреймворк, позволяющий повысить точность и эффективность модели в анализе трафик-сценариев. ## Результаты Чтобы продемонстрировать эффективность STER-VLM, авторы провели эксперименты на двух известных датасетах — WTS и BDD. Модель была применена для различных задач, включая определение динамических сценариев, статистическое мониторинг трафика и выявление нарушений правил дорожного движения. Результаты показали, что STER-VLM превосходит существующие модели по метрикам качества восприятия трафик-сценариев. На датасете WTS, например, STER-VLM демонстрировал повышение значимости в 15% по сравнению с конкурентными моделями. Также, на AI City Challenge 2025 Track 2, STER-VLM получила значительную оценку — 55.655, подтвердив свою эффективность в задачах реального трафик-анализа. ## Значимость STER-VLM имеет широкое применение в области автоматизированной системы мониторинга трафика, в том числе для обнаружения нарушений, оптимизации дорожного движения и повышения безопасности. Её преимущества заключаются

Annotation:

Vision-language models (VLMs) have emerged as powerful tools for enabling automated traffic analysis; however, current approaches often demand substantial computational resources and struggle with fine-grained spatio-temporal understanding. This paper introduces STER-VLM, a computationally efficient framework that enhances VLM performance through (1) caption decomposition to tackle spatial and temporal information separately, (2) temporal frame selection with best-view filtering for sufficient t...

ID: 2508.13470v1 cs.CV, cs.AI

arXiv PDF

1
2
198
199
200
201
202
227
228

Показано 1991 - 2000 из 2274 записей