📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 LLM-RG: Referential Grounding in Outdoor Scenarios using Large Language Models

2025-10-02

Авторы:

Pranav Saxena, Avigyan Bhattacharya, Ji Zhang, Wenshan Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Referential grounding in outdoor driving scenes is challenging due to large scene variability, many visually similar objects, and dynamic elements that complicate resolving natural-language references (e.g., "the black car on the right"). We propose LLM-RG, a hybrid pipeline that combines off-the-shelf vision-language models for fine-grained attribute extraction with large language models for symbolic reasoning. LLM-RG processes an image and a free-form referring expression by using an LLM to ex...

ID: 2509.25528v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving

2025-09-24

Авторы:

Haiming Zhang, Yiyao Zhu, Wending Zhou, Xu Yan, Yingjie Cai, Bingbing Liu, Shuguang Cui, Zhen Li

#### Контекст В последние годы наблюдается всестороннее развитие систем автоматизированного вождения, но одним из ключевых вызовов в этой области является эффективное использование перспективных моделей для перспективного видения (SPMs). Традиционные модели по умолчанию используют тяжелые слои и операции, что приводит к неэффективности в вычислениях и затруднению предсказания в реальном времени. Кроме того, возникают проблемы с памятью, особенно при обработке больших объемов данных. Чтобы улучшить эти модели, необходимо акцентировать внимание на создании новых методов, которые бы значительно сократили затраты ресурсов при сохранении высокой точности предсказаний. Одним из таких методов является инновационный подход, призванный расширить возможности SPMs, особенно в сфере автономного вождения. #### Метод Мы предлагаем SQS (Sparse Query-based Splatting), метод, который вводит новую методологию для предварительного обучения моделей с запросами. SQS основывается на технологии сплетения (splatting), которая позволяет проводить предварительное обучение с использованием запросов для построения тонкой контекстной структуры. Мы используем самостоятельное саперство (self-supervised learning) для реконструкции многовидовых изображений и глубинных карт, используя 3D-гауссовые представления, выводимые из запросов. Это способствует улучшению точности предсказаний и эффективности моделей. В ходе оптимизации мы интегрируем предварительно обученные запросы в существующие модели, чтобы достичь более сильной связи между предварительным и основным обучением. #### Результаты Мы проверили эффективность нашего подхода на основе нескольких бенчмарковых данных по автономному вождению. Мы обнаружили, что модели, обученные с помощью SQS, показали значительные улучшения в предсказании занятости (iIoU) и 3D-обнаружении (NDS) по сравнению с исходными SPMs. Мы сравнили наши результаты с другими технологиями предварительного обучения SPMs и получили выигрыш в маргине +1.3 mIoU в задаче предсказания занятости и +1.0 NDS в задаче 3D-обнаружения. Это показывает, что SQS может эффективно улучшить работу моделей в автономном вождении. #### Значимость Предложенный подход имеет широкий спектр приложений в различных областях, но особенно важен для систем автономного вождения. SQS позволяет повысить точность и эффективность моделей, что улучшает возможности систем для быстрого и точного обнаружения объектов вокруг автомобиля. Это может привести к более безопасным и эффективным системам автоматизированного управления. Мы также планируем расширить применение нашего метода на другие задачи, такие как

Annotation:

Sparse Perception Models (SPMs) adopt a query-driven paradigm that forgoes explicit dense BEV or volumetric construction, enabling highly efficient computation and accelerated inference. In this paper, we introduce SQS, a novel query-based splatting pre-training specifically designed to advance SPMs in autonomous driving. SQS introduces a plug-in module that predicts 3D Gaussian representations from sparse queries during pre-training, leveraging self-supervised splatting to learn fine-grained co...

ID: 2509.16588v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Text-Scene: A Scene-to-Language Parsing Framework for 3D Scene Understanding

2025-09-24

Авторы:

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang

## Контекст В последние годы в области искусственного интеллекта растет интерес к пониманию трехмерных сцен (3D scene understanding), которое является ключевым для развития эмбедидных систем искусственного интеллекта. Требуется не только распознавать объекты, но и понимать их свойства, отношения и взаимодействия в пространстве. Однако существующие методы, ориентированные на 2D изображения, сталкиваются с трудностями при переходе к 3D-сценам, из-за более сложной структуры данных и отсутствия больших 3D-датасетов для обучения. Это приводит к ограниченности моделей в понимании сложных пространственных структур и аффордансов. Целью данного исследования является развитие рам framworkа, который автоматически парсит 3D-сцены в текстовые описания, чтобы обеспечить общий подход к пониманию трехмерного пространства через естественный язык. ## Метод Текст-Scene (Text-Scene) — это фреймворк, который автоматически парсит 3D-сцены в текстовые описания. Он включает два основных этапа. В первом этапе используется геометрический анализ для выявления объектов и их атрибутов, а также для выявления пространственных отношений между ними. Во втором этапе используется Multimodal Large Language Model (MLLM) для генерации четкого и понятного текста, охватывающего объекты, их характеристики и пространственные связи. Фреймворк использует как геометрические данные 3D-сцен, так и языковые модели для создания полных и четких описаний. Эта структура позволяет связать трехмерную сцену с её языковым представлением, не требуя участия человека в процессе. ## Результаты Для оценки эффективности Text-Scene проведены эксперименты на нескольких 3D-бенчмарках. Модель производит текстовые описания, которые включают объектные атрибуты, свойства, отношения и другие характеристики. Эти описания показали высокую точность и полноту при сравнении с другими подходами. Также была проведена оценка возможности применения полученных описаний в задачах планирования (датасет InPlan3D), где Text-Scene показала свою способность помочь моделям MLLM в решении задач, связанных с трехмерным пространством. ## Значимость Текст-Scene предлагает новый подход к 3D scene understanding, который может быть применен в различных областях, таких как виртуальная и реальность, автоматизация производств, интерактивные системы и другие ситуации, где необходимо понимание пространства. Основное преимущество этого фреймворка заключается в том, что он может автоматически сгенерировать понятные описания 3D-сцен, что позволяет улучшить взаимодействие систем с трехмерными средами. Развитие таких технологий может иметь значите

Annotation:

Enabling agents to understand and interact with complex 3D scenes is a fundamental challenge for embodied artificial intelligence systems. While Multimodal Large Language Models (MLLMs) have achieved significant progress in 2D image understanding, extending such capabilities to 3D scenes remains difficult: 1) 3D environment involves richer concepts such as spatial relationships, affordances, physics, layout, and so on, 2) the absence of large-scale 3D vision-language datasets has posed a signifi...

ID: 2509.16721v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 VideoArtGS: Building Digital Twins of Articulated Objects from Monocular Video

2025-09-24

Авторы:

Yu Liu, Baoxiong Jia, Ruijie Lu, Chuyue Gan, Huayu Chen, Junfeng Ni, Song-Chun Zhu, Siyuan Huang

## Контекст Создание цифровых двойников для обобщенных объектов, особенно тех, что имеют сложную структуру и могут двигаться (например, люди, животные или механизмы), представляет одну из самых сложных задач в области компьютерного зрения. Эти объекты обычно состоят из нескольких частей, которые могут двигаться взаимодействуя друг с другом, и их моделирование требует учета ограниченного количества входных данных, таких как монокулярное видео. Цифровые двойники не только позволяют визуально представлять эти объекты, но и позволяют анализировать их поведение в различных условиях. Тем не менее, возникают сложности при построении таких моделей из односторонних видео, так как необходимо эффективно разделить геометрию объекта, его динамику и детализацию частей, что создает определенные ограничения в работе. ## Метод Мы предлагаем VideoArtGS, новую методику для построения цифровых двойников сложных объектов, основанную на монокулярном видео. Метод включает в себя несколько ключевых компонентов. Во-первых, мы используем предварительно обученные модели морфологического анализа, чтобы получить начальные оценки положения и движения частей. Затем, мы применяем сложную архитектуру, которая соединяет модель морфологического анализа с нейронными сетями для расчета динамической модели, содержащей все части объекта. Это позволяет учесть не только геометрию, но и динамику движения. Наконец, мы применяем специальный метод, который позволяет стабилизировать и очистить данные, чтобы избежать неточностей. ## Результаты Мы провели подробные эксперименты, используя различные модели и данные для сравнения. Наши результаты показывают, что VideoArtGS демонстрирует значительное превосходство по сравнению с другими методами в области построения цифровых двойников. Мы измеряли ошибки в построении геометрии и динамики, и видим, что VideoArtGS сокращает эти ошибки приблизительно в два раза по сравнению с предшествующими подходами. Также мы проверили нашу модель на различных типах движущихся объектов, включая людей, животных и механизмы, и продемонстрировали, что она работает эффективно в разных условиях. ## Значимость Наша работа имеет многочисленные применения в области виртуальной реальности, анимации, моделирования и анализа движения. Например, она может использоваться в компьютерных играх для создания реалистичных моделей персонажей, в разработке интерактивных приложений для учебных целей или в области тренировочных программ для спорта. Благодаря точности и универсальности VideoArtGS, мы устанавливаем новый стандарт для построения цифровых двойников сложных об

Annotation:

Building digital twins of articulated objects from monocular video presents an essential challenge in computer vision, which requires simultaneous reconstruction of object geometry, part segmentation, and articulation parameters from limited viewpoint inputs. Monocular video offers an attractive input format due to its simplicity and scalability; however, it's challenging to disentangle the object geometry and part dynamics with visual supervision alone, as the joint movement of the camera and p...

ID: 2509.17647v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Towards Sharper Object Boundaries in Self-Supervised Depth Estimation

2025-09-23

Авторы:

Aurélien Cecille, Stefan Duffner, Franck Davoine, Rémi Agier, Thibault Neveu

```markdown ## Контекст Область трёхмерного понимания сцены широко применяется в сферах, таких как видеонаблюдение, дистанционное замера, автомобильная индустрия и виртуальная реальность. Одна из ключевых задач в этой области — моноокулярное оценивание глубины. Эта задача возникает, когда необходимо из одной изображения определить глубину каждого пикселя, что позволяет построить трёхмерную модель среды. Тем не менее, одной из сложностей в моноокулярном оценивании глубины является то, что существующие методы часто производят размытые размежевые границы между объектами, что приводит к неточностям в трёхмерной модели. Эти размытые границы возникают из-за нехватки точной супервайзированной информации в самоучительных подходах. Наша мотивация заключается в том, чтобы разработать метод, который бы способствовал более точному определению границ объектов в моноокулярном оценивании глубины, при этом используя только самоучительные подходы. ## Метод Мы предлагаем новую модель, которая трактует каждый пиксель как смесь нескольких возможных глубин. Это позволяет передать неопределенность от непосредственного регрессирования глубины к весам смеси. Мы используем парную архитектуру с нейросетью, которая выводит не только оценки глубины, но и распределения вероятности для каждого пикселя. Наша архитектура включает в себя несколько ключевых модулей: 1. **Перспективное преобразование изображений** — для получения разных перспектив на одну и ту же сцену. 2. **Самоучительная нейросеть** — для вывода распределений вероятности для каждого пикселя. 3. **Вариация-осознанная функция потерь** — для включения неопределенности в процесс обучения. Этот подход позволяет нашей модели достигать точность в определении границ, которая не достигалась ранее в самоучительных подходах. ## Результаты Мы провели эксперименты на двух наборах данных: KITTI и VKITTIv2. Наша модель показала существенный выигрыш в точности определения границ объектов по сравнению с состоянием технологии. Мы измерили **"шарпнесс" границ** (boundary sharpness), которая измеряет степень размытости размежевых границ, и получили до 35% улучшения по этому показателю. Также, мы провели оценку качества точности построенного трёхмерного моделирования (point cloud quality). Наши результаты показали улучшение в 25% по сравнению с основным подходом. Эти результаты указывают на то, что наш подход не только способствует точности границ, но и улучшает общую точность моделирования сцены в трёхмерной плоскости. ## Значимость Предлагаемый под

Annotation:

Accurate monocular depth estimation is crucial for 3D scene understanding, but existing methods often blur depth at object boundaries, introducing spurious intermediate 3D points. While achieving sharp edges usually requires very fine-grained supervision, our method produces crisp depth discontinuities using only self-supervision. Specifically, we model per-pixel depth as a mixture distribution, capturing multiple plausible depths and shifting uncertainty from direct regression to the mixture we...

ID: 2509.15987v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 RoboEye: Enhancing 2D Robotic Object Identification with Selective 3D Geometric Keypoint Matching

2025-09-20

Авторы:

Xingwu Zhang, Guanxuan Li, Zhuocheng Zhang, Zijun Long

## Контекст В последние годы, прогресс в области электронной коммерции привел к появлению большого количества товаров и вариантов упаковки, что сильно усложнило процесс автоматизированной упаковки в складах. Это связано с необходимостью распознавать визуально схожие или редкие товары, а также с увеличением частоты изменения точек зрения, катастрофическим влиянием окклюзий и сложностью распознавания в условиях большого разнообразия упаковок. Традиционные подходы, ориентированные только на 2D-изображения, часто сталкиваются с коллизиями и неточностями, что приводит к значительной потере точности. Данная проблема требует развития новых подходов, которые бы улучшили точность распознавания в условиях высокой разнообразия и сложности. ## Метод Разработанный RoboEye предлагает двухэтапный подход, который объединяет 2D-и 3D-признаки для улучшения точности распознавания. В первом этапе, используется большой объем 2D-данных, извлекаемый с помощью широкого модели, для генерирования кандидатских рейтингов. Далее, легковесный модуль осознания 3D-признаков оценивает качество 3D-данных и определяет, необходимо ли использовать второй этап. Если да, то второй этап включает трансформер Robot 3D Retrieval, который анализирует 3D-геометрические признаки с помощью динамического матчинга ключевых точек. Ключевая особенность этого подхода заключается в использовании RGB-изображений без явного ввода 3D-данных, что позволяет уменьшить накладные расходы на развертывание и увеличить скорость. ## Результаты Проведенные эксперименты показали, что RoboEye превосходит предыдущий состояние искусства RoboLLM на 7.1% в Recall@1. Этот результат был достигнут благодаря эффективному использованию 3D-признаков, которые позволили улучшить достоверность распознавания в сложных условиях. Благодаря легковесной архитектуре, RoboEye работает с ограниченными 3D-данными, что сокращает издержки на развертывание. Также, эксперименты подтвердили высокую скорость и точность работы в условиях различных сценариев упаковки и разных точек зрения. ## Значимость RoboEye может быть применен в сферах автоматизированной упаковки, систем распознавания для электронной коммерции и интеллектуальных складов. Его преимущество в том, что он улучшает точность и скорость распознавания, используя только 2D-данные, что снижает требования к вычислительным ресурсам и упрощает развертывание. Это может привести к значительной экономии затрат и улучшению производительности в складских условиях. ## Выводы Результаты показывают

Annotation:

The rapidly growing number of product categories in large-scale e-commerce makes accurate object identification for automated packing in warehouses substantially more difficult. As the catalog grows, intra-class variability and a long tail of rare or visually similar items increase, and when combined with diverse packaging, cluttered containers, frequent occlusion, and large viewpoint changes-these factors amplify discrepancies between query and reference images, causing sharp performance drops ...

ID: 2509.14966v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Beyond Frame-wise Tracking: A Trajectory-based Paradigm for Efficient Point Cloud Tracking

2025-09-17

Авторы:

BaiChen Fan, Sifan Zhou, Jian Li, Shibo Zhao, Muqing Cao, Qin Wang

## Контекст Одна из ключевых задач в системах робототехники и автономного управления является LiDAR-based 3D single object tracking (3D SOT). Это помогает определять, следить и предсказывать движение объектов вокруг автомобиля. Существующие методы могут быть разделены на два типа: методы на основе двух кадров, которые эффективны, но могут недостаточно учитывать длительный контекст движения, и методы на основе последовательностей, которые обеспечивают более высокую точность, но требуют больших вычислительных ресурсов. Эти проблемы могут приводить к неточности в определении и слежении за движением во временах спада производительности, например в сценах с плохой видимостью или оккультацией. Требуется система, которая обеспечивала бы высокую точность, но при этом была бы эффективной в обработке. ## Метод Мы предлагаем новую модель TrajTrack, основанную на парадигме траекторий, которая улучшает работу двухкадрового системы для моделирования движения. TrajTrack не требует дополнительных точечных облаков для моделирования движения. Вместо этого она использует исторические данные о движении в виде боксиров, что позволяет эффективно определять движение. Модель состоит из двух основных модулей: **Explicit Motion Proposal** и **Implicit Motion Modeling**. Используя предыдущие движения, она строит быстрый предложенный путь, а затем улучшает его с помощью модуля моделирования движения. Это позволяет TrajTrack обеспечить высокую точность с меньшим расходом ресурсов. ## Результаты Мы проверили TrajTrack на бенчмарке NuScenes. Модель показала существенное улучшение в точности слежения за объектом на 4,48% по сравнению с базовым двухкадровым методом. Кроме того, TrajTrack работает с высокой скоростью — 56 кадров в секунду, что делает его эффективным для реального времени. Мы также проверили TrajTrack с разными базовыми моделями и показали, что он обладает сильной генерализуемостью. Эти результаты подтверждают сильную гибкость и эффективность нашего подхода в различных условиях. ## Значимость Модель TrajTrack может быть применена в различных задачах робототехники, в том числе для слежения за объектами в автоматизированном вождении, в системах безопасности, в системах управления роботами. Также TrajTrack обеспечивает высокую точность с меньшими вычислительными затратами, что делает его эффективным для применения на реальных устройствах. Этот подход может существенно повлиять на развитие систем автономного управления, сделав их более точными и надежными. ## Выводы Мы представили новую модель TrajTrack, основанную на парадигме траекторий, которая позволяет улучшить точность слежения за объектом в LiDAR-based 3D SOT. Модель TrajTrack показала высокую

Annotation:

LiDAR-based 3D single object tracking (3D SOT) is a critical task in robotics and autonomous systems. Existing methods typically follow frame-wise motion estimation or a sequence-based paradigm. However, the two-frame methods are efficient but lack long-term temporal context, making them vulnerable in sparse or occluded scenes, while sequence-based methods that process multiple point clouds gain robustness at a significant computational cost. To resolve this dilemma, we propose a novel trajector...

ID: 2509.11453v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 OpenEgo: A Large-Scale Multimodal Egocentric Dataset for Dexterous Manipulation

2025-09-10

Авторы:

Ahad Jawaid, Yu Xiang

## Контекст Egocentric human videos, представляющие скелетовские структуры и действия, являются эффективным источником демонстрационных данных для технологий иммитационного обучения. Однако, существующие корпуса часто не содержат точных, временно определенных описаний действий или информации об действиях рук, что создает трудности для исследования рукоподобных манипуляций. Для адресации этой проблемы, мы предлагаем OpenEgo — крупный мультимодальный корпус, содержащий манипуляции с руками, высококачественными рукопозиционированиями и целевыми действиями. ## Метод OpenEgo объединяет 1107 часов видео данных, включая 6 различных многомодальных датасетов по декстеросой манипуляции в 600+ средах. Мы вводим стандартизированные рукопозиционирования, которые гарантируют точные темпоральные описания действий. Кроме того, мы назначаем каждому действию описательные темпорально определенные разметки (action primitives), которые могут быть запусканы с помощью данных руки. Эти разметки позволяют позиционировать руки и выполнять целевые действия. ## Результаты Мы проводим эксперименты с OpenEgo, используя методы языковоностной условной иммитации обучения (CLIPort), чтобы прогнозировать рукопозиционирования с руками и выполнять действия. Мы используем данные из OpenEgo для обучения моделей, и опробуем эффективность наших подходов на репродуктивных задачах манипуляции. ## Значимость OpenEgo может использоваться в сценариях когнитивных роботов, визуально-языковых моделях и других визуально-активных исследованиях. Он позволяет значительно упростить процесс иммитационного обучения, повысить точность прогнозирования действий рук и обеспечить репродуцируемый инструментарий для визуально-языковых моделей. Это может иметь большое влияние на прогресс робототехники и управления ходом в реальных средах. ## Выводы Открытый корпус OpenEgo, представленный в этой работе, является крупным ресурсом для исследований в области визуально-языковых моделей и иммитационного обучения. Мы показываем, что наш подход действителен для решения проблем с иммитацией декстеросой манипуляции. Мы планируем дальнейшие исследования для расширения OpenEgo и улучшения его возможностей в области рукоподобных манипуляций.

Annotation:

Egocentric human videos provide scalable demonstrations for imitation learning, but existing corpora often lack either fine-grained, temporally localized action descriptions or dexterous hand annotations. We introduce OpenEgo, a multimodal egocentric manipulation dataset with standardized hand-pose annotations and intention-aligned action primitives. OpenEgo totals 1107 hours across six public datasets, covering 290 manipulation tasks in 600+ environments. We unify hand-pose layouts and provide ...

ID: 2509.05513v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

2025-09-10

Авторы:

Hanzhen Wang, Jiaming Xu, Jiayi Pan, Yongkang Zhou, Guohao Dai

## Контекст Vision-Language-Action (VLA) модели, объединяющие визуальную обработку, естественный язык и действия, широко применяются в области распознавания действий, сенсорных систем и автоматического управления. Однако эти модели требуют высокой вычислительной мощности, что ограничивает их применение в реальном времени и на устройствах с ограниченными ресурсами. Одним из подходов к ускорению таких моделей является pruning, то есть удаление ненужных вычислений. Несмотря на существующие методы pruning, они имеют серьезные ограничения: они используют только локальную информацию о действии, не принимая во внимание глобальный контекст предыдущих действий. Это приводит к существенному понижению точности и незначительному ускорению. Мы выявляем высокую схожесть действий в последовательностях и предлагаем использовать две уровней pruning, которые учитывают и локальную, и глобальную информацию. ## Метод SpecPrune-VLA предлагает два уровня pruning: статический на уровне действий и динамический на уровне слоев. На первом уровне введен новый контроллер, классифицирующий действия как грубое и точное (по скорости). Это позволяет адаптировать уровень pruning к требованиям каждого типа действия. На втором уровне мы применяем локальные признаки текущего действия и глобальные отслеживаемые признаки предыдущих действий для выделения важности токенов. Этот подход не требует дополнительной тренировки и является простым в реализации. Мы использовали данные из набора LIBERO для оценки эффективности SpecPrune-VLA. ## Результаты Для оценки SpecPrune-VLA использовались данные из набора LIBERO, а в качестве сравнения взят метод OpenVLA-OFT. На графике представлены результаты скорости выполнения модели на двух разных GPU: NVIDIA A800 и NVIDIA GeForce RTX 3090. Мы заметили, что SpecPrune-VLA дает скоростной прирост в 1.46 раза на A800 и 1.57 раза на RTX 3090, при этом точность уменьшилась на 1.3%, что является приемлемым компромиссом между скоростью и точностью. Это указывает на то, что метод SpecPrune-VLA эффективно ускоряет модель, не существенно затрагивая её точность. ## Значимость Метод SpecPrune-VLA может быть применен в различных сценариях, где необходимо ускорить работу моделей VLA, например, в системах роботов, сенсорных системах, или устройствах с ограниченными ресурсами. Он обеспечивает высокую скорость выполнения с незначительными потерями в точности, что делает его привлекательным решением для реального времени. Его применение может улучшить производительность в системах, требующих непрерывной обработки данных, таких как видеонаблюдение, системы оповещения, или мобильные приложения. ## Выводы Мы представили SpecPr

Annotation:

Pruning accelerates compute-bound models by reducing computation. Recently applied to Vision-Language-Action (VLA) models, existing methods prune tokens using only local info from current action, ignoring global context from prior actions, causing >20% success rate drop and limited speedup. We observe high similarity across consecutive actions and propose leveraging both local (current) and global (past) info for smarter token selection. We introduce SpecPrune-VLA, a training-free method with tw...

ID: 2509.05614v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 YOLO Ensemble for UAV-based Multispectral Defect Detection in Wind Turbine Components

2025-09-06

Авторы:

Serhii Svystun, Pavlo Radiuk, Oleksandr Melnychenko, Oleg Savenko, Anatoliy Sachenko

#### Контекст Управление и мониторинг состояния ветрогенерирующих установок (ВГУ) является критическим для повышения их эффективности и надежности. Одним из основных задач регулярного контроля является обнаружение дефектов в критических компонентах, таких как винты, лонжероны и башни. Несмотря на развитие технологий, существуют сложности в обнаружении дефектов на различных типах образов, в том числе визуальных и термальных. Это приводит к необходимости развития систем, которые могут обеспечивать точное и надежное обнаружение дефектов в реальном времени. Улучшение точности обнаружения дефектов является важной задачей, поскольку неточность может привести к серьезным последствиям. Многоканальный подход, использующий визуальные и термальные каналы, позволяет улучшить точность и надежность обнаружения дефектов. #### Метод Для решения задачи обнаружения дефектов в компонентах ВГУ был разработан ансамбль YOLO Ensemble, включающий YOLOv8 в качестве общего модели и специализированную модель для теплового импульса. Модели обучались на специально подготовленных данных, включающих изображения визуального и термального диапазона. Ансамбль был реализован с использованием алгоритма комбинирования баундинговых боксов, который объединяет прогнозы моделей в единую модель. Эта структура позволяет использовать преимущества как общей модели, так и специализированной, для повышения точности обнаружения. #### Результаты В результате экспериментов была достигнута высокая точность обнаружения. Использование ансамбля YOLO Ensemble позволило достичь математического ожидания метрики Average Precision ([email protected]) равного 0.93 и F1-метрики равного 0.90. В сравнении с отдельной моделью YOLOv8, которая показала [email protected] в 0.91, ансамбль показал значительное улучшение в обнаружении дефектов. Этот результат отражает эффективность интеграции термальных данных и визуальных данных в одной системе. #### Значимость Результаты этого исследования могут быть применены для реального мониторинга компонентов ВГУ. Ансамбль YOLO Ensemble позволяет повысить точность и надежность обнаружения дефектов, что может существенно улучшить эффективность технического обслуживания и безопасность эксплуатации ВГУ. Обнаружение дефектов в реальном времени также может помочь в быстром реагировании на поломки, снижая риск непредвиденных сбоев. #### Выводы Данное исследование доказывает, что ансамбль YOLO Ensemble является эффективным решением для обнаружения дефектов в компонентах ВГУ. Оно объединяет мощности визуальной и термальной обработки изображений, улучшая качество результа

Annotation:

Unmanned aerial vehicles (UAVs) equipped with advanced sensors have opened up new opportunities for monitoring wind power plants, including blades, towers, and other critical components. However, reliable defect detection requires high-resolution data and efficient methods to process multispectral imagery. In this research, we aim to enhance defect detection accuracy through the development of an ensemble of YOLO-based deep learning models that integrate both visible and thermal channels. We pro...

ID: 2509.04156v1 cs.CV, cs.AI, cs.RO, 68T07, 68T45, 68U10, 68T40, I.2.10; I.4.8; I.5.4; I.2.9

arXiv PDF

Показано 21 - 30 из 38 записей