📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Automated Facility Enumeration for Building Compliance Checking using Door Detection and Large Language Models

2025-09-24

Авторы:

Licheng Zhan, Bach Le, Naveed Akhtar, Tuan Ngo

## Контекст Обеспечение соответствия нормативным требованиям зданий и сооружений (Building Compliance Checking, BCC) является важной задачей для гарантии безопасности, эффективности и соответствия построек законодательным стандартам. Одним из ключевых аспектов BCC является точная энумерация фасадов и их распределения в помещениях. Несмотря на его критическую роль, данная проблема до сих пор остается недостаточно исследована, что создает существенные сложности для автоматизации процесса BCC. Ручная энумерация требует много времени и труда, что делает ее неэффективной. Новые возможности, предоставляемые Large Language Models (LLMs), открывают путь к улучшению автоматизации этой задачи, объединяя возможности визуального распознавания и разума. Мы предлагаем новую задачу BCC — автоматизированная энумерация фасадов, которая заключается в проверке количества каждого типа фасадов на соответствие законодательным требованиям. Для решения этой задачи мы предлагаем метод, комбинирующий детектирование дверей с LLM-based обработкой запросов, чтобы повысить точность и универсальность решения. ## Метод Мы предлагаем новое решение для автоматизированной энумерации фасадов в рамках процесса BCC. Метод основывается на двух основных компонентах: детектировании дверей и использовании LLM. В первом этапе, мы используем компьютерное зрение для точного обнаружения дверей на планах зданий. Это позволяет определить входы и выходы в каждой комнате. Во втором этапе, мы применяем LLM для осмысления входных данных и генерации описания распределения фасадов. Для повышения точности и универсальности, мы применяем Chain-of-Thought (CoT) pipeline, которая позволяет LLM проводить логический анализ и делать более точные выводы. Мы ставим целью обеспечить общую обработку различных типов фасадов и адаптацию к разным данным, включая реальные и синтетические планы. ## Результаты Мы провели эксперименты с использованием реальных и синтетических данных планов зданий, чтобы проверить эффективность нашего подхода. Для тренировки и тестирования мы использовали различные датасеты с разными типами фасадов и распределениями. Результаты показали, что метод обеспечивает высокую точность и общую универсальность. Мы сравнили нашу реализацию с другими подходами и показали, что наш подход превосходит другие методы по метрикам точности и универсальности. Эксперименты показали, что наш метод не только эффективен, но и может быть легко адаптирован к разным условиям и задачам в области BCC. ## Значимость Метод, представленный в нашей работе, имеет большое значение для различных областей, включая проектировани

Annotation:

Building compliance checking (BCC) is a critical process for ensuring that constructed facilities meet regulatory standards. A core component of BCC is the accurate enumeration of facility types and their spatial distribution. Despite its importance, this problem has been largely overlooked in the literature, posing a significant challenge for BCC and leaving a critical gap in existing workflows. Performing this task manually is time-consuming and labor-intensive. Recent advances in large langua...

ID: 2509.17283v1 cs.CV, cs.AI, cs.ET

arXiv PDF

📄 Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

2025-09-13

Авторы:

Ian Nell, Shane Gilroy

#### Контекст Транспортные происшествия остаются одной из ведущих причин смертности и травм в мире. Особенно опасными являются категории поведения, такие как рассеянность и алкогольное воздействие. Несмотря на развитие технологий, направленных на улучшение безопасности, существуют значительные проблемы, связанные с анализом поведения водителей. Настоящая работа призвана развить систему классификации поведения водителей, основанную на внешнем наблюдении, чтобы обнаруживать признаки рассеянности и алкогольного воздействия. Это решение может повысить уровень безопасности на дорогах и стать важной компонентой системы безопасности в автономных транспортных средствах. #### Метод Разработка системы классификации поведения водителей основывается на использовании внешних наблюдений с использованием компьютерного зрения. Основные компоненты такой системы подразумевают реального времени: обнаружение объектов с помощью модели YOLO, анализ положения и движения водителя в своем полосе, а также мониторинг отклонений в карте положения. Методом линейных и нелинейных алгоритмов оценивается расстояние до препятствий и положение водителя в пространстве. Использование этих методов позволяет получать детальную информацию о поведении водителя, включая скорость, угол поворота, и деталей о его движении. #### Результаты В ходе экспериментов были протестированы различные видеоданные, включая видео с разных участков дорог в разное время суток. На основе этих данных были получены результаты, подтверждающие эффективность системы в обнаружении сложных поведенческих манипуляций. Модель YOLO позволила обнаруживать рассеянность в движении и замедление реакции, а также определять объекты, которые могут стать причиной негативного воздействия. Особенно успешно система показала себя при работе в условиях спутанных дорожных обстоятельств. #### Значимость Этот подход может быть использован в различных сферах, включая автономные системы дистанционного контроля транспорта, системы безопасности на дорогах и системы мониторинга водителей. Он предоставляет повышенную точность определения поведенческих элементов, включая углы поворота, расстояния и положение водителя, что может способствовать развитию безопасных технологий в автомобилестроении. Также этот подход имеет потенциал для расширения в области мобильных приложений, которые могут служить средством для оценки поведения водителей. #### Выводы В итоге, разработанная система проявила эффективность в определении поведения водителя с помощью внешнего наблюдения. Она может стать важной компонентой в развитии автономных с

Annotation:

Road traffic accidents remain a significant global concern, with human error, particularly distracted and impaired driving, among the leading causes. This study introduces a novel driver behavior classification system that uses external observation techniques to detect indicators of distraction and impairment. The proposed framework employs advanced computer vision methodologies, including real-time object tracking, lateral displacement analysis, and lane position monitoring. The system identifi...

ID: 2509.09349v1 cs.CV, cs.AI, cs.ET, cs.RO, eess.IV

arXiv PDF

📄 Improving watermelon (Citrullus lanatus) disease classification with generative artificial intelligence (GenAI)-based synthetic and real-field images via a custom EfficientNetV2-L model

2025-08-15

Авторы:

Nitin Rai, Nathan S. Boyd, Gary E. Vallad, Arnold W. Schumann

#### Контекст Агроиндустрия сталкивается с вопросами, связанными с распознаванием и классификацией болезней растений, которые могут значительно снизить урожайность и качество сбора. Особенно актуальным является классификация болезней водянистого melon (Citrullus lanatus), так как она наносит огромные ущерба земледелию. Традиционные методы распознавания болезней часто требуют ресурсоёмких внешнего сбора и обработки данных. Однако с появлением generative artificial intelligence (GenAI), а именно моделей, которые генерируют высококачественные синтетические изображения, возникла возможность упростить и ускорить процесс обучения компьютерным зрением. Однако достаточно мало исследований посвящено изучению возможности сочетания синтетических и реальных изображений для повышения точности классификации. В данном исследовании рассматривается эффективность использования синтетических изображений в сочетании с реальными классификации болезней водянистого melon. #### Метод Структура исследования основывается на существующих моделях глубокого обучения, в частности EfficientNetV2-L. Обучение проводилось на специально созданном датасете, содержащем синтетические изображения, сгенерированные с помощью GenAI, а также реальные изображения с обнаруженными в водием болезнями melon. Модель разделилась на пять типов обучения: H0 (только реальные изображения), H1 (только синтетические изображения), H2 (1:1 реальные и синтетические), H3 (1:10 реальные и синтетические), H4 (H3 + добавление рандомных изображений для увеличения вариативности и модели генерализации). Таким образом, исследовалось сочетание синтетических и реальных изображений с целью повышения точности, рекуррентности и F1-меры. #### Результаты Исследование показало, что обучение модели EfficientNetV2-L на смешанных данных (смеси реальных и синтетических изображений) приводит к значительному повышению точности классификации. Например, если модель обучалась только на реальных изображениях (H0), то F1-мера составила 0,65, в то время как при обучении на смеси реальных и синтетических изображений в отношении 1:10 (H3), F1-мера достигла 1,00. Таким образом, модель, обученная на смешанных данных, показала значительное повышение в точности и уменьшение в зависимости от ресурсоёмкого сбора данных. #### Значимость Результаты данного исследования имеют значительное значение для агроиндустрии, так как показывают, что синтетические изображения могут значительно повысить точность классификации, но не могут полностью заменить реальные изображения. Данный подход может быть применён для классификации других зерновых куль

Annotation:

The current advancements in generative artificial intelligence (GenAI) models have paved the way for new possibilities for generating high-resolution synthetic images, thereby offering a promising alternative to traditional image acquisition for training computer vision models in agriculture. In the context of crop disease diagnosis, GenAI models are being used to create synthetic images of various diseases, potentially facilitating model creation and reducing the dependency on resource-intensiv...

ID: 2508.10156v1 cs.CV, cs.AI, cs.ET

arXiv PDF

📄 DoorDet: Semi-Automated Multi-Class Door Detection Dataset via Object Detection and Large Language Models

2025-08-13

Авторы:

Licheng Zhang, Bach Le, Naveed Akhtar, Tuan Ngo

## Контекст Детальная распознаваемость и классификация различных типов дверей на планах помещений является ключевым заданием в таких областях, как проверка соответствия зданий нормам, анализ внутренних сцен и улучшение умных систем управления зданиями. Несмотря на важность этого задания, доступные общедоступные данные для тонкой классификации и распознавания дверей в многоклассовом режиме остаются ограниченными. Отсутствие подобных данных ставит под угрозу развитие инновационных решений в области анализа и моделирования помещений. Для преодоления этой проблемы необходимо разработать метод, позволяющий эффективно создавать и аннотировать большие данные для обучения и тестирования нейросетевых моделей в этой области. ## Метод Предлагаемая методология состоит из двух основных этапов. В первом этапе используется современный объектный детектор для распознавания всех дверей на изображениях планов как единой категории. Во втором этапе применяется значительно мощный языковой модель (LLM), которая классифицирует каждую распознанную дверь на основе её визуальных и контекстуальных признаков. Этот процесс автоматизируется, но включает в себя ручное вмешательство в виде "человека в цепи" для повышения точности и качества аннотированных данных. Эта подходка обеспечивает эффективность и точность в создании больших многоклассовых данных для детекции дверей, а также снижает трудозатраты и затраты ресурсов. ## Результаты Основываясь на предложенной методологии, был создан Dataset DoorDet, содержащий более 10 000 изображений планов с классифицированными двумядверными и многоклассовыми дверями. Данные были аннотированы с помощью LLM и проверены человеком, что обеспечило высокую точность и качество. Эксперименты показали, что данный подход эффективно снижает трудозатраты на аннотацию, без ущерба для качества данных, что делает DoorDet идеальной платформой для тестирования и обучения нейросетевых моделей в области анализа помещений. ## Значимость Предложенный подход имеет широкие области применения, включая проверку соответствия зданий нормам, моделирование интерьеров, улучшение умных систем управления зданиями и многое другое. Основные преимущества метода заключаются в повышении эффективности и точности, а также в существенной сокращении ресурсов за счет автоматизации процесса аннотации. Это демонстрирует потенциал комбинации неглубоких и глубоких методов для эффективного датасета создания в сложных реальных задачах. ## Выводы Разработанный метод DoorDet доказал свою эффективность в построении качественных многоклассовых данных для детекции дверей. Это открывает

Annotation:

Accurate detection and classification of diverse door types in floor plans drawings is critical for multiple applications, such as building compliance checking, and indoor scene understanding. Despite their importance, publicly available datasets specifically designed for fine-grained multi-class door detection remain scarce. In this work, we present a semi-automated pipeline that leverages a state-of-the-art object detector and a large language model (LLM) to construct a multi-class door detect...

ID: 2508.07714v1 cs.CV, cs.AI, cs.ET

arXiv PDF