📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DragonFruitQualityNet: A Lightweight Convolutional Neural Network for Real-Time Dragon Fruit Quality Inspection on Mobile Devices

2025-08-13

Авторы:

Md Zahurul Haquea, Yeahyea Sarker, Muhammed Farhan Sadique Mahi, Syed Jubayer Jaman, Md Robiul Islam

## Контекст Dragon fruit (Hylocereus spp.) набирает всё большую популярность в мировом агробизнесе благодаря своим высоким питательным значениям и экономическим преимуществам. Однако, вследствие трудной транспортации и плохой упаковки, часто возникают проблемы с качеством, что приводит к потерям во время переработки и хранения. Традиционные методы оценки качества требуют много времени и вовлечения человеческого фактора, что может привести к неточности. Недавно, становится все более востребованой использование искусственного интеллекта в сельском хозяйстве, в том числе для оценки качества фруктов. Наша исследовательская группа разработала DragonFruitQualityNet, алгоритм, основанный на сверточных нейронных сетях (CNN), который работает в реальном времени и может использоваться на мобильных устройствах. ## Метод Мы создали специальный сет Downsampling MobileNet для первоначальной обработки изображений, а затем использовали разделенную сеть DragonFruitQualityNet, которая состоит из двух подсетей: подсеть для классификации степени дозрелости и подсеть для определения дефектов. Мы использовали 13 789 изображений, разделенных на четыре категории: свежие, недозрелые, дозрелые и дефектные фрукты. Для обучения и валидации нашей модели мы использовали данные из своих сборов и данные из открытого набора данных Mendeley Data. ## Результаты Модель DragonFruitQualityNet показала важное улучшение в точности в 10% по сравнению с существующими алгоритмами, достигнув точность 93,98%. Мы также проводили эксперименты с тем, как наш алгоритм работает на устройствах с разным объемом памяти, подтвердив, что он достаточно легкий для работы на мобильных устройствах. ## Значимость Наш алгоритм может быть применен для оценки качества драконовых фруктов во время их роста, перед тем как они будут упакованы и отправлены на рынок. Это позволит улучшить управление послесборной работой, уменьшить потери и повысить экономическую выгоду для фермеров. Кроме того, мы разработали приложение для мобильных устройств, чтобы дать фермерам возможность проводить реальное время оценку качества фруктов прямо на месте. ## Выводы Мы разработали DragonFruitQualityNet, сверточную сеть, которая показала высокую точность в классификации качества драконовых фруктов. Мы также приложили усилия, чтобы обеспечить интеграцию этого алгоритма с мобильными устройствами, чтобы дать фермерам возможность применять его на практике. Наша работа открывает новые возможности для продвижения цифрового сельского хозяйства и поддерживает усиление устойчивого сельскохозяйственного производства. Будущие исследования будут сфокусированы на расширении этой модели для других видов фруктов и изучении её

Annotation:

Dragon fruit, renowned for its nutritional benefits and economic value, has experienced rising global demand due to its affordability and local availability. As dragon fruit cultivation expands, efficient pre- and post-harvest quality inspection has become essential for improving agricultural productivity and minimizing post-harvest losses. This study presents DragonFruitQualityNet, a lightweight Convolutional Neural Network (CNN) optimized for real-time quality assessment of dragon fruits on mo...

ID: 2508.07306v1 cs.CV, cs.AI

arXiv PDF

📄 MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark

2025-08-13

Авторы:

Haiyang Guo, Fei Zhu, Hongbo Zhao, Fanhu Zeng, Wenzhuo Liu, Shijie Ma, Da-Han Wang, Xu-Yao Zhang

## Контекст В последние годы становится все очевиднее, что современные системы машинного обучения должны иметь возможность постоянного обучения, чтобы как можно эффективнее адаптироваться к новым задачам и источникам данных. Одной из проблем в этом направлении является **multimodal continual learning**, которая заключается в обучении моделей относительно небольших данных, но на множествах постоянно меняющихся задач, при этом не допуская потери предыдущих знаний. Эта задача становится наиболее актуальной, когда речь идет о моделях, обученных на multimodal data, таких как текст и изображения. Одним из ключевых аспектов в этой области является **instruction tuning**, который позволяет моделям учиться на сочетании разных типов задач в разных модах. Однако, существуют ряд проблем, в том числе catastrophic forgetting, которая усложняет возможность постоянного обучения моделей в контексте multimodal continual learning. ## Метод MCITlib представляет собой **code library и benchmark для multimodal continual instruction tuning (MCIT)**. В её составе включены 8 различных algorithmic approaches для решения задачи сохранения знаний при постоянном обучении. Исследования проводились на двух benchmarks, которые систематически оценивали качество моделей в задаче multimodal continual learning. Ключевые технические решения включают: - **Continual Learning Algorithms**: 8 различных алгоритмов для решения catastrophic forgetting при обучении на множествах задач. - **Multimodal Tuning**: Методы, которые позволяют модели учиться на multimodal data, при этом сохраняя возможность обучения на новых задачах. - **Benchmark Evaluation**: Эталонные наборы данных, которые позволяют оценивать качество решений в контексте multimodal continual learning. ## Результаты На основе MCITlib были проведены ряд экспериментов, в которых были оценены несколько методов continual learning в задачах multimodal continual learning. Результаты показали, что: - Некоторые алгоритмы показали значительную эффективность в минимизации catastrophic forgetting, поддерживая качество модели при обучении на новых задачах. - Другие алгоритмы, в свою очередь, были более эффективны в задачах обучения на нескольких модах, но с меньшей устойчивостью к потерям известных знаний. - Общие результаты показали, что continual instruction tuning может быть весьма эффективным для решения задач multimodal continual learning, но необходимы дополнительные исследования для улучшения моделей. ## Значимость MCITlib имеет значительное значение для развития области multimodal continual learning. Она предоставляет комплексное решение для решения проблем **catastrophic forgetting** и предоставляет возможность проводить эксперименты с различными методами continual learning. Также, MCITlib может быть использована в различных областях, таких как: - **Vision and Language Tasks**: Обучение моделей для комбинации текста и изображений в задачах, таких как сверточные модели, NLP и т.д. - **Real-time Adaptation**: Модели, которые могут быть дополнительно обучены в реальном времени, чтобы адаптироваться к новым данным и постоянно изменяющимся

Annotation:

Continual learning aims to equip AI systems with the ability to continuously acquire and adapt to new knowledge without forgetting previously learned information, similar to human learning. While traditional continual learning methods focusing on unimodal tasks have achieved notable success, the emergence of Multimodal Large Language Models has brought increasing attention to Multimodal Continual Learning tasks involving multiple modalities, such as vision and language. In this setting, models a...

ID: 2508.07307v1 cs.CV, cs.AI

arXiv PDF

📄 Freeze and Reveal: Exposing Modality Bias in Vision-Language Models

2025-08-13

Авторы:

Vivek Hruday Kavuri, Vysishtya Karanam, Venkata Jahnavi Venkamsetty, Kriti Madumadukala, Lakshmipathi Balaji Darur, Ponnurangam Kumaraguru

#### Контекст Vision-Language Models (VLMs) показали выдающиеся результаты в области мультимодального понимания, но часто унаследовали гендерные базы из своих данных тренировки. Эти базы могут возникать как из модальности изображений, так и из модальности текста. Несбалансированность таких моделей может привести к неточностям и несправедливости в реальном мире. В данной работе мы расследуем источники этих баз, применяя специальные методы дебаисинга и оценивая их эффективность на классических задачах с контролируемыми данными. #### Метод Мы применяем два основных метода дебаисинга: Counterfactual Data Augmentation (CDA) и Task Vector (TV). CDA заключается в добавлении стереотипических и нестереотипических примеров в тренировочный набор, чтобы снизить ошибки модели в распознавании гендера. Task Vector использвает векторные представления задач, чтобы скорректировать вклад каждой модальности в процессе обучения. Для улучшения данных без дополнительного расхода, мы предлагаем DAUDoS - Data Augmentation Using Degree of Stereotypicality. Этот подход определяет степень стереотипичности каждого примера и добавляет новые сценарии, сбалансировав стереотипы. Мы используем новую метрику, Degree of Stereotypicality, для оценки степени стереотипичности примеров в тренировочных данных. #### Результаты Мы провели эксперименты на датасете VisoGender, анализируя степень вклада каждой модальности в гендерные базы. Наша оценка показала, что CDA снижает гендерный гэп на 6%, в то время как DAUDoS — на 3%, но с применением трети меньше данных. Также оба метода улучшили точность распознавания гендера на 3%. Мы также выявили, что CLIP Vision Encoder и PaliGemma2 Text Encoder являются главными источниками гендерных баз, что позволяет нам вести более точные и эффективные дебаисинговые методы. #### Значимость Наша работа демонстрирует важность анализа источников гендерных баз в мультимодальных моделях и предлагает новые методы для их устранения. Мы предлагаем DAUDoS как эффективное средство для снижения баз с минимальным вычислительным вкладом. Модели с более сбалансированным пониманием гендера могут быть применены в различных областях, таких как диагностика, трудовая справедливость и социальные сети, чтобы уменьшить неточности и повысить справедливость. #### Выводы Мы успешно демонстрируем, что гендерные базы в VLMs могут быть снижены с помощью точечных методов дебаисинга, таких как CDA и DAUDoS. Наше исследование представляет собой залог для будущих исследований в области снижения гендерных баз в мультимодальных моделях, с целью создания более справедливых и эффективных систем. Мы также обосновываем необходимость подробного анализа источников

Annotation:

Vision Language Models achieve impressive multi-modal performance but often inherit gender biases from their training data. This bias might be coming from both the vision and text modalities. In this work, we dissect the contributions of vision and text backbones to these biases by applying targeted debiasing using Counterfactual Data Augmentation and Task Vector methods. Inspired by data-efficient approaches in hate-speech classification, we introduce a novel metric, Degree of Stereotypicality ...

ID: 2508.07432v1 cs.CV, cs.AI

arXiv PDF

📄 From Field to Drone: Domain Drift Tolerant Automated Multi-Species and Damage Plant Semantic Segmentation for Herbicide Trials

2025-08-13

Авторы:

Artzai Picon, Itziar Eguskiza, Daniel Mugica, Javier Romero, Carlos Javier Jimenez, Eric White, Gabriel Do-Lago-Junqueira, Christian Klukas, Ramon Navarra-Mestre

**Резюме** Развитие агротехнологий позволяет автоматизировать сложные процессы мониторинга поля и оценки эффективности химикатов. Однако традиционные методы ручного визуального анализа остаются временными и субъективными. Мы предлагаем усовершенствованную модель сегментации, которая объединяет общеприменный самостоятельно обучающийся визуальный модуль с иерархическим выводом на основе ботанической системы классификации. Модель была обучена на большом многолетнем датасете (2018–2020 гг., Германия и Испания) и тестировалась на данных цифровых и мобильных камер (2023 г.), а также дроновых изображений (2024 г.) с различных географических областей. Модель достигла существенных улучшений в идентификации видов растений (F1-метрика: от 0.52 до 0.85) и оценки вреда (F1-метрика: от 0.28 до 0.44) по сравнению с предыдущими подходами. Несмотря на достаточную стабильность при переходе между устройствами, подвиды дронных изображений вызвали деградацию результатов (F1-метрика: 0.60, R²: 0.80; вреда: 0.41, R²: 0.62). Несмотря на это, модель показала приемлемую стойкость в реальных условиях и была успешно развернута в цифровой инфраструктуре BASF, где она поддерживает процессы мониторинга растений и оценки эффективности химикатов.

Annotation:

Field trials are vital in herbicide research and development to assess effects on crops and weeds under varied conditions. Traditionally, evaluations rely on manual visual assessments, which are time-consuming, labor-intensive, and subjective. Automating species and damage identification is challenging due to subtle visual differences, but it can greatly enhance efficiency and consistency. We present an improved segmentation model combining a general-purpose self-supervised visual model with h...

ID: 2508.07514v1 cs.CV, cs.AI

arXiv PDF

📄 A DICOM Image De-identification Algorithm in the MIDI-B Challenge

2025-08-13

Авторы:

Hongzhu Jiang, Sihan Xie, Zhiyu Wan

## Контекст Распространение медицинских изображений в формате DICOM (Digital Imaging and Communications in Medicine) широко применяется в клинической практике и исследовательских задачах. Однако, для обеспечения конфиденциальности и соответствия законодательству, необходимо удалить из этих изображений личной идентификационной информации (PII). Это критически важно для защиты прав пациентов и соблюдения международных стандартов, таких как Health Insurance Portability and Accountability Act (HIPAA) и DICOM PS3.15. Кроме того, возникает потребность в сохранении ценности данных для дополнительного использования в области обучения машинному обучению, диагностики и терапии. Таким образом, алгоритмы de-identification DICOM-изображений являются ключевым инструментом для решения этой проблемы. ## Метод Алгоритм de-identification DICOM-изображений, разработанный для участия в Medical Image De-Identification Benchmark (MIDI-B) Challenge, основывается на нескольких ключевых методах. Эти методы включают: 1. **Pixel Masking**: Удаление частей изображений, содержащих идентификаторы пациентов или другую конфиденциальную информацию. 2. **Date Shifting**: Изменение дат в метаданных изображений, чтобы предотвратить идентификацию пациентов по временной шкале. 3. **Date Hashing**: Хеширование дат для дополнительного защищения данных. 4. **Text Recognition**: Идентификация текстовых элементов внутри изображений с помощью оптического распознавания символов (OCR). 5. **Text Replacement**: Замена идентификаторов и другой конфиденциальной информации на заполнители или случайные строки. 6. **Text Removal**: Удаление всех текстовых элементов из изображений. Эти методы были реализованы с использованием современных библиотек и инструментов, обеспечивая высокую точность и выполнение всех требований MIDI-B Challenge. ## Результаты Наш алгоритм был протестирован на большом наборе данных, содержащем клинические DICOM-изображения. Результаты показали высокую эффективность решения: - **Точность выполнения действий**: 99.92%. - **Рейтинг в MIDI-B Challenge**: 2-е место из 10 команд, зарегистрировавшихся в турнире (из общего числа 22 команд). - **Статистический анализ**: Алгоритм оптимально решал задачи удаления PII, сохраняя основную структуру изображений и их клиническую ценность. ## Значимость Решение имеет широкие применения в медицине и науке: - **Конфиденциальность пациентов**: Обеспечение защиты конфиденциальных данных в соответствии с законами и регламентами. - **Улучшение научных исследований**: Данные, гарантированно свободные от идентификаторов, могут быть безопасно использованы для обучения моделей машинного обучения. - **Высокая школа трансформации**: Алгоритм демонстрирует высокую эффективность в

Annotation:

Image de-identification is essential for the public sharing of medical images, particularly in the widely used Digital Imaging and Communications in Medicine (DICOM) format as required by various regulations and standards, including Health Insurance Portability and Accountability Act (HIPAA) privacy rules, the DICOM PS3.15 standard, and best practices recommended by the Cancer Imaging Archive (TCIA). The Medical Image De-Identification Benchmark (MIDI-B) Challenge at the 27th International Confe...

ID: 2508.07538v1 cs.CV, cs.AI

arXiv PDF

📄 ShoulderShot: Generating Over-the-Shoulder Dialogue Videos

2025-08-13

Авторы:

Yuang Zhang, Junqi Cheng, Haoyu Zhao, Jiaxi Gu, Fangyuan Zou, Zenghui Lu, Peng Shu

#### Контекст Область исследования связана с генерацией видео, в которых диалоги осуществляются с использованием перспективы вида "сзади плеча" (over-the-shoulder). Эти видео широко используются в кино, кратких драматических релизах и рекламе, так как они создают вариативность визуального оформления и усиливают эмоциональную заинтересованность зрителя. Однако, несмотря на их важность, данный тип диалоговых видео значительно мало исследован в рамках автоматической генерации видео. Основные проблемы заключаются в сохранении консистентности характеров в разных сценах, обеспечении продолжительности диалога, а также в создании визуальной и спациальной гармонии. Наша мотивация заключается в развитии методики, которая устранит эти проблемы и позволит генерировать диалоговые видео более длинных и естественных. #### Метод Мы предлагаем ShoulderShot, рамочный подход, который использует двойную генерацию видео и техники циклического воспроизведения. Основной идеей является повторное использование видео-клипа для создания лонгвиты диалога, сохраняя в то же время высокую производительность и качество. Метод состоит из двух основных этапов: генерация клипа с обратного взгляда (shot-reverse-shot) и циклической обработки для поддержания продолжительности. Мы также внедрили систему контроля консистентности характеров, чтобы обеспечить постоянность характеров в разных сценах. Это разработанное решение объединяет технологии моделирования видео, обучения с подкреплением (reinforcement learning) и мультимодальных генераций. #### Результаты Для проверки нашего подхода, мы провели эксперименты на различных наборах данных, включающих различные сцены диалогов и характеров. Мы сравнивали ShoulderShot с существующими методами, оценивая его показатели в трех ключевых областях: логичность локаций, продолжительность диалога и качество визуализации. Наши результаты показали, что ShoulderShot превосходит существующие подходы в техническом плане, обеспечивая более высокую степень продолжительности видео, гармоничность визуальных элементов и лучшее качество в выводе. Мы также продемонстрировали гибкость в генерации диалогов различных длин, что делает ShoulderShot более универсальным для практического применения. #### Значимость Наша разработка имеет широкие применения в кино, рекламе и коммуникативных технологиях. Она может быть применена для создания видео-контента, где важно сохранить продолжительность и качество диалогов. Одним из основных преимуществ ShoulderShot является его универсальность и гибкость в генерации видео диалогов, а такж

Annotation:

Over-the-shoulder dialogue videos are essential in films, short dramas, and advertisements, providing visual variety and enhancing viewers' emotional connection. Despite their importance, such dialogue scenes remain largely underexplored in video generation research. The main challenges include maintaining character consistency across different shots, creating a sense of spatial continuity, and generating long, multi-turn dialogues within limited computational budgets. Here, we present ShoulderS...

ID: 2508.07597v1 cs.CV, cs.AI

arXiv PDF

📄 SOFA: Deep Learning Framework for Simulating and Optimizing Atrial Fibrillation Ablation

2025-08-13

Авторы:

Yunsung Chung, Chanho Lim, Ghassan Bidaoui, Christian Massad, Nassir Marrouche, Jihun Hamm

## Контекст Ателиальная фибрилляция (AF) — одна из самых частых кардиоаррятий, требующая широкого медицинского внимания. Хотя катотеральная абляция является основным методом лечения этого заболевания, результаты процедуры часто варьируются из-за сложной интеракции между характеристиками пациента и процедурными факторами. Оценка и оптимизация эффективности абляции представляют собой серьезные вызовы. Таким образом, возникает вопрос: можно ли предсказать возможность рецидива AF, используя моделирование процедурных параметров? Кроме того, какие процедурные параметры должны быть использованы для сокращения риска рецидива AF? Для решения этих проблем мы предлагаем SOFA (Simulating and Optimizing Atrial Fibrillation Ablation) — новую профессиональную рамку на основе глубинного обучения. ## Метод SOFA обрабатывает входные данные в формате 2.5D LGE-MRI предварительного исследования сердца, чтобы синтезировать послеобластьную изображение, показывающее образование тканевого структуры после абляции. Она использует многомодальную многовидовую генераторную архитектуру для обработки сигналов от различных процедурных параметров, таких как место и длительность абляции, температура, мощность и сила. Модель предсказывает риск рецидива AF на основе синтезированного изображения. Далее, SOFA внедряет оптимизационный механизм, который адаптирует процедурные параметры для минимизации предсказанного риска рецидива. Технологически, SOFA основывается на вариационной автокодировке, объединяя выдачу процедурных параметров и риска рецидива. ## Результаты Мы оценили SOFA с помощью параллельных экспериментов, используя реальные данные LGE-MRI и процедурные параметры от нескольких пациентов с AF. Результаты показали, что SOFA хорошо синтезирует послеобластьные изображения, соответствующие реальным данным. Оптимизационный механизм SOFA сократил предсказанный риск рецидива на 22.18% в сравнении с базовыми процедурными параметрами. Наша модель показала высокую точность в предсказании рецидива AF и эффективность в оптимизации процедурных параметров, что демонстрирует потенциал для персонализации лечения AF. ## Значимость SOFA может применяться в различных областях, включая диагностику, планирование лечения и моделирование в хирургии. Она предоставляет уникальную возможность оценить и оптимизировать процедурные параметры, что может привести к более точному планированию и уменьшению риска рецидива AF. SOFA также может использоваться для разработки новых процедур, обучения медицинских работников и улучшения пациентских результатов. Такой подход может стать ключевым элементом в соз

Annotation:

Atrial fibrillation (AF) is a prevalent cardiac arrhythmia often treated with catheter ablation procedures, but procedural outcomes are highly variable. Evaluating and improving ablation efficacy is challenging due to the complex interaction between patient-specific tissue and procedural factors. This paper asks two questions: Can AF recurrence be predicted by simulating the effects of procedural parameters? How should we ablate to reduce AF recurrence? We propose SOFA (Simulating and Optimizing...

ID: 2508.07621v1 cs.CV, cs.AI

arXiv PDF

📄 TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding

2025-08-13

Авторы:

Chaohong Guo, Xun Mo, Yongwei Nie, Xuemiao Xu, Chao Xu, Fei Yu, Chengjiang Long

## Контекст Temporal Video Grounding (TVG) — это критическая задача в области понимания длительных видео, которая предполагает точное определение видео-сегментов, соответствующих натуральным языковым запросам. Несмотря на то, что существующие подходы, основанные на различных моделях, показывают достижения в этой области, они либо не достаточно эффективны, либо не обеспечивают достаточную точность результатов. Это вызвано тем, что причинительные модели часто пропускают важные этапы рассуждений, что приводит к неточностям в темпоральных предсказаниях. Мотивация для данного исследования заключается в развитии более точной модели TVG, которая бы оптимально решала эту проблему. ## Метод Для решения этой проблемы мы предлагаем фреймворк TAR-TVG (Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding). Методология состоит в введении timestamp anchors (тайм-стамп-заместителей) в процесс рассуждений, чтобы обеспечить дополнительный механизм контроля качества. Эти заместители функционируют как интермедиарии в процессе вывода, принуждая модель выполнять последовательные шаги рассуждений, которые приводят к все более точным темпоральным оценкам. Для повышения эффективности, мы предлагаем трехэтапную стратегию обучения: начальное генеративно-распространяющее обучение (GRPO) для создания высококачественных трасс рассуждений, супервизированное оптимизационное тренирование (SFT) на сгенерированных данных, и, наконец, дополнительное генеративно-распространяющее обучение на улучшенной модели. ## Результаты В ходе экспериментов мы проверили TAR-TVG на различных датасетах, таких как ActivityNet Captions и Charades-STA. Наши результаты показывают, что TAR-TVG не только превышает текущие лидеры по точности результатов, но и обеспечивает интерпретируемые, выверяемые логические цепочки рассуждений. Мы также провели анализ того, как различные компоненты фреймворка влияют на качество результатов, включая вклад каждого из этапов обучения. ## Значимость Заключается в том, что TAR-TVG может быть применено в различных сценариях, включая автоматический текстовый описательный анализ видео, мониторинг видео-трансляций, и поиск информации в видео. Этот подход не только улучшает точность, но и обеспечивает прозрачность и возможность верификации работы модели, что является критическим для применения в реальных ситуациях. ## Выводы Мы предложили новую модель TVG, которая включает timestamp anchors в процесс рассуждений. Это позволяет повысить точность и обеспечить возможность проверки работы модели. Таким образом, TAR-TVG обеспечивает новый шаг в развитии методологий для точного темпорального видео-разминки. В дальнейшем мы планируем расширить мо

Annotation:

Temporal Video Grounding (TVG) aims to precisely localize video segments corresponding to natural language queries, which is a critical capability for long-form video understanding. Although existing reinforcement learning approaches encourage models to generate reasoning chains before predictions, they fail to explicitly constrain the reasoning process to ensure the quality of the final temporal predictions. To address this limitation, we propose Timestamp Anchor-constrained Reasoning for Tempo...

ID: 2508.07683v1 cs.CV, cs.AI

arXiv PDF

📄 DoorDet: Semi-Automated Multi-Class Door Detection Dataset via Object Detection and Large Language Models

2025-08-13

Авторы:

Licheng Zhang, Bach Le, Naveed Akhtar, Tuan Ngo

## Контекст Детальная распознаваемость и классификация различных типов дверей на планах помещений является ключевым заданием в таких областях, как проверка соответствия зданий нормам, анализ внутренних сцен и улучшение умных систем управления зданиями. Несмотря на важность этого задания, доступные общедоступные данные для тонкой классификации и распознавания дверей в многоклассовом режиме остаются ограниченными. Отсутствие подобных данных ставит под угрозу развитие инновационных решений в области анализа и моделирования помещений. Для преодоления этой проблемы необходимо разработать метод, позволяющий эффективно создавать и аннотировать большие данные для обучения и тестирования нейросетевых моделей в этой области. ## Метод Предлагаемая методология состоит из двух основных этапов. В первом этапе используется современный объектный детектор для распознавания всех дверей на изображениях планов как единой категории. Во втором этапе применяется значительно мощный языковой модель (LLM), которая классифицирует каждую распознанную дверь на основе её визуальных и контекстуальных признаков. Этот процесс автоматизируется, но включает в себя ручное вмешательство в виде "человека в цепи" для повышения точности и качества аннотированных данных. Эта подходка обеспечивает эффективность и точность в создании больших многоклассовых данных для детекции дверей, а также снижает трудозатраты и затраты ресурсов. ## Результаты Основываясь на предложенной методологии, был создан Dataset DoorDet, содержащий более 10 000 изображений планов с классифицированными двумядверными и многоклассовыми дверями. Данные были аннотированы с помощью LLM и проверены человеком, что обеспечило высокую точность и качество. Эксперименты показали, что данный подход эффективно снижает трудозатраты на аннотацию, без ущерба для качества данных, что делает DoorDet идеальной платформой для тестирования и обучения нейросетевых моделей в области анализа помещений. ## Значимость Предложенный подход имеет широкие области применения, включая проверку соответствия зданий нормам, моделирование интерьеров, улучшение умных систем управления зданиями и многое другое. Основные преимущества метода заключаются в повышении эффективности и точности, а также в существенной сокращении ресурсов за счет автоматизации процесса аннотации. Это демонстрирует потенциал комбинации неглубоких и глубоких методов для эффективного датасета создания в сложных реальных задачах. ## Выводы Разработанный метод DoorDet доказал свою эффективность в построении качественных многоклассовых данных для детекции дверей. Это открывает

Annotation:

Accurate detection and classification of diverse door types in floor plans drawings is critical for multiple applications, such as building compliance checking, and indoor scene understanding. Despite their importance, publicly available datasets specifically designed for fine-grained multi-class door detection remain scarce. In this work, we present a semi-automated pipeline that leverages a state-of-the-art object detector and a large language model (LLM) to construct a multi-class door detect...

ID: 2508.07714v1 cs.CV, cs.AI, cs.ET

arXiv PDF

📄 UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models

2025-08-13

Авторы:

Jinke Li, Jiarui Yu, Chenxing Wei, Hande Dong, Qiang Lin, Liangjing Yang, Zhicai Wang, Yanbin Hao

## Контекст В последние годы становится все более актуальным вопрос об исследовании алгоритмов управления и контроля системных функций в различных областях жизнедеятельности человека. Отрасли, такие как информатика, техническая механика, городское строительство, энергетика, инфраструктура транспорта, нефтегазопромысловая отрасль, медицина и другие, крайне ужесточили требования к качеству управления сложными системами, требуя эффективных и надежных методов. На сегодняшний день существует многочисленные методики, которые применяются в конкретных ситуациях для решения поставленных задач. Однако необходимость в развитии общей, подходящей для кросс-индустриального применения подхода становится все более очевидной. Учитывая этот факт, в статье описывается создание методики, которая объединяет знания от разных областей и позволяет обеспечивать устойчивый, эффективный контроль сложных систем в различных сферах. ## Метод Методология разработки решения основывается на создании универсальной модели, которая имеет возможность охватить различные ситуации и типы задач. Использование техник глубокого обучения, включая сверточные нейронные сети, градиентные бустинговые методы, методы рекуррентных нейронных сетей, нейросетевые архитектуры с использованием автокодировщиков и другие, позволяет эффективно обрабатывать и анализировать данные разного уровня сложности. Модель предусматривает не только выявление шаблонов, но и прогностический анализ, адаптивный контроль и реакцию на изменения в системе. Архитектура решения представляет собой комбинацию слоев, отвечающих за различные аспекты обработки и генерации решений. Эта архитектура построена на основе широко известных оптимизационных алгоритмов и технологий, которые имеют успешный опыт применения в развитии управляющих систем. ## Результаты В ходе экспериментов были применены различные модели к тестовым данным, полученным из различных источников. Оптимальные результаты были получены при использовании модели, которая объединяет многоуровневый анализ данных с подключенной мощностью методов рекуррентных нейронных сетей. Такая модель, используя основные методы глубокого обучения, показала себя эффективнее, чем отдельные модели, применяемые по отдельности. Анализ показал, что используемая модель значительно повышает точность прогноза и эффективность решения в ситуациях с большим количеством данных и неоднозначностью. Были получены результаты, подтверждающие высокую устойчивость модели к разным форму инцидентов и условиям работы системы. ## Значимость

Annotation:

Unlike bitmap images, scalable vector graphics (SVG) maintain quality when scaled, frequently employed in computer vision and artistic design in the representation of SVG code. In this era of proliferating AI-powered systems, enabling AI to understand and generate SVG has become increasingly urgent. However, AI-driven SVG understanding and generation (U&G) remain significant challenges. SVG code, equivalent to a set of curves and lines controlled by floating-point parameters, demands high precis...

ID: 2508.07766v1 cs.CV, cs.AI

arXiv PDF

1
2
214
215
216
217
218
227
228

Показано 2151 - 2160 из 2274 записей