📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Detection of trade in products derived from threatened species using machine learning and a smartphone

2025-09-10

Авторы:

Ritwik Kulkarni, WU Hanqin, Enrico Di Minin

## Контекст Торговля продуктами животных, находящихся под угрозой вымирания, представляет серьезную угрозу биодIVERSITY. Данная проблема в последние годы существенно усилилась благодаря распространению торговли в цифровых маркетплейсах и соцсетях. Наличие огромного количества цифровых материалов создает необходимость в автоматизированных методах для обнаружения торговых предложений в терминах запрещенных видов. В частности, активно искажаются рынки для продажи продуктов, таких как стопка, ледник, клыки и кожи. Ранее использовались ручные методы, но они оказались неэффективными в больших объемах данных. Наша цель заключилась в разработке инструментов, которые могут автоматически идентифицировать такие продукты с помощью машинного обучения и приложения для смартфона. ## Метод Мы разработали модели машинного обучения на основе обнаружения объектов для идентификации продуктов животных в изображениях. Исходные данные включали изображения продуктов стопка, ледник и тигр, которые были зафиксированы в процессе незаконной торговли или конфискации. Модели были обучены с использованием различных стратегий обучения и двух разных функций потерь, чтобы определить оптимальную конфигурацию. Мы разработали отдельные модели для каждого вида животных и одну универсальную модель для всех трех видов. Также мы разработали приложение для смартфонов, позволяющее пользователям принимать фотографии и получать моментальный ответ о том, содержится ли в изображении продукт запрещенного вида. ## Результаты Наилучшая модель показала общую точность 84.2%, с точностью 71.1% для обнаружения продуктов стопка, 90.2% для ледника и 93.5% для тигра. Приложение для смартфонов показало общую точность 91.3%. Это демонстрирует его эффективность в реальном времени для идентификации продуктов, зарегистрированных в трех видах животных. Модель не только может использоваться для мониторинга торговли в цифровых маркетплейсах, но и для оповещения в физических рынках. ## Значимость Предложенный подход имеет широкие области применения. Он может быть применен для мониторинга торговли в цифровых и физических рынках, помогая государственным органам, силовым структурам и организациям по защите природы в борьбе против контрабанды. Значительное преимущество заключается в том, что модель может быть легко доступна с помощью смартфонов, что обеспечивает быстрый и надежный способ проверки товаров на месте. Это может существенно повысить эффективность мер, направленных на подавление незаконной торговли животными. ## Выводы Мы разработали модели машинного обучения, позво

Annotation:

Unsustainable trade in wildlife is a major threat to biodiversity and is now increasingly prevalent in digital marketplaces and social media. With the sheer volume of digital content, the need for automated methods to detect wildlife trade listings is growing. These methods are especially needed for the automatic identification of wildlife products, such as ivory. We developed machine learning-based object recognition models that can identify wildlife products within images and highlight them. T...

ID: 2509.06585v1 cs.CV, cs.LG

arXiv PDF

📄 UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

2025-09-10

Авторы:

Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He

## Контекст Современные технологии обработки изображений широко применяются в различных областях, включая коммерческий сегмент, образовательные процессы и искусство. Одной из наиболее выразительных задач в этой области является обеспечение согласованности идентичности при работе с многочисленными идентичностями на изображениях. Несмотря на развитие многочисленных методов, одной из основных проблем остается улучшение качества результатов при работе с несколькими идентичностями, чтобы избежать конфузии идентичности при обработке изображений с несколькими справочными изображениями. Таким образом, необходимо создать более эффективные алгоритмы и методы для решения этой проблемы, чтобы повысить точность и качество работы с изображениями в различных сценариях применения. ## Метод Для решения данной проблемы предлагается UMO (Unified Multi-identity Optimization) – фреймворк, основанный на методологии "multi-to-multi matching". Он преобразует задачу многоидентичности в проблему глобальной оптимизации и использует методы управляемого распространения с помощью шума (diffusion models) для повышения качества идентичности. Данный подход позволяет улучшить консистентность идентичности и уменьшить конфузию идентичности с помощью повышения уровня согласованности между различными идентичностями. Метод использует реальные и синтетические данные, а также внедряет новую метрику для измерения уровня конфузии идентичности. Это позволяет обеспечить более точный и эффективный подход к задаче. ## Результаты Использовав данный подход, были проведены эксперименты, в которых было доказано, что UMO значительно улучшает консистентность идентичности и уменьшает уровень конфузии идентичности в сравнении с другими методами. Было использовано новое датасет, содержащее объединенные реальные и синтетические изображения, чтобы улучшить результаты. Таким образом, UMO демонстрирует значительное улучшение в области идентичности и стабильности, становясь новым стандартом в области многоидентичных технологий. ## Значимость UMO применяется в различных сферах, включая генерацию изображений, рекламу, образовательные цели и многое другое. Он показывает высокую степень точности и надежности при решении задач многоидентичности, что позволяет вносить значительный вклад в развитие технологий, связанных с корректным восприятием идентичности на изображениях. Это может повлиять на развитие графического дизайна, рекламы и интерактивных приложений. ## Выводы UMO представляет собой прорыв в области многоидентичности, обеспечивая значительное улучшение качества работы с изображениями. На основе данных исследований, рекомендуется продолжать исследования в этом нап

Annotation:

Recent advancements in image customization exhibit a wide range of application prospects due to stronger customization capabilities. However, since we humans are more sensitive to faces, a significant challenge remains in preserving consistent identity while avoiding identity confusion with multi-reference images, limiting the identity scalability of customization models. To address this, we present UMO, a Unified Multi-identity Optimization framework, designed to maintain high-fidelity identity...

ID: 2509.06818v1 cs.CV, cs.LG

arXiv PDF

📄 Video-Based MPAA Rating Prediction: An Attention-Driven Hybrid Architecture Using Contrastive Learning

2025-09-10

Авторы:

Dipta Neogi, Nourash Azmine Chowdhury, Muhammad Rafsan Kabir, Mohammad Ashrafuzzaman Khan

## Контекст В последние годы видеоконтент стал важной частью жизни многих людей. Но с ростом количества видео, особенно на платформах потокового видео, возникают проблемы с классификацией видео по возрастным категориям (таким, как G, PG, PG-13, R). Традиционные методы требуют большого количества тщательно отмеченных данных, что делает их неэффективными и непоследовательными. Это приводит к нежелательной оценке контента и к неверным оценкам возрастной совместимости. Наша мотивация заключается в разработке метода, который может эффективно и точно классифицировать видео по возрастным категориям, обеспечивая надежную и эффективную автоматизацию. ## Метод Мы предлагаем гибридную архитектуру, которая объединяет в себе сверточные нейронные сети (CNN), рекуррентные нейронные сети (LSTM) и аттенционные механизмы. CNN используется для извлечения специальных сигналов из кадров видео, LSTM помогают моделировать последовательность различных кадров, а аттенционная меchanica акцентирует внимание на ключевых фреймах. Мы также экспериментировали с разными подходами контрастного обучения, включая Instance Discrimination, Contextual Contrastive Learning и Multi-View Contrastive Learning. Это позволило нам улучшить дискриминацию и обеспечить более точную классификацию, особенно для граничных случаев, таких как различия между PG-13 и R-рейтингами. ## Результаты Мы проверили нашу модель на стандартных данных и сравнили ее с другими методами. Наша модель показала лучший результат в фреймворке Contextual Contrastive Learning, достигнув 88% точности и 0.8815 F1-меры. Это позволило ей обнаруживать тонкие различия, такие как между PG-13 и R-рейтингами. Мы также проверили модель с разными функциями потерь контрастного обучения, чтобы продемонстрировать её высокую устойчивость и надежность. ## Значимость Наша модель может быть применена для автоматического ранжирования видео по возрастным категориям для платформ потокового видео. Она эффективно решает проблему необходимости в ручной маркировке больших объемов данных. Это также может помочь в соответствии с законами и регулированием во всем мире. Кроме того, поскольку мы развернули модель в виде веб-приложения, она может использоваться в реальном времени для автоматической классификации видео по MPAA-рейтингу. ## Выводы Мы разработали метод, который эффективно решает проблемы классификации видео по возрастным категориям, основанный на контрастном обучении и гибридной архитектуре. Наша модель решает важные проблемы с эффективностью и точностью в классификации. Мы планируем продолжить развитие этого подхода, исследу

Annotation:

The rapid growth of visual content consumption across platforms necessitates automated video classification for age-suitability standards like the MPAA rating system (G, PG, PG-13, R). Traditional methods struggle with large labeled data requirements, poor generalization, and inefficient feature learning. To address these challenges, we employ contrastive learning for improved discrimination and adaptability, exploring three frameworks: Instance Discrimination, Contextual Contrastive Learning, a...

ID: 2509.06826v1 cs.CV, cs.LG

arXiv PDF

📄 Curia: A Multi-Modal Foundation Model for Radiology

2025-09-10

Авторы:

Corentin Dancette, Julien Khlaut, Antoine Saporta, Helene Philippe, Elodie Ferreres, Baptiste Callard, Théo Danielou, Léo Alberge, Léo Machado, Daniel Tordjman, Julie Dupuis, Korentin Le Floch, Jean Du Terrail, Mariam Moshiri, Laurent Dercle, Tom Boeken, Jules Gregory, Maxime Ronot, François Legou, Pascal Roux, Marc Sapoval, Pierre Manceron, Paul Hérent

## Контекст Ассистированное исследование интерпретации радиологических изображений через ИИ становится все более распространенным, однако действующие подходы ограничиваются тесно специализированными моделями, распространенными только на определенные модальности и задачи. Эта жесткая структура ограничивает модели в объеме и глубине обучения, делая их менее эффективными в сложных средах с разнообразными задачами и недостатком данных. Базовые модели (Foundation Models, FM), предлагающие расширенную общность и универсальность, пока не были полностью реализованы в радиологии. Мы предлагаем Curia, модель, обученную на большом объеме реальных данных — 150 тысяч радиологических исследований (130 терабайт), сборенных за несколько лет в крупном медицинском центре. Curia может распознавать органы, диагностировать серьезные заболевания, такие как головные травмы и инфаркты, и даже предсказывать их интенсивность. Мы проверили Curia на 19-задачной внешней базе данных, и она показала не только высокую точность, но и уникальные способности к кросс-модальности и обучению в условиях недостатка данных. ## Метод Curia является моделью с трансформером, обученной на огромном датасете, состоящем из разнообразных радиологических изображений, включая ТЭЭГИ, МРТ и ЭКТ. Архитектура Curia основывается на многомодальной обработке входных данных и использует сложный механизм взаимодействия между модальностями для глубокого понимания изображений. Мы применяли подходы, позволяющие модели адаптироваться к различным задачам с минимальным количеством тренировочных данных. Методы включали в себя многоуровневые слои рекуррентных нейронных сетей для понимания контекста изображений и обучение с подкреплением для оптимизации поведения в различных сценариях. ## Результаты Мы проверили Curia в 19 задачах на новой внешней базе данных. Модель показала высокую точность в распознавании органов, диагностировании заболеваний (например, головных травм и инфарктов) и предсказании результатов лечения болезней. Например, Curia лучше, чем не только современные модели, но и роботов-радиологов. Она превзошла радиологов в задачах, требующих не только точности, но и кросс-модальностного понимания. Наши эксперименты показали, что Curia может быть применена в условиях недостатка данных, что делает ее привлекательной для медицинских учреждений с ограниченным доступом к обучающим исходным данным. ## Значимость Предлагаемая модель может быть применена в различных областях радиологии, включая диагностику, мониторинг и лечение различных заболеваний. Одним из основных преимущест

Annotation:

AI-assisted radiological interpretation is based on predominantly narrow, single-task models. This approach is impractical for covering the vast spectrum of imaging modalities, diseases, and radiological findings. Foundation models (FMs) hold the promise of broad generalization across modalities and in low-data settings. However, this potential has remained largely unrealized in radiology. We introduce Curia, a foundation model trained on the entire cross-sectional imaging output of a major hosp...

ID: 2509.06830v1 cs.CV, cs.LG

arXiv PDF

📄 ToonOut: Fine-tuned Background-Removal for Anime Characters

2025-09-10

Авторы:

Matteo Muratori, Joël Seytre

## Контекст Цель исследования — улучшить модели фонового сегментирования для рисунков в стиле аниме. Основная проблема заключается в том, что современные методы фонового сегментирования, хотя они эффективны для реальных изображений, часто сталкиваются с трудностями при обработке аниме-стиля. Это обусловлено сложностью восприятия таких элементов как комплексные прически, прозрачность и утонченные детали. Эти особенности требуют более точной адаптации моделей для эффективного фонового сегментирования в этой специфической области. Этот аспект определяет мотивацию для разработки и адаптации моделей, которые могут обеспечить более высокую точность и релевантность в этом контексте. ## Метод Для достижения целей была создана пользовательская аннотированная база данных, содержащая 1228 качественных изображений аниме-стиля с подробными метками. Модель BiRefNet была изначально основана на открытом исходном коде и последующей файн-тюнингом на основе созданной настраиваемой базы данных. Технический подход заключался в использовании адаптированных архитектур сети для улучшения точности распознавания изображений, а также в интеграции методов, оптимизированных для улучшения понимания комплексных аниме-стилевых элементов, таких как прозрачные области и транспарентные прически. ## Результаты Эксперименты показали значительные улучшения в точности фонового сегментирования. Использование обученной модели BiRefNet привело к увеличению Pixel Accuracy с 95.3% до 99.5% для изображений в стиле аниме. Эти результаты демонстрируют значительное повышение точности в сравнении с исходной моделью. Данные результаты были получены с помощью внедрения различных методов оптимизации, включая улучшенные методы сжатия данных и повышения чувствительности к деталям в сложностных областях изображений. ## Значимость Полученный подход имеет широкое применение в области анимации, синтеза изображений и видео-анализа в аниме-стиле. Модель BiRefNet, после тонкой настройки, может быть использована для плавного фонового сегментирования в аниме-интерфейсах, видеоредактировании и даже в синтезе новых изображений. Это улучшение возможностей модели может иметь потенциал для упрощения процессов в коммерческой индустрии, включая графический дизайн, анимацию и творческие проекты. ## Выводы Адаптированная модель BiRefNet достигла высокой точности в фоновом сегментировании изображений в стиле аниме. Это решение открывает новые возможности в использовании изображений стиля аниме в коммерческих и творческих приложениях. На будущее, модель может быть улучшена еще дальше с помощь

Annotation:

While state-of-the-art background removal models excel at realistic imagery, they frequently underperform in specialized domains such as anime-style content, where complex features like hair and transparency present unique challenges. To address this limitation, we collected and annotated a custom dataset of 1,228 high-quality anime images of characters and objects, and fine-tuned the open-sourced BiRefNet model on this dataset. This resulted in marked improvements in background removal accuracy...

ID: 2509.06839v1 cs.CV, cs.LG

arXiv PDF

📄 Signal-Based Malware Classification Using 1D CNNs

2025-09-10

Авторы:

Jack Wilkie, Hanan Hindy, Ivan Andonovic, Christos Tachtatzis, Robert Atkinson

## Контекст Modern malware detection faces significant challenges due to the use of advanced obfuscation techniques, which can bypass traditional static analysis methods. Dynamic analysis, while effective, is resource-intensive and impractical for large-scale deployment. To address these issues, existing research transforms malware binaries into 2D images by reshaping their data into a grid format and resizing it using Lanczos resampling. These images are then analyzed using computer vision techniques, enabling detection of obfuscated malware more effectively than static analysis. However, this approach introduces significant information loss due to quantization noise and the artificial introduction of 2D dependencies, which do not exist in the original binary data. This limitation reduces the classification performance of downstream models. This study proposes a novel approach that converts malware binaries into 1D signals, eliminating the need for heuristic reshaping and avoiding quantization noise by storing data in a floating-point format. ## Метод The proposed methodology focuses on converting malware binaries into 1D signals, leveraging their inherent structure and minimizing information loss. Unlike traditional 2D image-based approaches, this method preserves the original signal's integrity by avoiding heuristic reshaping and quantization noise. The signals are processed using a bespoke 1D convolutional neural network (1D CNN) based on the ResNet architecture. The network incorporates squeeze-and-excitation layers to enhance feature representation and classification accuracy. The model was evaluated on the MalNet dataset, a comprehensive dataset for malware classification, to assess its performance across binary, type, and family-level classification tasks. This approach represents a significant departure from conventional methods, offering improved classification accuracy and robustness. ## Результаты The experiments demonstrated the efficacy of the 1D signal-based approach in malware classification. The bespoke 1D CNN achieved state-of-the-art performance on the MalNet dataset, with F1 scores of 0.874 for binary classification, 0.503 for type-level classification, and 0.507 for family-level classification. These results outperform existing 2D CNN models when applied to the same dataset, highlighting the superiority of the proposed signal-based methodology. The floating-point representation of signals eliminates quantization noise, ensuring that the models receive more accurate and complete data for analysis. This improvement in signal fidelity directly translates to better classification performance, paving the way for more effective malware detection systems. ## Значимость The proposed 1D signal-based approach offers several advantages over traditional 2D image-based methods. By avoiding heuristic reshaping and quantization noise, it preserves the integrity of the original malware data, leading to more accurate classification. The method is computationally efficient, making it suitable for large-scale deployment in real-world cybersecurity systems. Its applications extend beyond malware classification, as the signal-based modality can be applied to other domains requiring robust signal processing. The potential impact of this work includes enhanced malware detection capabilities, improved system security, and reduced resource consumption in large-scale deployment scenarios. ## Выводы The study demonstrates the effectiveness of converting malware binaries into 1D signals for classification using 1D CNNs. The bespoke 1D CNN architecture, based on ResNet and squeeze-and-excitation layers, achieves state-of-the-art performance on the MalNet dataset, outperforming existing 2D CNN models. This approach eliminates the limitations of traditional 2D image-based methods, offering superior classification accuracy and robustness. Future research directions include exploring advanced signal processing techniques to further enhance signal fidelity and investigating the applicability of the proposed methodology to other cybersecurity and signal processing tasks.

Annotation:

Malware classification is a contemporary and ongoing challenge in cyber-security: modern obfuscation techniques are able to evade traditional static analysis, while dynamic analysis is too resource intensive to be deployed at a large scale. One prominent line of research addresses these limitations by converting malware binaries into 2D images by heuristically reshaping them into a 2D grid before resizing using Lanczos resampling. These images can then be classified based on their textural infor...

ID: 2509.06548v1 cs.CR, cs.AI, cs.CV, cs.LG, I.2.6; K.6.5

arXiv PDF

📄 Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments

2025-09-10

Авторы:

Jiahui Yang, Jason Jingzhou Liu, Yulong Li, Youssef Khaky, Kenneth Shaw, Deepak Pathak

## Контекст Роботизированные манипуляторы, работающие в динамических и частично обозреваемых окружениях, широко применяются в промышленности, науке и быту. Однако создание эффективных систем планирования движений, которые могут реагировать на непредсказуемые изменения окружения, остается сложной задачей. Традиционные методы, такие как классические планиры, требуют полного знания окружения и часто оказываются медленными в динамичных сценариях. Зато новые технологии, основанные на нейронных сетях, могут оперировать непосредственно с данными из сенсоров, обеспечивая более реагирующие и реальности приближенные движения. Однако их универсальность и результаты в трудных сценариях часто остаются недостаточными. Наша мотивация заключается в разработке метода, который объединит точность классических методов с гибкостью и реактивностью новых моделей. ## Метод Мы предлагаем **Deep Reactive Policy (DRP)**, новую нейронную модель планирования движений, основанную на преобразователях (transformer). Для обучения DRP использовались 10 миллионов экспертных траекторий, созданных в симуляционных сценариях с различными условиями. Основной частью DRP является IMPACT — компонент, реализующий motion policy на основе преобразователей. Для повышения качества использовалась итеративная техника teacher-student fine-tuning, что позволило улучшить отклик при предотвращении столкновений с статическими препятствиями. Для реагирования на динамические препятствия во время выполнения использовался DCP-RMP — модуль, рассчитывающий цель движения в реальном времени с учетом взаимодействия с движущимися объектами. Эта модель позволяет DRP реагировать на ситуации в реальном времени и поддерживать высокую стабильность. ## Результаты Мы проверили DRP на серии задач, включающих кластерные сцены, движущиеся препятствия и затруднения в достижении целей. Результаты показали, что DRP достигает высокой успешности в решении этих задач по сравнению с классическими методами и другими моделями на основе нейронных сетей. Особенно выдающимися результатами DRP проявился в ситуациях с частичной наблюдаемостью и большим количеством динамических объектов. Мы также проверяли DRP на реальных роботах, и он показал стабильность и высокую скорость реакции. Данные результаты доступны на сайте проекта: https://deep-reactive-policy.com. ## Значимость DRP может быть применен в различных областях, где требуется высокая реактивность и точность движений в динамических окружениях. Например, в производстве, в сфере домохозяйств или в здравоохранении. Он обладает преимуществами по сравнению с классическими методами, такими как

Annotation:

Generating collision-free motion in dynamic, partially observable environments is a fundamental challenge for robotic manipulators. Classical motion planners can compute globally optimal trajectories but require full environment knowledge and are typically too slow for dynamic scenes. Neural motion policies offer a promising alternative by operating in closed-loop directly on raw sensory inputs but often struggle to generalize in complex or dynamic settings. We propose Deep Reactive Policy (DRP)...

ID: 2509.06953v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Inferring the Graph Structure of Images for Graph Neural Networks

2025-09-09

Авторы:

Mayur S Gowda, John Shi, Augusto Santos, José M. F. Moura

#### Контекст Графовые нейронные сети (GNN) представляют собой мощный инструмент для обработки и анализа графовых данных. Одним из ключевых приложений GNN является классификация изображений, где изображения представляются в виде графов. Обычно изображения преобразуются в графы, где узлы соответствуют пикселям, а ребра — связям между соседними пикселями по вертикали и горизонтали. Несмотря на эффективность такого представления, оно может не совсем отражать структурные отношения в изображении. Это приводит к потере информации и уменьшению точности GNN в классификации. В данной работе рассматривается поиск альтернативных структур графов для представления изображений, чтобы улучшить точность GNN в задачах классификации. #### Метод Мы предлагаем новую методологию для построения графов, которая использует корреляционные отношения между пикселями в изображении. Для каждого изображения из датасета MNIST и Fashion-MNIST проводится расчет корреляции по строкам, столбцам и произведению этих корреляций. Это позволяет построить альтернативные графы, где узлы соответствуют пикселям, а ребра — связями, отражающими корреляционные отношения. Эти графы представляются в виде входных данных для GNN. Мы также сравниваем результаты с классическим подходом, где изображения представляются в виде грид-графов или методами суперпикселей. #### Результаты Использование альтернативных графов, построенных на основе корреляционных отношений, позволило улучшить точность классификации GNN в задачах, основанных на MNIST и Fashion-MNIST. Эксперименты показали, что графы, построенные на основе продуктных корреляций, дают наибольшую дополнительную информацию и приводят к повышению точности классификации по сравнению с традиционными методами. Эти результаты указывают на важность использования более точных представлений графов для улучшения GNN. #### Значимость Наш подход может быть применен в различных областях, где изображения представляются в виде графов, таких как анализ изображений в медицине, автомобилестроении и робототехнике. Альтернативные представления графов обеспечивают более точное отражение структурных отношений в изображении, что приводит к улучшению точности классификации и общей эффективности GNN. Это делает нашу работу важной для развития графовых методов в обработке изображений. #### Выводы Мы установили, что альтернативные графовые представления, основанные на корреляционных отношениях, могут значительно повысить эффективность GNN в задачах классификации изображений. Будущие исследования будут сконцентрированы на расширении этого под

Annotation:

Image datasets such as MNIST are a key benchmark for testing Graph Neural Network (GNN) architectures. The images are traditionally represented as a grid graph with each node representing a pixel and edges connecting neighboring pixels (vertically and horizontally). The graph signal is the values (intensities) of each pixel in the image. The graphs are commonly used as input to graph neural networks (e.g., Graph Convolutional Neural Networks (Graph CNNs) [1, 2], Graph Attention Networks (GAT) [3...

ID: 2509.04677v1 eess.IV, cs.CV, cs.LG, eess.SP

arXiv PDF

📄 Extracting Uncertainty Estimates from Mixtures of Experts for Semantic Segmentation

2025-09-09

Авторы:

Svetlana Pavlitska, Beyza Keskin, Alwin Faßbender, Christian Hubschneider, J. Marius Zöllner

#### Контекст Оценка неопределенности принятия решений является важной задачей для повышения надежности компьютерных визуальных моделей, особенно в безопасных приложениях, таких как сценарная ориентированность водителя. Объединение нескольких моделей в один компонент позволяет эффективно оценивать неопределенность, но зачастую требует сложных архитектур. Модель "множество экспертов" (MoE) предлагает эффективный вариант этой задачи, используя динамическую взвешивание предсказаний экспертов гейтинговой сетью. В нашем предыдущих работах, мы демонстрировали успех MoE в семантической сегментации. В данной работе, мы показываем, что MoE может генерировать надежные оценки неопределенности без изменений в своей архитектуре, используя три подхода: энтропия предсказаний, мультипликативная информация и вариация экспертов. #### Метод Для извлечения оценок неопределенности из модели MoE мы используем три подхода. Энтропия предсказаний измеряет неопределенность на основе распределения классов. Мультипликативная информация оценивает неопределенность, связанную с взаимосвязью экспертов. Вариация экспертов измеряет разброс возможных предсказаний экспертов. Мы тренируем MoE с двумя экспертами на подмножестве A2D2, отсортированном семантически. Для оценки калибровки неопределенности мы используем метрики, оценивающие корректность предсказаний в условиях выхода за допустимые данные (OOD). Также, мы исследуем роутинг неопределенность, полученную с помощью слоя гатева, и проверяем ее калибровку в зависимости от количества экспертов. #### Результаты Наши эксперименты показывают, что MoE предоставляют более надежные оценки неопределенности по сравнению с обычными ensemble-моделями в условиях OOD в соответствии с метриками подтверждения условий. Мультипликативная информация демонстрирует наиболее высокую точность, а энтропия предсказаний дает наилучшие результаты в терминах мультиклассовой оценки неопределенности. Мы также обнаружили, что слой гатева с простой структурой дает более калиброванные оценки неопределенности, чем более сложные гатевы, ориентированные на классы. На Cityscapes, увеличение количества экспертов также позволяет улучшить калибровку неопределенности. #### Значимость Модели MoE могут иметь широкое применение в повышении надежности водительских систем, а также в других безопасных приложениях, где оценка неопределенности играет ключевую роль. Мы демонстрируем, что MoE могут эффективно извлекать неопределенность, обеспечивая более надежную калибровку. Это может спосо

Annotation:

Estimating accurate and well-calibrated predictive uncertainty is important for enhancing the reliability of computer vision models, especially in safety-critical applications like traffic scene perception. While ensemble methods are commonly used to quantify uncertainty by combining multiple models, a mixture of experts (MoE) offers an efficient alternative by leveraging a gating network to dynamically weight expert predictions based on the input. Building on the promising use of MoEs for seman...

ID: 2509.04816v1 cs.CV, cs.LG

arXiv PDF

📄 SynGen-Vision: Synthetic Data Generation for training industrial vision models

2025-09-09

Авторы:

Alpana Dubey, Suma Mani Kuriakose, Nitish Bhardwaj

## Контекст Область исследования — синтетическое генерирование данных для обучения моделей компьютерного зрения (CV), специфичных для промышленных задач. Одна из таких задач — обнаружение износа и повреждений при помощи CV-моделей, которая критична для проведения прогностического обслуживания в различных отраслях. Однако данные для обучения таких моделей являются дорогостоящими и сложны в подготовке из-за нехватки широкой выборки изображений, охватывающих различные сценарии износа и повреждений. Готовые данные для этих задач нередко отсутствуют, что приводит к затрудненному обучению моделей и ограниченной их общедоступной эффективности. Мотивация заключается в создании метода, который позволит генерировать синтетические данные для обучения моделей обнаружения износа и повреждений, оптимально адаптированных для промышленных сценариев. ## Метод Проposed approach включает в себя использование vision language model (VLM) в сочетании с 3D-симулятором и рендеринговым движком для генерирования синтетических данных. Модель VLM используется для генерирования текстовых описаний износа и повреждений, которые затем передаются в 3D-симулятор для создания реалистичных синтетических изображений. Модель рендеринга создает изображения с различными уровнями износа (например, различные стадии ржавчины), которые затем могут использоваться для обучения CV-моделей. Эта процедура позволяет создавать пользовательскими настройками синтетические данные, учитывающие различные промышленные сценарии. Техническая архитектура включает в себя несколько модулей: VLM для понимания текстовых описаний, 3D-симулятор для моделирования износа и повреждений, и рендеринговый движок для генерации изображений. ## Результаты Для оценки эффективности approach была проведена серия экспериментов. Была создана выборка синтетических данных с различными уровнями ржавчины, используя VLM и 3D-симулятор. Эти данные были использованы для обучения модели CV, нацеленной на обнаружение ржавчины. Оценка производительности производилась с помощью метрики mAP50 (mean Average Precision with IoU 50%) на реальных изображениях промышленных объектов, покрытых ржавчиной. Результаты показали, что модель, обученная синтетическими данными, достигла максимального mAP50 0.87, что превышает результаты других подходов. Это свидетельствует о том, что синтетические данные, генерируемые нашей системой, не только выполняются эффективно на реальных задачах, но и превосходят другие методы по обучению моделей компьютерного зрения для такого класса задач. ## Значимость Проposed approach имеет значительное значение для индустрии, так как он может

Annotation:

We propose an approach to generate synthetic data to train computer vision (CV) models for industrial wear and tear detection. Wear and tear detection is an important CV problem for predictive maintenance tasks in any industry. However, data curation for training such models is expensive and time-consuming due to the unavailability of datasets for different wear and tear scenarios. Our approach employs a vision language model along with a 3D simulation and rendering engine to generate synthetic ...

ID: 2509.04894v1 cs.CV, cs.LG, I.4

arXiv PDF

1
2
62
63
64
65
66
83
84

Показано 631 - 640 из 835 записей