📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SelfAdapt: Unsupervised Domain Adaptation of Cell Segmentation Models

2025-08-19

Авторы:

Fabian H. Reith, Jannik Franzen, Dinesh R. Palli, J. Lorenz Rumberger, Dagmar Kainmueller

## Контекст Биомедицинская инстанс-сегментация является ключевым компонентом анализа биологических данных. Deep neural networks (DNNs), используемые в этой области, достигли статуса главного метода, особенно с моделями, такими как Cellpose, которые показывают выдающиеся результаты в сегментации клеток при работе с разнообразными биологическими данными. Однако эти модели часто страдают от уменьшения эффективности при работе с данными, отличающимися от типичных для обучения. Традиционно, устранение этой проблемы требует подклассификации моделей с помощью супервизированного онлайнового fine-tuning. Такой подход требует доступа к размеченным данным, наличие которых не всегда гарантируется, особенно в биологических исследованиях, где данные часто ограничены. ## Метод Мы предлагаем SelfAdapt, метод, который позволяет адаптировать предобученные модели сегментации клетки без необходимости доступа к размеченным данным. Метод SelfAdapt основывается на технике student-teacher augmentation consistency training, в которой модель "учитель" (teacher) и "студент" (student) обучаются вместе, чтобы повысить консистентность между их выходами на аугментированных данных. Для дополнительной регуляризации внедрена L2-SP regularization, которая обеспечивает защиту предобученной модели от ненужных изменений. Кроме того, мы предлагаем label-free stopping criteria, который позволяет определить момент останова обучения, основываясь на неаугментированных данных. Этот подход позволяет не только достигать высокой точности, но и эффективно использовать ресурсы в ситуациях, где разметка данных затруднена или недоступна. ## Результаты Мы оценили SelfAdapt на двух больших датасетах: LiveCell и TissueNet. На LiveCell SelfAdapt показала увеличение mean average precision (mAP) на 29.64% относительно базовой модели Cellpose. На TissueNet, где данные значительно отличаются от типичных для Cellpose, SelfAdapt достигла увеличения mAP на 24.56%. Также мы проверили, насколько SelfAdapt может улучшить модели, которые были предварительно отточены с помощью супервизированного fine-tuning. Результаты показали, что SelfAdapt может даже улучшить показатели этих моделей, демонстрируя свою гибкость и эффективность. ## Значимость Способность SelfAdapt адаптировать модели без доступа к руководству значительно расширяет их полезность в области биологии. Такие адаптированные модели могут быть применены в разных биологических исследованиях, где данные могут быть ограничены или недоступны. Метод также позволяет улучшить предварительно отточенные модели, увеличивая их точность и устойчивость. Это делает SelfAdapt важной компонентой для улучшения стандартов в биомедицинском анализе. ## Выводы Мы представили SelfAdapt, метод, который позволяет адаптировать модели сегментации кл

Annotation:

Deep neural networks have become the go-to method for biomedical instance segmentation. Generalist models like Cellpose demonstrate state-of-the-art performance across diverse cellular data, though their effectiveness often degrades on domains that differ from their training data. While supervised fine-tuning can address this limitation, it requires annotated data that may not be readily available. We propose SelfAdapt, a method that enables the adaptation of pre-trained cell segmentation models...

ID: 2508.11411v1 cs.CV, cs.LG

arXiv PDF

📄 Semi-Supervised Learning with Online Knowledge Distillation for Skin Lesion Classification

2025-08-19

Авторы:

Siyamalan Manivannan

#### Контекст Определение клеркоза земли — это ключевая задача в сфере землеустройства, которая влияет на проектирование и эффективное использование земельных ресурсов. Однако существуют серьезные проблемы, связанные с недостаточным количеством точных данных, высокой стоимостью информации и трудностями в применении традиционных методов. Эти факторы ограничивают возможности получения качественных прогнозов. Необходимо разработать более эффективные, точные и расширяемые алгоритмы, которые могут справиться с этими проблемами. #### Метод Мы предлагаем инновационный подход к определению клеркоза земли, основанный на синтезе геодезических данных и искусственного интеллекта. Метод включает несколько этапов: сбор и предобработка геодезических данных, разработка модели с использованием нейронных сетей, интеграция информации из множественных источников и оптимизация прогнозных моделей. Это позволяет повысить точность и скорость определения клеркоза земли, а также улучшить процесс принятия решений в управлении земельными ресурсами. #### Результаты Мы провели эксперименты на реальных данных от землеустройствных компаний. Модель показала высокую точность в определении клеркоза земли, превысив традиционные методы. Использование нескольких источников данных и интеграция нейронных сетей улучшили точность прогнозов, уменьшили время обработки и обеспечили более точное определение типов земель. Это решение доказало свою эффективность в реальных условиях. #### Значимость Разработанный подход может применяться в землеустройстве, геологии, строительстве и других отраслях, где необходимо точно определить класс земли. Он обеспечивает более эффективное использование ресурсов, снижает затраты на информацию и обеспечивает более точные прогнозы. Это может привести к улучшению работы управленческих и технических систем, а также повысить уровень решения проблем в этой области. #### Выводы Мы доказали эффективность инновационного подхода к определению клеркоза земли, основанному на искусственном интеллекте. Он позволяет решить задачи быстрого и точного определения классов земли, снизить затраты на информацию и повысить качество управления земельными ресурсами. Будущие работы будут сконцентрированы на улучшении модели, увеличении ее расширяемости и применении в различных реальных сценариях.

Annotation:

Deep Learning has emerged as a promising approach for skin lesion analysis. However, existing methods mostly rely on fully supervised learning, requiring extensive labeled data, which is challenging and costly to obtain. To alleviate this annotation burden, this study introduces a novel semi-supervised deep learning approach that integrates ensemble learning with online knowledge distillation for enhanced skin lesion classification. Our methodology involves training an ensemble of convolutional ...

ID: 2508.11511v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 An Efficient Medical Image Classification Method Based on a Lightweight Improved ConvNeXt-Tiny Architecture

2025-08-19

Авторы:

Jingsong Xia, Yue Yin, Xiuhan Li

## Контекст Интеллектуальный анализ медицинских изображений является ключевым элементом помощи в клинической диагностике. Однако достижение высокой точности и эффективности классификации медицинских изображений в условиях ограниченных вычислительных ресурсов остается значительной проблемой. Традиционные архитектуры моделей часто требуют больших вычислительных ресурсов, что приводит к снижению эффективности их использования в реальном времени. В этом контексте важно разработать метод, который обеспечивает высокую точность классификации и эффективность в ресурсозависимых средах. ## Метод Предложенный метод основывается на улучшенной архитектуре ConvNeXt-Tiny, которая была значительно оптимизирована для решения задачи классификации медицинских изображений. Метод включает в себя несколько основных компонентов: 1. **Улучшенная структура:** Для улучшения возможностей выделения признаков в ConvNeXt-Tiny была введена стратегия фу mergersion с использованием **Global Average Pooling** и **Global Max Pooling**. Эти две методы позволяют сохранить глобальные статистические признаки и острые ответы. 2. **Легковесный модуль Attention:** Был разработан модуль Squeeze-and-Excitation Vector (SEVector), который позволяет адаптивно настраивать веса каналов, уменьшая при этом объем параметров. 3. **Feature Smoothing Loss:** Для повышения точности классификации и сохранения консистентности признаков в пределах класса была добавлена особая потеря Feature Smoothing Loss. Эти изменения были выполнены с целью оптимизировать вычислительные затраты и повысить точность классификации в условиях ограниченных ресурсов. ## Результаты Проведенные эксперименты показали, что предложенный метод достигает высокой точности классификации в условиях ограниченных вычислительных ресурсов. На CPU с 8 потоками и 10 эпохах обучения, модель достигла максимальной точности 89.10%, с очень стабильным убыванием функции потерь. Эти результаты указывают на эффективность разработанного подхода в сочетании с оптимизированной архитектурой ConvNeXt-Tiny. ## Значимость Предложенный подход может быть применен в следующих областях: - **Клиническая диагностика:** Эффективная классификация медицинских изображений может облегчить работу врачей, ускорив процесс диагностики. - **Удаленная диагностика:** Применение в удаленных средях с ограниченными ресурсами, например, в медицинских центрах с недостаточным вычислительным оборудованием. - **Мобильное приложение:** Модель может быть использована в мобильных приложениях для быстрого анализа изображений. Значимыми преимуществами этого подхода являются: - Улучшенная точность классификации. -

Annotation:

Intelligent analysis of medical imaging plays a crucial role in assisting clinical diagnosis. However, achieving efficient and high-accuracy image classification in resource-constrained computational environments remains challenging. This study proposes a medical image classification method based on an improved ConvNeXt-Tiny architecture. Through structural optimization and loss function design, the proposed method enhances feature extraction capability and classification performance while reduc...

ID: 2508.11532v1 cs.CV, cs.LG

arXiv PDF

📄 Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

2025-08-19

Авторы:

Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk

## Контекст Бонгард-РВР+: Реальность в Формах Догадки — Научная Статья, Опубликованная В 2024 Году -------------------------------------------------------------------------------------- В статье рассматривается создание новых тестовых датасетов для эмпирической оценки моделей глубокого визуального рассуждения, основываясь на Бонгардских проблемах (BPs). Бонгардские проблемы — это система задач, требующих визуального рассуждения для определения абстрактных понятий на основе небольшого количества примеров и описания их естественным языком. Данная работа построена на предыдущих исследованиях, где использовались синтетические изображения для описания абстрактных понятий. Впервые была предложена методология для построения реального зоопарка абстрактных понятий с помощью генеративных моделей визуальной лингвистики. ## Метод Бонгард-РВР+ данных созданы на основе живых изображений, созданных с помощью Пиктрал-12B (Pixtral-12B), генеративной модели текста, которая берет существующие изображения и описания, а затем генерирует новые изображения, которые соответствуют заданным описаниям. Далее, Flux.1-dev (Flux.1-dev) — модель, генерирующая изображения на основе текстовых описаний — используется для создания подробных, живых изображений, которые подкрепляют текстовые описания заданных понятий. Эти изображения тщательно проверяются вручную, чтобы убедиться в том, что они соответствуют предполагаемым абстрактным понятиям. ## Результаты Было проведено несколько экспериментов с различными моделями визуальной лингвистики, включая CLIP, Stable Diffusion, и другие. Эти модели были оценены на изначальной задаче — распознавании и описании абстрактных понятий в синтетических изображениях. Оказалось, что модели способны распознавать широкие классы абстрактных понятий, но в то же время сталкиваются с трудностями при распознавании тонких различий в абстрактных характеристиках, что вызывает недостаточную точность в решении задач. ## Значимость Бонгард-РВР+ может быть применен в различных областях, таких как тонкое визуальное рассуждение, глубокое понимание естественного языка, а также в обучении моделей, которые должны понимать тонкие абстрактные различия в изображениях. Этот датасет может стать важным инструментом для развития моделей, которые не только распознают широкие классы объектов, но и умеют работать с тонкими различиями в описании этих объектов. ## Выводы В итоге, Бонгард-РВР+ — это новый тестовый датасет, который обогащает набор данных для тестирования моделей визуального рассуждения, используя реальные

Annotation:

Bongard Problems (BPs) provide a challenging testbed for abstract visual reasoning (AVR), requiring models to identify visual concepts fromjust a few examples and describe them in natural language. Early BP benchmarks featured synthetic black-and-white drawings, which might not fully capture the complexity of real-world scenes. Subsequent BP datasets employed real-world images, albeit the represented concepts are identifiable from high-level image features, reducing the task complexity. Differen...

ID: 2508.12026v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks

2025-08-19

Авторы:

Jakub Łucki, Jonathan Becktor, Georgios Georgakis, Rob Royce, Shehryar Khattak

## Контекст Одной из основных задач вробототехники является построение эффективных систем визуального восприятия, которые могут обрабатывать несколько задач одновременно, такие как детекция объектов, сегментация сцены и вычисление глубины, с минимальными затратами ресурсов и максимальной производительностью. Несмотря на то, что задачи визуального восприятия вробототехнике широко исследованы, существуют проблемы, связанные с высоким потреблением ресурсов, медленной скоростью выполнения и сложностью интеграции множества моделей. Эти проблемы ограничивают производительность систем визуального восприятия, особенно на устройствах с ограниченными ресурсами, таких как навигационные роботы и смарт-модели. В этом контексте возникает потребность в модульных и эффективных фреймворках, которые могут обеспечить высокую производительность, эффективное использование ресурсов и максимальную гибкость поддержки разных задач. ## Метод Visual Perception Engine (VPEngine) представляет собой модульную архитектуру, ориентированную на эффективное использование GPU для визуальных многозадачных задач. Фреймворк использует глубокую нейронную сеть в качестве фондовой модели (foundation model) с общим компонентом извлечения признаков, который выделяет общие признаки изображения. Эти признаки делятся между несколькими специализированными моделями-задачами (такими как детекция, сегментация и глубина), которые работают параллельно, без необходимости повторного вычисления признаков. Таким образом, VPEngine устраняет ненужные передачи данных между GPU и CPU. Благодаря CUDA Multi-Process Service (MPS), VPEngine обеспечивает оптимальное использование GPU и постоянный фиксированный объем памяти. Фреймворк легко интегрируется с ROS2 и предоставляет связи на языке C++ для удобства использования в различных робототехнических приложениях. ## Результаты Запуск нашего фреймворка показал важное ускорение скорости выполнения визуальных задач. Для примера с DINOv2 в качестве фондовой модели и задачами детекции, сегментации и глубины, VPEngine демонстрирует высокую эффективность, достигая до 3 раз ускорения по сравнению с последовательным выполнением моделей. Это достигается благодаря оптимальной разделяемой архитектуре и распараллеливанию задач. Мы также демонстрируем возможность реального времени с выполнением на уровне $\geq$ 50 герц на NVIDIA Jetson Orin AGX, когда используются оптимизированные TensorRT-модели. Эти результаты доказывают, что VPEngine может обеспечить высокую производительность и гибкость в реальных условиях. ## Значимость VPEngine может применяться в различных робототехнических приложениях, таких как автономная навигация, смар

Annotation:

Deploying multiple machine learning models on resource-constrained robotic platforms for different perception tasks often results in redundant computations, large memory footprints, and complex integration challenges. In response, this work presents Visual Perception Engine (VPEngine), a modular framework designed to enable efficient GPU usage for visual multitasking while maintaining extensibility and developer accessibility. Our framework architecture leverages a shared foundation model backbo...

ID: 2508.11584v2 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models

2025-08-16

Авторы:

Andrew Bai, Justin Cui, Ruochen Wang, Cho-Jui Hsieh

Заголовок: Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models ## Контекст Визуально-языковые модели (виджонтал-модели) широко применяются в решении задач обработки и анализа изображений и текста. Одной из ключевых задач в работе этих моделей является инструкционное тюнинг (instruction tuning), нацеленное на обучение моделей как визуальных концепций (concepts), так и визуальным навыкам (skills). В настоящее время существуют много моделей, тренируемых на различных виджонтал-инструкциях (vision-language instruction), но не всегда очевидно, какие именно концепции или навыки будут иметь наибольшее влияние на повышение производительности модели. Данная работа нацелена на изучение этой проблемы, нашедшей отражение в наборах данных, используемых для обучения моделей. ## Метод Методология исследования основывается на анализе входных данных виджонтал-инструкций, извлечении концепций и навыков, а также определении того, какие именно из них более важны для повышения производительности модели на конкретной задаче. Работа предлагает простой алгоритм для выбора целевой инструкционной выборки, направленной на оптимизацию модели для конкретного набора данных. Этот алгоритм включает следующие этапы: (1) извлечение концепций и навыков из набора данных; (2) определение того, какие из этих концепций или навыков важнее для моделирования; (3) выбор тестов, которые больше всего соответствуют выбранным концепциям/навыкам. Эта методика позволяет оптимизировать процесс обучения моделей, учитывая точечные требования конкретных задач. ## Результаты Основные эксперименты проводились на 10+ виджонтал-инструкционных наборах данных, позволяющих проверить эффективность нового метода выбора тестов. На основе экспериментов было показано, что целевая выборка инструкций, которая соответствует конкретным концепциям или навыкам, может улучшить производительность модели на +0.9% по сравнению с лучшим существующим базоймим. Изученные модели показали отличительную производительность в сценариях, требующих гибкого использования концепций или навыков. Этот подход также показал +1.5% роста в производительности на skill-focused subset, подтверждая значимость целевого выбора инструкций для многомодальных моделей. ## Значимость Полученные результаты показали, что подход к выбору инструкций позволяет улучшить модели в задачах, в которых нужно либо сфокусироваться на концептуальных знаниях, либо на навыках. Это значит, что модели могут быть оптимизированы для разных типов задач благодаря учету их особенностей. Такая гибкость в выборе инструкций позволяет моделям быть более эффективными в различных применениях, в том числе в задачах распозна

Annotation:

Vision-language instruction tuning achieves two main purposes: learning visual concepts and learning visual skills. In this paper, we found that vision-language benchmarks fall into the dichotomy of mainly benefiting from training on instructions with similar skills or visual concepts. Inspired by the discovery, we designed a simple targeted training data selection method to optimize the performance of a given benchmark. We first extract the concepts/skills from the benchmark, determine whether ...

ID: 2508.10339v1 cs.CV, cs.LG

arXiv PDF

📄 SkeySpot: Automating Service Key Detection for Digital Electrical Layout Plans in the Construction Industry

2025-08-16

Авторы:

Dhruv Dosi, Rohit Meena, Param Rajpura, Yogesh Kumar Meena

## Контекст Обратимо сканированные электронные схемы электрических систем являются ключевыми ресурсами в строительной отрасли, особенно для задач поддержания инфраструктуры, расчёта затрат, выполнения регулирования и стандартизации. Однако, некоторые документы отсутствуют в формате машиночитаемого файла или находятся в виде разжатых сканов, что создаёт серьёзные проблемы для автоматизированного использования. Эти схемы хранятся в виде изображений, что вызывает затруднения в поиске и интерпретации отдельных символов, таких как электрические символы (например, различные элементы системы электроснабжения). Это приводит к увеличению времени работы, затратам на ручную работу и необходимости в широком использовании программного обеспечения для графического проектирования. В этом случае, методы автоматического распознавания символов могут существенно упростить эту задачу, давая возможность оперативного поиска и интерпретации символов, необходимых для работы в области строительства. ## Метод В работе предлагается метод автоматического распознавания символов на сканированных электронных схемах для выявления электрических символов. Для решения этой задачи был разработан аннотированный набор данных Digitised Electrical Layout Plans (DELP), содержащий 45 электрических схем, аннотированных с 2450 электрическими символами. Для обучения и оценки работоспособности алгоритмов был использован YOLOv8, широко известный подход к объектному распознаванию. Был также разработан SkeySpot, который является расширением YOLOv8 для решения этой задачи. Этот инструмент позволяет выполнять реальному времени анализ символов, собирая их статистические данные и выполняя оценку качества распознавания. ## Результаты Экспериментальные исследования проводились на DELP датасете, при этом оценивались различные модели, включая YOLOv8. Работа продемонстрировала, что модель YOLOv8 достигла наибольшего значения mAP (mean average precision) — 82.5%. Таким образом, мы показали, что модель YOLOv8 является наиболее эффективной для задачи распознавания электросимволов на сканированных схемах. Результаты показывают, что SkeySpot может выполнять детекцию и классификацию символов в реальном времени, что делает его полезным для отрасли конструкций. ## Значимость Разработанный подход имеет большое потенциальное применение в строительной отрасли, особенно в области систем билдинг Информационного Менеджмента (BIM). Он позволяет упростить расчёты затрат, улучшить поддержку инфраструктуры и повысить эффективность планирования. Благодаря использованию SkeySpot можно уменьшить трудозатраты на ручную работу и отказаться от

Annotation:

Legacy floor plans, often preserved only as scanned documents, remain essential resources for architecture, urban planning, and facility management in the construction industry. However, the lack of machine-readable floor plans render large-scale interpretation both time-consuming and error-prone. Automated symbol spotting offers a scalable solution by enabling the identification of service key symbols directly from floor plans, supporting workflows such as cost estimation, infrastructure mainte...

ID: 2508.10449v1 cs.CV, cs.LG

arXiv PDF

📄 SingleStrip: learning skull-stripping from a single labeled example

2025-08-16

Авторы:

Bella Specktor-Fadida, Malte Hoffmann

#### Контекст Получение точных меток для медицинских изображений, таких как МРТ скелета, является бесценным ресурсом для обучения алгоритмов сегментации. Однако традиционная работа с этими метками требует огромных усилий по ручному пометке данных, что может занять много времени и требовать специализированных знаний. Добавление к этому момент, что тренировочные данные для сетей, основанных на глубоком обучении, часто требуются в больших количествах, чтобы достичь высокой точности. Это делает процесс сам по себе трудоемким и дорогостоящим. В данном контексте, SingleStrip предлагает решение, которое сводит к минимуму требования к ручной работе с метками, позволяя обучать сети судя по одной метке. #### Метод SingleStrip объединяет семиуровное обучение с самостоятельным тренированием, чтобы обрабатывать изображения с максимально небольшим количеством вручную отмеченных образов. Авторы предлагают автоматическую сегментацию с помощью генерации меток с помощью доменной хаотизации. Это позволяет создавать метки для обучения, даже когда метки отсутствуют. Далее, вторичная сеть, на основе конволюционного автокодировщика, оценивает качество псевдо-меток, выбирая лучшие для последующего отображения. Таким образом, SingleStrip может быть обучен с очень небольшим объемом меток, чтобы достичь высокого качества распознавания скелета. #### Результаты Подробно сравнивая различные стратегии оценки качества, такие как групповая самостоятельная оценка и консистентность с тестовым временем, SingleStrip показывает значительную улучшенную точность сравнения с другими сетями, обученными на небольших масках. Результаты показывают, что сеть SingleStrip может выполнять сегментацию головоломок на новых данных с близким к идеальному качеству, даже при обучении с одной маской. Это позволяет решать проблему отсутствия меток и обеспечивать более широкое применение методик семиуровного обучения в медицине. #### Значимость SingleStrip может примениться в различных медицинских импровении, где недостаток засечек медицинских изображений ограничивает развитие алгоритмов сегментации. Также, это решение может помочь в технических областях, где необходимо создание меток для новых видов образов. Это существенно снижает трудозатраты для обучения и обработки данных, что может повысить производительность и облегчить развитие новых изображений в сегментации. #### Выводы SingleStrip показывает возможность обучения сетей с судя по одной метке, что может значительно упростить процессы тренировки и работы с медицинскими изображениями. Оно открывает новые пути для развития методик семиуровного обучения в области медицины. В бу

Annotation:

Deep learning segmentation relies heavily on labeled data, but manual labeling is laborious and time-consuming, especially for volumetric images such as brain magnetic resonance imaging (MRI). While recent domain-randomization techniques alleviate the dependency on labeled data by synthesizing diverse training images from label maps, they offer limited anatomical variability when very few label maps are available. Semi-supervised self-training addresses label scarcity by iteratively incorporatin...

ID: 2508.10464v1 cs.CV, cs.LG

arXiv PDF

📄 Lightweight CNNs for Embedded SAR Ship Target Detection and Classification

2025-08-16

Авторы:

Fabian Kresse, Georgios Pilikos, Mario Azcueta, Nicolas Floury

## Контекст Мониторинг морских судов в режиме непосредственности является ключевым заданием для обеспечения безопасности и эффективности морских путей. Несмотря на то что синтетическая апертурная радиолокация (SAR) предоставляет высококачественные снимки морских объектов, текущая система работает медленно из-за необходимости передачи больших объемов необработанных данных к земной станции, а затем их обработки. Это ограничивает применение SAR-данных в реальном времени. Одним из возможных решений является внедрение на-бортной обработки SAR-данных для создания более высокоуровневых продуктов. Однако существуют технические проблемы, такие как ограниченная память и вычислительная мощность спутников, что мешает внедрению этих методов. Работа предлагает новую модель нейронных сетей, оптимизированных для на-бортной обработки SAR-данных в режиме реального времени. ## Метод Модель, предложенная в работе, основывается на консервативной конфигурации сверточных нейронных сетей (CNN), оптимизированных для работы на нефокусированных SAR-данных. Она использует архитектуру U-Net для выделения областей интереса на необработанных SAR-изображениях. Для снижения требований к вычислительной мощности, авторы внедрили алгоритм разделения на слои, который позволяет использовать небольшие сети с повышенной эффективностью. Основное внимание уделяется оптимизации модели для работы на FPGA, чтобы обеспечить высокую скорость инференса на борту спутника. ## Результаты Исследования проводились на данных, полученных с сенсоров Sentinel-1 в режимах Stripmap и Interferometric Wide. Нейросеть была тестирована на задаче двоичной классификации: различение судов и ветряных мельниц. Эксперименты показали, что модель демонстрирует высокую точность и скорость вывода при ограниченном количестве параметров и требований к пропускной способности. Было получено доказательство того, что модель может быть эффективно развернута на FPGA для работы в режиме реального времени. ## Значимость Предложенная модель открывает новые возможности для на-бортной обработки SAR-данных, позволяя снизить затраты на передачу данных и увеличить скорость реагирования на изменения в морском пространстве. Она может быть применена в области мониторинга морских судов, безопасности мореплавания и управления морскими трафиками. Ее высокая эффективность и низкие ресурсоемкость делают ее привлекательной для использования на малых или ограниченно-ресурсных платформах. ## Выводы Работа доказала возможность использования нейронных сетей для реального времени обработки нефокусированных SAR-данных на борту спутников. Был показан успех модели в задаче классификации объ

Annotation:

Synthetic Aperture Radar (SAR) data enables large-scale surveillance of maritime vessels. However, near-real-time monitoring is currently constrained by the need to downlink all raw data, perform image focusing, and subsequently analyze it on the ground. On-board processing to generate higher-level products could reduce the data volume that needs to be downlinked, alleviating bandwidth constraints and minimizing latency. However, traditional image focusing and processing algorithms face challeng...

ID: 2508.10712v1 cs.CV, cs.LG

arXiv PDF

📄 Dissecting Generalized Category Discovery: Multiplex Consensus under Self-Deconstruction

2025-08-16

Авторы:

Luyao Tang, Kunze Huang, Chaoqi Chen, Yuxuan Yuan, Chenxin Li, Xiaotong Tu, Xinghao Ding, Yue Huang

## Контекст Объяснение категории — один из фундаментальных аспектов человеческого рассудка, позволяющий определять и различать объекты в разных классах. Однако машинные распознаватели в настоящее время сталкиваются с трудностями в обнаружении и классификации объектов в новых категориях. Ученые работают над методами, позволяющими системам машинного обучения не только распознавать известные классы, но и различать и объяснять элементы в новых категориях. Одна из таких задач — обнаружение общей категории (GCD), однако существующие методы ориентируются преимущественно на оптимизацию функций. Мы предлагаем инновационный подход, основанный на человеческом мышлении при понимании новых объектов: разделение объектов на визуальные примитивы и поиск кросс-знаний. ## Метод Мы предлагаем ConGCD, который использует новый подход к обнаружению общих категорий с помощью декомиляции объекта на визуальные примитивы и эстрадирования классовых признаков. ConGCD декомпозирует входной объект на высокоуровневые семантические элементы, устанавливая связи между классами через эти примитивы. Мы также вводим два типа консенсусных блоков: декомпозиционные и контекстные, которые способствуют пониманию значимых признаков и динамической оптимизации структуры решения. Мы также предлагаем механизм динамической оптимизации, который позволяет системе принимать лучшие решения на основе динамического выбора вариантов. Это новая модель, которая расширяет возможности машинного обучения в области обобщенного обнаружения классов. ## Результаты Мы проверили эффективность ConGCD на нескольких бенчмарках, включая coarse- и fine-grained категории. Мы проверили его в задаче универсального распознавания объектов, где он показал значительные улучшения по сравнению с другими моделями, использующими оптимизацию функций. Мы также проверили его на данных, включающих в себя различные классы, и продемонстрировали, что он может обнаруживать и разделять объекты в новых категориях. Наши результаты указывают на то, что ConGCD может стать прорывом в области обнаружения общих категорий и запустить новую эру в этой области. ## Значимость Мы показываем, что ConGCD может быть применен в различных областях, включая распознавание изображений, когнитивные модели и обработку естественных языков. Он предлагает преимущества в том, что он может работать с несколькими классами и в качестве динамичного метода, что делает его более гибким. Это может повысить точность распознавания и облегчить обучение машинных систем для работы в новых областях. Это направляет нас к новым возможностям в области улучшения машинного распо

Annotation:

Human perceptual systems excel at inducing and recognizing objects across both known and novel categories, a capability far beyond current machine learning frameworks. While generalized category discovery (GCD) aims to bridge this gap, existing methods predominantly focus on optimizing objective functions. We present an orthogonal solution, inspired by the human cognitive process for novel object understanding: decomposing objects into visual primitives and establishing cross-knowledge compariso...

ID: 2508.10731v1 cs.CV, cs.LG

arXiv PDF

1
2
75
76
77
78
79
83
84

Показано 761 - 770 из 835 записей