📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Model-Agnostic Open-Set Air-to-Air Visual Object Detection for Reliable UAV Perception

2025-09-13

Авторы:

Spyridon Loukovitis, Anastasios Arsenos, Vasileios Karampinis, Athanasios Voulodimos

## Контекст Управление дронами в реальных условиях требует высокоточного визуального распознавания объектов. Однако существующие системы часто сталкиваются с проблемами, такими как неточность в распознавании неизвестных объектов и неустойчивость при помехах в данных. Эти ограничения могут привести к небезопасным ситуациям в случае применения дронов в критически важных задачах, таких как поиск-спасательные операции или системы безопасности. Для решения этих проблем необходимо развить методы, обеспечивающие надежную детекцию в условиях динамической среды, включая распознавание неизвестных объектов и устойчивость к помехам. ## Метод Предлагаемый подход является модельно-независимым и специально разработанным для работы с визуальными детекторами, основанными на подходе на основе инкубирующих представлений (embedding-based detectors). Он реализует механизм отклонения неизвестных объектов, используя модель на основе ентропии в пространстве инкубирующих представлений. Для повышения отклика системы при работе с помехами в данных введены спектральная нормализация и температурная масштабирование. Эта архитектура обеспечивает улучшение отклика системы на некоторые семантические изменения в данных, что позволяет лучше отличать искомые объекты от фоновых элементов. ## Результаты Результаты экспериментов проведены на сложной аэроизображенной выборке AOT и в реальных условиях полета дрона. Метод показал значительное улучшение в отклике на неизвестные объекты с расширенным интервалом вероятности (AUROC), достигая при этом высокой точности в распознавании целевых объектов. Кроме того, добавление функции отсева фоновых элементов способствует дальнейшему повышению устойчивости детектора без ущерба для точности распознавания. ## Значимость Предлагаемый подход может быть применен в системах автономного управления дронов в задачах поиска-спасения, системах безопасности и других критически важных применениях. Он обеспечивает улучшенную устойчивость к помехам, высокую точность распознавания и гибкость в работе с неизвестными объектами. Эти преимущества позволяют расширить область использования дронов в реальных сценариях, улучшив надежность и безопасность. ## Выводы Предложенный метод является модельно-независимым и эффективным для улучшения отклика управления дронами в реальных условиях. Результаты показывают преимущества метода над существующими алгоритмами в области отклика на неизвестные объекты и устойчивости к помехам. Будущие исследования будут сконцентрированы на расширении функционала детектора в работе с более

Annotation:

Open-set detection is crucial for robust UAV autonomy in air-to-air object detection under real-world conditions. Traditional closed-set detectors degrade significantly under domain shifts and flight data corruption, posing risks to safety-critical applications. We propose a novel, model-agnostic open-set detection framework designed specifically for embedding-based detectors. The method explicitly handles unknown object rejection while maintaining robustness against corrupted flight data. It es...

ID: 2509.09297v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 Exploring Pre-training Across Domains for Few-Shot Surgical Skill Assessment

2025-09-13

Авторы:

Dimitrios Anastasiou, Razvan Caramalau, Nazir Sirajudeen, Matthew Boal, Philip Edwards, Justin Collins, John Kelly, Ashwin Sridhar, Maxine Tran, Faiz Mumtaz, Nevil Pavithran, Nader Francis, Danail Stoyanov, Evangelos B. Mazomenos

## Контекст Оценка технических навыков в хирургии (surgical skill assessment, SSA) является ключевым заданием в сфере компьютерного зрения для хирургических применений. Однако существуют серьезные сложности в ее реализации, включая недостаток аннотированных данных для обучения моделей. Эти аннотации требуют времени и экспертного согласования, что делает их получение дорогостоящим и трудоемким процессом. Несмотря на то, что методы few-shot learning (FSL) предлагают альтернативу, своевременное развитие этих моделей требует эффективного предварительного обучения (pre-training). Хотя pre-training был изучен для многих субжективных задач в сфере хирургии, его применение в контексте SSA остается мало исследовано. В данной работе мы исследуем, как различные предварительные стратегии обучения влияют на результаты неполностью супервизированного обучения для SSA. ## Метод Мы формулируем задачу SSA в рамках few-shot learning и исследуем, как различные стратегии предварительного обучения влияют на получение результатов в такой ситуации. Для этого мы используем общедоступный датасет роботизированных хирургических операций и аннотируем его с помощью системы OSATS (Objective Structured Assessment of Technical Skill). Мы исследуем влияние различных источников предварительного обучения, включая внутренние (роботизированные хирургические операции) и внешние (различные невидеоматериалы), на результаты модели в few-shot сценариях с разным числом сэмплов. Мы также изучаем влияние размера и доменного аналогичности источников предварительного обучения на качество переноса (transferability). ## Результаты Мы выполнили эксперименты с предварительным обучением на различных датасетах и оценили его влияние на результаты в few-shot обучении для SSA. Мы сравнили результаты моделей, обученных на внутренних (роботизированных хирургических операций) и внешних (невидеоматериалах) датасетах с разным уровнем доменного аналогичности. Наши результаты показали, что даже небольшие, но доменно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно датасеты могут превосходить более крупные, но менее относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относи

Annotation:

Automated surgical skill assessment (SSA) is a central task in surgical computer vision. Developing robust SSA models is challenging due to the scarcity of skill annotations, which are time-consuming to produce and require expert consensus. Few-shot learning (FSL) offers a scalable alternative enabling model development with minimal supervision, though its success critically depends on effective pre-training. While widely studied for several surgical downstream tasks, pre-training has remained l...

ID: 2509.09327v1 cs.CV, cs.LG

arXiv PDF

📄 Semantic Concentration for Self-Supervised Dense Representations Learning

2025-09-13

Авторы:

Peisong Wen, Qianqian Xu, Siran Dai, Runmin Cong, Qingming Huang

#### Контекст Органиченные изображения часто содержат многочисленные объекты различных классов, образуя сложные сцены. Для самостоятельно полученных (self-supervised) методов обучения детальных представлений (dense representations) это представляет вызов, так как методы, ориентированные на изображение целиком, часто страдают от разброса представлений патчей (over-dispersion), что сказывается на качестве решения задач связанных с патчами. Недостаток в текущих подходах в том, что они недостаточно учитывают семантические связи между патчами в пределах одного изображения. Мы предлагаем новый подход, основанный на семантической концентрации, чтобы улучшить методы обучения представлений для патчей. #### Метод Мы предложили два основных вклада для улучшения семантической концентрации в dense self-supervised learning. Во-первых, мы предложили метод, основанный на знании патчей (knowledge distillation), чтобы извлечь соответствия между патчами в условиях шума и несбалансированных псевдометок. Для этого мы расширили определение Average Precision Loss, чтобы он мог работать с непрерывными целями, и добавили адаптивный фокус, чтобы избежать преувеличения влияния шума. Во-вторых, мы предложили объектно-ориентированный фильтр, который преобразует пространство представлений в пространство, ориентированное на объекты. Это достигается с помощью кросс-аттенции, которое позволяет патчам быть представленными как прототипы объектов. #### Результаты Мы провели эксперименты на нескольких задачах связанных с патчами, включая финальную сегментацию и классификацию. Наши результаты показали, что наш подход не только устраняет проблему over-dispersion, но и повышает качество представлений. Мы сравнили нашу работу с несколькими современными методами и показали, что наши результаты значительно лучше, особенно в сложных сценах. Наши подходы демонстрируют высокую точность и устойчивость при работе с шумом и несбалансированными метками. #### Значимость Метод, основанный на семантической концентрации, имеет широкие применения в области обучения представлений для патчей в сложных изображениях. Он может быть применен в задачах, таких как сегментация, классификация и обнаружение объектов. Наши решения улучшают качество представлений, уменьшают разброс патчей и повышают устойчивость к шуму. Это может привести к значительным улучшениям в различных областях, таких как автоматическое вождение, оптическое распознавание символов и анализ изображений в медицине. #### Выводы Мы продемонстрировали, что семантическая концентрация является ключевым фактором для повышения качества представлений патчей в самостоятельном обучении. Наши подходы, включая знание п

Annotation:

Recent advances in image-level self-supervised learning (SSL) have made significant progress, yet learning dense representations for patches remains challenging. Mainstream methods encounter an over-dispersion phenomenon that patches from the same instance/category scatter, harming downstream performance on dense tasks. This work reveals that image-level SSL avoids over-dispersion by involving implicit semantic concentration. Specifically, the non-strict spatial alignment ensures intra-instance ...

ID: 2509.09429v1 cs.CV, cs.LG

arXiv PDF

📄 Explainable AI for Accelerated Microstructure Imaging: A SHAP-Guided Protocol on the Connectome 2.0 scanner

2025-09-13

Авторы:

Quentin Uhl, Tommaso Pavan, Julianna Gerold, Kwok-Shing Chan, Yohan Jun, Shohei Fujita, Aneri Bhatt, Yixin Ma, Qiaochu Wang, Hong-Hsi Lee, Susie Y. Huang, Berkin Bilgic, Ileana Jelescu

## Контекст На протяжении многих лет развития диффузионной магнитной резонансной импедансной томографии (diffusion MRI), многие протоколы исследований, ориентированные на изучение нейронной сети (connectome), требуют долгих сканирований. Это ограничивает применение этих методов в клинической практике, где необходимы более быстрые и эффективные сканирования. Одной из причин этого ограничения является необходимость в многоканальном сканировании для получения точных параметров поведения воды в сером веществе. Для решения этой проблемы, авторы предлагают **Explainable AI for Accelerated Microstructure Imaging**, который использует гибридный подход, сочетающий данные и искусственный интеллект, для создания более эффективных протоколов сканирования. ## Метод Протокол **Connectome 2.0** предлагает решение для ускорения сканирования, сохранив точность параметров. Авторы использовали **SHAP (SHapley Additive exPlanations)**, метод европейской концепции, позволяющий выявить наиболее важные факторы, влияющие на результаты. В рамках этого проекта разработан фреймворк, использующий **guided recursive feature elimination (RFE)**, чтобы оптимизировать выбор признаков для сканирования. Этот подход позволил выбрать оптимальный набор из 15 признаков, обеспечивая максимальную точность с минимальным временем сканирования. Метод был валидирован в наборе во вращающемся зонде, позволяя изучить точность параметров, анатомический контраст и повторяемость результатов. ## Результаты В результате использования оптимизированного протокола, авторы получили параметры, которые были почти идентичны тем, что достигались при использовании полного протокола. Эталонные тесты показали, что новый протокол позволяет сохранить точность параметров с минимальным влиянием на исследование. Кроме того, он показал лучшую производительность по сравнению с другими стратегиями снижения длины сканирования, такими как теоретические или хитроумные схемы. Данные показали, что уменьшение длины сканирования не приводит к потере важности параметров или их эффективности. ## Значимость Данный подход может быть применен в различных областях, включая клинические исследования и нейронирование. Он позволяет сократить время сканирования, не теряя точности в измерении параметров, что может повысить эффективность диагностики. Благодаря использованию искусственного интеллекта, **Explainable AI for Accelerated Microstructure Imaging** предлагает новую модель для оптимизации протоколов сканирования, которая может быть использована в различных областях, где необходима быстрая и точная диагностика. ## Выводы **Explainable AI for Accelerated Microstructure Imaging** позволяет создавать более эффективные протоколы для исследования поведения воды в сером веществе. Этот подход уско

Annotation:

The diffusion MRI Neurite Exchange Imaging model offers a promising framework for probing gray matter microstructure by estimating parameters such as compartment sizes, diffusivities, and inter-compartmental water exchange time. However, existing protocols require long scan times. This study proposes a reduced acquisition scheme for the Connectome 2.0 scanner that preserves model accuracy while substantially shortening scan duration. We developed a data-driven framework using explainable artific...

ID: 2509.09513v1 physics.med-ph, cs.AI, cs.CV, cs.LG, eess.IV, J.3

arXiv PDF

📄 ObjectReact: Learning Object-Relative Control for Visual Navigation

2025-09-13

Авторы:

Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid

#### Контекст Visual navigation, осуществляемая с применением только одной камеры и топологической карты, является привлекательным альтернативным подходом к методам, требующим дополнительных сенсоров и 3D-сетки. Отличительным чертами такого подхода является "изображение-относительный" подход, который позволяет оценивать управление на основе пары текущего изображения и субцели. Однако изображение-относительные подходы ограничены, так как изображения сильно привязаны к позе и антропоморфности агента. В то же время, объекты, являясь частью карты, предлагают трансформацию-инвариантную и позиционирование-инвариантную носительную структуру. В данной работе мы предлагаем новую парадигму обучения на основе "объектного-относительного" управления, которая имеет несколько выгодных свойств: a) позволяет совершать новые маршруты без необходимости копировать предыдущие опыты, b) разделяет проблему прогнозирования управления от решения проблемы соотнесения изображений, и c) обеспечивает высокую качественную инвариантность при переносе политики с моделирования на реальность, включая смену обзора и настройку траектории. #### Метод Мы предлагаем новую структуру топологической карты в виде "относительного" 3D-графа сцены, который используется для получения более информативных глобальных затрат планирования пути. Мы также разрабатываем локальный контроллер, "ObjectReact", который принимает в качестве входных данных высокоуровневую "WayObject Costmap", исключая необходимость в явном вводе цветного изображения. Обучение "ObjectReact" основано на методах глубокого обучения, которые позволяют принимать решения на основе объектного отношения, а не изображения. Этот подход позволяет лучше распознавать и управлять объектами, независимо от камеры или позы агента. #### Результаты Мы проводим эксперименты, сравнивая нашу модель с изображение-относительными подходами в различных ситуациях: изменения высоты камеры, маршрутами в обратном порядке, и т.д. Наши результаты показывают, что "ObjectReact" не только показывает высокую точность в локальном управлении, но и обеспечивает лучшую общительность во время переноса политик с симуляции на реальный мир. Мы также демонстрируем, что наша система может обеспечить трансфер в разные ситуации, включая смену обзора и смену траектории. #### Значимость Наша работа открывает новые возможности для эффективного обучения управления в визуальной навигации. Она позволяет переключаться между моделированием и реальным миром более устойчиво, с меньшим риском переобучения. Кроме того, наш подход предоставляет преимущества в сфере обеспечения простоты и универсаль

Annotation:

Visual navigation using only a single camera and a topological map has recently become an appealing alternative to methods that require additional sensors and 3D maps. This is typically achieved through an "image-relative" approach to estimating control from a given pair of current observation and subgoal image. However, image-level representations of the world have limitations because images are strictly tied to the agent's pose and embodiment. In contrast, objects, being a property of the map,...

ID: 2509.09594v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Detection of trade in products derived from threatened species using machine learning and a smartphone

2025-09-11

Авторы:

Ritwik Kulkarni, WU Hanqin, Enrico Di Minin

## Контекст Сокращение биоразнообразия через неустойчивый международный торговлей с животными является одной из ключевых угроз экосистемам. Этот проблема становится все более актуальным в связи с появлением цифровых торговых платформ и социальных сетей. Несовершенство ручных методов определения товаров, поступающих из законченных или заканчивающихся популяций, усиливает необходимость в развитии систем автоматической идентификации. Особенно актуальной является идентификация товаров, основанных на конкретных видах, таких как слоны (ивурь), панголины (скорлупы и хвосты), и тигров (шкуры и кости). Целью нашего исследования является разработка методов, которые могут автоматически определять такие товары, облегчая процесс мониторинга и сокращая угрозу для биоразнообразия. ## Метод Мы разработали модели машинного обучения, основанные на технологиях распознавания объектов. Эти модели обучены распознавать товары, основанные на трех указанных видах животных. Мы исследовали различные комбинации стратегий обучения и функций потерь, чтобы определить наиболее эффективную модель. Модели были обучены с использованием изображений продуктов, взятых из запрещенных торговли или конфискационных записях. Наш подход включает в себя разработку модели, распознающей продукты определенных видов, а также модели, распознающей продукты всех трех видов. Для развития приложения на платформе смартфона мы прикладывали усилия, чтобы обеспечить доступность инструментов с помощью мобильных приложений, которые могут использоваться непосредственно на рынках и других средах торговли. ## Результаты Мы провели эксперименты, используя наборы данных, состоящие из изображений товаров с вышеуказанных видов. Модель, обученная на изображениях продуктов слонов, панголинов и тигров, показала общую точность распознавания в 84.2%. Точность распознавания товаров слонов составила 71.1%, товаров панголинов — 90.2%, а товаров тигров — 93.5%. Мы также разработали мобильное приложение, которое может использоваться на рынках для определения товаров в реальном времени. Это приложение смогло достичь точности распознавания в 91.3%. ## Значимость Разработанный подход имеет практическое значение для ряда областей. Модель может использоваться государственными органами, законопослуживающими структурами и организациями, занимающимися защитой природы, для мониторинга торговли продуктами животных, занесенных в Красную книгу. Мобильное приложение упрощает процесс мониторинга на физических рынках, а также может использоваться для повышения

Annotation:

Unsustainable trade in wildlife is a major threat to biodiversity and is now increasingly prevalent in digital marketplaces and social media. With the sheer volume of digital content, the need for automated methods to detect wildlife trade listings is growing. These methods are especially needed for the automatic identification of wildlife products, such as ivory. We developed machine learning-based object recognition models that can identify wildlife products within images and highlight them. T...

ID: 2509.06585v2 cs.CV, cs.LG

arXiv PDF

📄 Adversarial Attacks on Audio Deepfake Detection: A Benchmark and Comparative Study

2025-09-11

Авторы:

Kutub Uddin, Muhammad Umar Farooq, Awais Khan, Khalid Mahmood Malik

#### Контекст Генерируемая с помощью искусственного интеллекта аудиосъемка, так называемая deepfake, стала одной из самых мощных технологий в современной цифровой среде. Она используется для подделки голосов, создания подлоговых аудио-видеоматериалов и даже обмана зрителей при помощи реалистичных, но ложной информации. Эта технология нашла применение в различных сферах: от развлечений до серьезных рисков в профессиональных сферах, например, в системах аудиоконференцсвязи, проверке личности по голосу и расследовании преступлений. Однако с этим резко возросло количество атак, направленных на подделку голоса или скрытие глубоких подделок. Эти атаки могут серьезно повлиять на безопасность, доверие к цифровым системам и юридические процессы. #### Метод Мы провели широкий анализ современных методов обнаружения глубоких подделок, посредством которых можно выявить глубокие подделки, использующие генерируемую звуковую информацию. Методика включала в себя два основных подхода: работу над звуковыми сигналами в "родном" формате (без предварительной обработки) и работу над спектрограммами (графическими представлениями звуковых сигналов). Мы использовали пять разных бенчмарк-датасетов, позволяющих протестировать различные методы обнаружения. Наша инфраструктура включала в себя такие подходы, как оптимизационные атаки (FGSM, PGD, C&W) и статистические модификации (например, разносятройка звуков, фильтрация, шум и др.). Мы проводили сравнительный анализ этих методов по метрикам, таким как точность, сенситивность и восстановление предложенных нюансов. #### Результаты Мы выполнили эксперименты на широком спектре глубоких подделок, используя пять разных датасетов. Мы оценивали как нововведения, так и уже существующие подходы к обнаружению глубоких подделок, чтобы понять, какие методы более эффективны в сравнении с другими. Наши результаты показали, что методы, основывающиеся на спектрограммах, показали лучший результат в том случае, когда данные были предварительно обработаны для извлечения закономерностей. Однако они оказались менее устойчивы в условиях атак, направленных на изменение звукового сигнала в "родной" формате. #### Значимость Наши результаты могут быть применены в сферах, где существует риск подделки голоса или глубоких подделок, таких как системы аудиоконференцсвязи, голосовые помощники, системы безопасности и проверка личности по голосу. Методы, разработанные в рамках нашего исследования, могут помочь в разработке более устойчивых систем,

Annotation:

The widespread use of generative AI has shown remarkable success in producing highly realistic deepfakes, posing a serious threat to various voice biometric applications, including speaker verification, voice biometrics, audio conferencing, and criminal investigations. To counteract this, several state-of-the-art (SoTA) audio deepfake detection (ADD) methods have been proposed to identify generative AI signatures to distinguish between real and deepfake audio. However, the effectiveness of these...

ID: 2509.07132v1 cs.SD, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Dimensionally Reduced Open-World Clustering: DROWCULA

2025-09-11

Авторы:

Erencem Ozbey, Dimitrios I. Diochnos

## Контекст Область исследования строится на основе проблемы открытого мира (open-world problem) в обучении с учителем, где аннотированные данные являются ключевым элементом. Однако создание таких данных может быть трудоемким и затратным. Более того, в реальном мире могут возникнуть ситуации, когда новые классы появляются неожиданно, даже после того, как много меток было присвоено. Это влечет за собой необходимость развития методов, которые могут работать с неизвестными классами. Открытый мир прикладывает усилия в развитии различных подходов, в том числе семи-супервизированных, но здесь предлагается новый подход, который ориентирован на полностью неучительную (fully unsupervised) модель, способную обнаруживать новые классы. ## Метод Метод основывается на использовании Vision Transformers, которые применяют механизмы внимания (attention mechanisms) для генерации векторных представлений (embeddings). Эти представления используются для оценки количества классов в данных. Для улучшения качества кластеризации включены методы мантийного обучения (manifold learning), которые позволяют очистить эти векторы от шума, сформировав более точные и отдельные кластеры. Это позволяет достичь высокого уровня кластеризации, даже при неизвестном числе классов. ## Результаты На экспериментальных данных CIFAR-10, CIFAR-100, ImageNet-100 и Tiny ImageNet, алгоритм показал новые рекорды в кластеризации в открытом мире (open-world clustering). Это было достигнуто как при знании числа классов заранее, так и при его неизвестности. Результаты указывают на большую точность и эффективность алгоритма, по сравнению с другими подходами. ## Значимость Этот подход может быть применен в различных областях, таких как оптимизация технологий видеонаблюдения, анализ данных больших объемов и агрегация данных на устройствах с ограниченными вычислительными ресурсами. Одним из ключевых преимуществ является свойство работы без необходимости предварительного аннотирования данных. Это может упростить процессы в области ИИ и повысить эффективность решения задач, где недоступны готовые обозначения. ## Выводы Результаты этого исследования устанавливают новый стандарт для кластеризации в открытом мире. Они открывают новые возможности для развития неучительных методов в области обработки изображений и задач кластеризации. Будущие работы могут быть направлены на расширение этого подхода на другие виды данных, такие как текст или звук, и на добавление дополнительных оптимизаций для улучшения качества и скорости работы.

Annotation:

Working with annotated data is the cornerstone of supervised learning. Nevertheless, providing labels to instances is a task that requires significant human effort. Several critical real-world applications make things more complicated because no matter how many labels may have been identified in a task of interest, it could be the case that examples corresponding to novel classes may appear in the future. Not unsurprisingly, prior work in this, so-called, `open-world' context has focused a lot o...

ID: 2509.07184v1 cs.CV, cs.LG

arXiv PDF

📄 CardioComposer: Flexible and Compositional Anatomical Structure Generation with Disentangled Geometric Guidance

2025-09-11

Авторы:

Karim Kadry, Shoaib Goraya, Ajay Manicka, Abdalla Abdelwahed, Farhad Nezami, Elazer Edelman

#### Контекст Улучшение понимания структур тела через генерируемые модели 3D-анатомии имеет решающее значение в клинических исследованиях и разработке медицинских устройств. Однако существующие модели сталкиваются с проблемой достижения компромисса между контролируемостью и реалистичностью анатомии. Из этой проблемы возникает необходимость разработки более гибких и композиционных подходов к генерированию анатомических структур. Наша мотивация заключается в создании модели, которая не только реалистична, но и позволяет контролировать отдельные аспекты структуры, такие как размер, форма и положение, при этом сохраняя возможность композиционного развития. #### Метод Мы предлагаем CardioComposer — модель, основанную на недетерминированных диффузионных моделях, которая использует интерпретируемые эллипсоидальные примитивы для гибкого управления структурой тканей. Модель работает в следующих этапов: вначале выбирается определенная ткань из многослойных сегментационных карт. Затем, мы применяем геометрические потери моментов для управления размером, формой и положением этой ткани в пространстве. Наша модель позволяет композировать несколько примитивов в одной модели, что дает полную гибкость в управлении анатомическими структурами. Эта архитектура позволяет осуществлять контроль над каждым компонентом структуры отдельно, что является ключевым отличием от существующих моделей. #### Результаты Мы проводили эксперименты на множестве сегментационных карт, охватывающих различные человеческие анатомические структуры. Модель показала высокую точность в создании реалистичных моделей тканей, удовлетворяющих конкретным геометрическим ограничениям. Мы также проверили возможность композиционного управления, где отдельные анатомические компоненты могут быть изменены независимо друг от друга. Итоговые модели отличались высокой точностью и реалистичностью, сравнимой с реальными сегментациями, что подтверждает эффективность нашего подхода. #### Значимость CardioComposer открывает широкие возможности в области клинических исследований, в частности для изучения структур-функциональных отношений в организме. Она также может использоваться для разработки и тестирования медицинских устройств, где точность моделирования анатомических структур критична. Эта модель предлагает более гибкий и контролируемый подход по сравнению с другими моделями, что позволяет более точно контролировать результат. #### Выводы Мы успешно разработали CardioComposer — модель, которая обеспечивает гибкое и композиционное генерирование анатомических структу

Annotation:

Generative models of 3D anatomy, when integrated with biophysical simulators, enable the study of structure-function relationships for clinical research and medical device design. However, current models face a trade-off between controllability and anatomical realism. We propose a programmable and compositional framework for guiding unconditional diffusion models of human anatomy using interpretable ellipsoidal primitives embedded in 3D space. Our method involves the selection of certain tissues...

ID: 2509.08015v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

2025-09-11

Авторы:

M. Hadi Sepanj, Benyamin Ghojogh, Paul Fieguth

## Контекст Self-supervised learning (SSL) является важной областью исследований в машинном обучении, которая позволяет извлекать представления без опоры на метки. Основная идея SSL заключается в оптимизации геометрических целей, таких как устойчивость к аугментациям, сохранение дисперсии и корреляционная декорреляция фич. Несмотря на эффективность SSL, большинство методов работают в Евклидовом пространстве, ограничивая их возможность локализовать и логически выразить нелинейные зависимости и геометрические структуры. Эта проблема становится особенно актуальной при работе с данными, характеризующимися сложной геометрической структурой. Целью данного исследования является развитие нового фреймворка SSL, который может эффективно работать в пространстве Репродуктивного Хильбертового Пространства (RKHS), обеспечивая более тонкую обработку нелинейных характеристик. ## Метод Предлагаемый Kernel VICReg является расширением существующего VICReg-подхода, переводя его в RKHS. Фундаментальная идея состоит в том, что каждый компонент VICReg-функционала (вариация, инвариантность и корреляция) переносится в RKHS с помощью ядерных функций. Это позволяет обобщить VICReg таким образом, что он может обрабатывать нелинейные структуры без непосредственного применения методик матричных преобразований. В Kernel VICReg широко используется двойная центрированная норма Хильберта-Шмидта, которая позволяет управлять геометрическими свойствами представлений. Особенностью нового подхода является его универсальность и гибкость при работе со сложными данными, даже при ограниченном объеме данных. ## Результаты Проведенные эксперименты посвящены сравнению Kernel VICReg с его евклидовым аналогом на различных датасетах, включая MNIST, CIFAR-10, STL-10, TinyImageNet и ImageNet100. Результаты показали, что Kernel VICReg не только избегает представительного коллапса, но и показывает более высокую точность, особенно на датасетах, где геометрическая сложность высока. Например, на TinyImageNet и ImageNet100, Kernel VICReg показал значительные улучшения в отношении точности и структуры представлений. Кроме того, UMAP-визуализации показали, что представления, полученные с помощью Kernel VICReg, обладают более высоким уровнем изометрии и более четкими классовыми границами, что свидетельствует о более эффективной обработке нелинейных структур. ## Значимость Kernel VICReg открывает новые горизонты для применения SSL в областях, где данные имеют сложную геометрическую структуру. Его можно применить в таких областях, как глубокое обучение для медицины, геологии или текстовых данных, где нелинейные зависимости яв

Annotation:

Self-supervised learning (SSL) has emerged as a powerful paradigm for representation learning by optimizing geometric objectives--such as invariance to augmentations, variance preservation, and feature decorrelation--without requiring labels. However, most existing methods operate in Euclidean space, limiting their ability to capture nonlinear dependencies and geometric structures. In this work, we propose Kernel VICReg, a novel self-supervised learning framework that lifts the VICReg objective ...

ID: 2509.07289v1 stat.ML, cs.CV, cs.LG

arXiv PDF

1
2
59
60
61
62
63
83
84

Показано 601 - 610 из 835 записей