📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations

2025-09-17

Авторы:

Shresth Grover, Akshay Gopalkrishnan, Bo Ai, Henrik I. Christensen, Hao Su, Xuanlin Li

## Контекст Vision-language-action (VLA) модели, полученные путем подгонки от vision-language моделей (VLMs), обладают перспективой использования богатых предварительно обученных представлений для создания общих роботов, способных выполнять разнообразные задачи в различных средах. Однако прямое тюнинге на данных роботов часто приводит к разрушению этих представлений и ограничению их общеприменимости. Задача, стоящая перед нами, заключается в разработке метода, который лучше сохранит предварительно обученные функции при одновременной адаптации моделей к задачам роботов. Мы предлагаем рамку, которая лучше сохраняет предварительно обученные функции, при этом их адаптируя к задачам роботов. Данная рамка может повысить общую устойчивость, улучшить общеприменимость и повысить уровень успеха в выполнении задач. ## Метод Мы предлагаем двухэнкодерную архитектуру, где один из энкодеров заморожен для сохранения предварительно обученных представлений, а другой тренируется для адаптации к конкретным задачам. Для того чтобы сделать модели более работоспособными в сфере роботов, мы предлагаем вводить строковые вектора действий, которые преобразуют непрерывные действия в последовательности из символов, подстраиваясь под домен, в котором производилось предварительное обучение модели. Также мы предлагаем стратегию координированного обучения (co-training), которая объединяет данные с демонстраций роботов с данными визуально-языковых моделей, ориентируясь на спациальное рассуждение и аффорданты. Эта стратегия помогает восстановить предварительно обученные представления, при этом добавляя новые специфические для задач роботов функции. ## Результаты Мы проводим эксперименты в симуляционной среде и на реальных роботах, сравнивая наши результаты с традиционными подходами. Наши эксперименты показали, что наш подход увеличивает устойчивость к визуальным возмущениям, улучшает общие способности моделей к новым командам и средам, а также повышает общую степень успеха в выполнении задач. Мы также измеряли производительность на различных тестовых данных, демонстрируя, что наша методология превосходит базовые модели в целом наборе метрик. ## Значимость Наш подход может быть применен в различных областях, таких как автоматизация производственных процессов, помощь инвалидам, и управление домашними устройствами. Он предлагает несколько преимуществ, таких как улучшение общей устойчивости моделей, повышение общей гибкости и устойчивость к изменениям в задачах и окружении. Мы считаем, что наша работа может способствовать развитию универсальных моделей, способных выполнять различные задачи в разных с

Annotation:

Vision-language-action (VLA) models finetuned from vision-language models (VLMs) hold the promise of leveraging rich pretrained representations to build generalist robots across diverse tasks and environments. However, direct fine-tuning on robot data often disrupts these representations and limits generalization. We present a framework that better preserves pretrained features while adapting them for robot manipulation. Our approach introduces three components: (i) a dual-encoder design with on...

ID: 2509.11417v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 CoachMe: Decoding Sport Elements with a Reference-Based Coaching Instruction Generation Model

2025-09-17

Авторы:

Wei-Hsin Yeh, Yu-An Su, Chih-Ning Chen, Yi-Hsueh Lin, Calvin Ku, Wen-Hsin Chiu, Min-Chun Hu, Lun-Wei Ku

## Контекст Спорт — важная часть жизнедеятельности, способствующая физическому здоровью, развитию координации и самооценки. Однако для достижения высоких результатов необходимы качественные тренировки и корректировка техники. Одной из ключевых задач тренера является обнаружение ошибок в движениях и предоставление конструктивного фидбэка. Несмотря на развитие мультимодальных моделей, которые улучшают понимание движений, генерация точных и специфических для спорта инструкций остается трудной задачей. Особенностью данной области является необходимость в доступном, информативном и целевом фидбэке, который может помочь спортсмену в понимании и устранении двигательных ошибок. ## Метод Разработанная модель CoachMe использует референсный подход для разбора спортивных движений. Она анализирует различия между движениями спортсмена и стандартными движениями, учтя такие аспекты, как физические особенности и временные показатели. Такой подход позволяет модели обучаться с применением общих знаний о движениях, а затем применять их к конкретным типам спорта. Модель вырабатывает инструкции, которые не только становятся более конкретными для спорта, но и включают подробные описания ошибок и методы их устранения. ## Результаты За счет использования техники сравнения движений внутри специфических спортивных движений, CoachMe демонстрирует высокую точность в генерации инструкций. Например, в шахте этой модели удалось преобразовать общие модели распознавания движений в технические инструкции для спортсменов. Также были проведены эксперименты на фигурном катании. На тестировании показатель G-Eval показал, что CoachMe превосходит GPT-4o на 31.6% в оценке качества инструкций по фигурному катанию и на 58.3% в случае бокса. Эти результаты подтверждают эффективность модели в генерировании понятных и полезных инструкций. ## Значимость CoachMe может применяться в различных отраслях спорта, в том числе в фигурном катании, боксе и других спортивных дисциплинах. Ее преимущества заключаются в том, что она может обучаться на универсальных данных о движениях и применять их к конкретным видам спорта с ограниченным объемом тренировочных данных. Это увеличивает эффективность тренировок и позволяет спортсменам быстро корректировать свою технику. В будущем модель может быть расширена для других видов спорта и использована для создания интерактивных систем тренировочного контроля. ## Выводы CoachMe представляет собой прорыв в области корректировки техники в спорте, обеспечивая точные и информативные инструкции. Она применяет референсный подход, что позволяет

Annotation:

Motion instruction is a crucial task that helps athletes refine their technique by analyzing movements and providing corrective guidance. Although recent advances in multimodal models have improved motion understanding, generating precise and sport-specific instruction remains challenging due to the highly domain-specific nature of sports and the need for informative guidance. We propose CoachMe, a reference-based model that analyzes the differences between a learner's motion and a reference und...

ID: 2509.11698v1 cs.CL, cs.AI, cs.CV, cs.LG, I.2.7; I.2.10

arXiv PDF

📄 Early Detection of Visual Impairments at Home Using a Smartphone Red-Eye Reflex Test

2025-09-16

Авторы:

Judith Massmann, Alexander Lichtenstein, Francisco M. López

## Контекст Слегка затуманные глаза у детей могут быть признаком развития серого геморроида. Традиционно такие проблемы обнаруживаются в клинических условиях посредством метода Брукнера, но новые технологии позволяют осуществить эксперименты в домашних условиях. Этот подход может способствовать раннему выявлению заболеваний и снижению их серьезных последствий. ## Метод Для разработки приложения KidsVisionCheck использовались глубокие нейронные сети, обученные на изображениях зрачков детей, которые были лейблированы специалистом. Модель демонстрирует высокую достоверность в 90% при работе с незнакомыми данными и не требует специального оборудования. На основе результатов разработчики могут оптимизировать условия съемки и формировать интерпретируемую обратную связь для пользователей. ## Результаты Эксперименты показали, что применение глубоких нейронных сетей позволяет выявлять ранние признаки заболеваний глаз у детей в домашних условиях. Это снижает риск прогрессирования заболеваний и повышает возможности для раннего вмешательства. Оптимальные условия съемки разработаны для повышения точности и пользовательского опыта. ## Значимость Разработка KidsVisionCheck открывает путь к доступным визуальным анализам для детей в домашних условиях. Это может способствовать раннему выявлению и лечению заболеваний, улучшить доступ к медицинским услугам и снизить риск серьезных последствий. ## Выводы Результаты работы с KidsVisionCheck доказывают, что глубокие нейронные сети могут быть эффективными для раннего выявления заболеваний глаз. Будущие исследования должны сосредоточиться на улучшении модели и ее применении в широком круге глазных заболеваний.

Annotation:

Numerous visual impairments can be detected in red-eye reflex images from young children. The so-called Bruckner test is traditionally performed by ophthalmologists in clinical settings. Thanks to the recent technological advances in smartphones and artificial intelligence, it is now possible to recreate the Bruckner test using a mobile device. In this paper, we present a first study conducted during the development of KidsVisionCheck, a free application that can perform vision screening with a ...

ID: 2509.09808v1 cs.CV, cs.LG

arXiv PDF

📄 DGFusion: Depth-Guided Sensor Fusion for Robust Semantic Perception

2025-09-16

Авторы:

Tim Broedermannn, Christos Sakaridis, Luigi Piccinelli, Wim Abbeloos, Luc Van Gool

#### Контекст Для обеспечения безопасной и эффективной самостоятельной навигации автомобилей необходимо устойчивое сенсорное восприятие окружающей среды. Однако современные автомобили оснащаются разнородным комплектом сенсоров, которые обладают своими сильными и слабыми сторонами. Объединение этих сенсоров в единый поток данных для получения устойчивого представления окружающего мира — это вызов, который еще не был полностью решен. Особенно сложно становится при высоких скоростях или при условиях плохого видимости, когда некоторые сенсоры могут давать ненадёжные данные. Наша статья предлагает новую методологию, которая использует глубину (depth) как устойчивый признак для улучшения сенсорной фуссионации. #### Метод Предлагаемая методология, DGFusion (Depth-Guided Fusion), представляет собой усовершенствованный подход к сенсорной фуссионации, основанный на глубинных данных. Мы предполагаем, что каждый сенсор вкладывает в свои данные своих сильных и слабых сторон, которые зависят от условий. Мы предлагаем использовать лидар (laser scanner) как основной источник глубинных данных, так как он достаточно стабилен в погодных условиях. Наша сеть DGFusion подходит к многомодальной сегментации как к задаче многозадачного обучения: лидар используется как входной сенсор и, с другой стороны, как тренировочная подсистема для обучения глубины. Мы также предлагаем специальный ауксоiliary depth head, который извлекает depth-aware features и кодирует их в виде токенов, которые динамически управляют кросс-модальной фуссионацией. Этот подход позволяет переключаться между модами в зависимости от условий, обеспечивая устойчивый результат. #### Результаты Мы проверили нашу модель на двух трудной классификации датасетах: MUSES и DELIVER. Для сравнения, мы использовали предыдущие решения, такие как MMF, PON, и BRUNO. Наши результаты показали, что DGFusion превосходит эти модели в сегментации панорамы (panoptic segmentation) и семантической сегментации. Помимо этого, мы проверили влияние внедрения токенов глубины на потери, используя нашу произвольную функцию loss. Эти эксперименты подтвердили, что DGFusion не только повышает точность, но и повышает устойчивость перцепции в условиях плохой видимости. #### Значимость Наш подход может применяться в различных областях, включая самоуправляемые транспортные средства, интеллектуальные города, а также системы умных домов, где необходима устойчивая обработка сенсорных данных. Главное преимущество DGFusion заключается в том, что он устойчив к переменным условиям, и это достигается благодаря применению глубины как устойчивого признака. Это может привести к улучшению

Annotation:

Robust semantic perception for autonomous vehicles relies on effectively combining multiple sensors with complementary strengths and weaknesses. State-of-the-art sensor fusion approaches to semantic perception often treat sensor data uniformly across the spatial extent of the input, which hinders performance when faced with challenging conditions. By contrast, we propose a novel depth-guided multimodal fusion method that upgrades condition-aware fusion by integrating depth information. Our netwo...

ID: 2509.09828v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 WAVE-DETR Multi-Modal Visible and Acoustic Real-Life Drone Detector

2025-09-16

Авторы:

Razvan Stefanescu, Ethan Oh, Ruben Vazquez, Chris Mesterharm, Constantin Serban, Ritu Chadha

#### Контекст В последние годы становится всё более актуальным использование синхронных визуальных и акустических сигналов для обнаружения дронов в реальной жизни. Несмотря на развитие технологий в области обнаружения объектов, существуют значительные проблемы, связанные с ограниченной детекцией в условиях ограниченного расстояния, низкого разрешения и внезапных изменениях времени пропускания. Эти проблемы особенно актуальны при работе с дронами, которые часто встречаются в трудных средах с узкими улицами, зданиями или лесами. Многие существующие решения не могут гарантировать высокую точность в обнаружении дронов в таких условиях. Именно поэтому требуется разработать более стабильный и точный метод, который применим в реальных условиях. #### Метод Мы предлагаем метод, который объединяет визуальные и акустические сигналы для улучшения показателей детекции дронов в сложных средах. Для этого используется модель Deformable DETR, обученная использовать визуальные и акустические признаки. Для обработки акустических данных применяется архитектура Wav2Vec2, которая эффективно извлекает акустические признаки из звуковых сигналов. Мы разработали несколько вариантов объединения данных, включая механизмы типа gated, linear layer, MLP и cross attention. Эти методы позволяют производить свёртку визуальных и акустических признаков в единое моделирующее решение. Мы протестировали наши модели на двух датасетах: Drone-vs-Bird и новом ARDrone dataset, который содержит более 7,500 синхронизированных изображений и аудио сегментов. #### Результаты Мы проводили эксперименты с четырьмя различными способами объединения данных. Лучший метод — gated fusion — позволил увеличить mAP (mean average precision) на 11.1%–15.3% для малых дронов при всех IoU-пороговых значениях от 0.5 до 0.9. Для средних и крупных дронов также был замечен увеличение mAP, что в общем счёте привело к увеличению точности детекции на 3.27%–5.84%. Мы обнаружили, что акустические сигналы позволяют обнаруживать дроны в тех случаях, когда визуальные данные недостаточно ясны, такие как темные условия или высокая скорость движения. #### Значимость Наш метод имеет широкое применение в системах по управлению дронами, мониторингу и безопасности. Он может быть применён для предотвращения рисков, возникающих при взаимодействии дронов с людьми или средствами. Это решение может быть использовано для мониторинга лесных территорий, городских пространств или систем обнаружения военных целей. Основное преимущество нашего подхода заключается в том, что он обеспечивает улучшение точности детекции дронов в реальных условиях, включая уз

Annotation:

We introduce a multi-modal WAVE-DETR drone detector combining visible RGB and acoustic signals for robust real-life UAV object detection. Our approach fuses visual and acoustic features in a unified object detector model relying on the Deformable DETR and Wav2Vec2 architectures, achieving strong performance under challenging environmental conditions. Our work leverage the existing Drone-vs-Bird dataset and the newly generated ARDrone dataset containing more than 7,500 synchronized images and aud...

ID: 2509.09859v1 cs.CV, cs.LG, 68W99

arXiv PDF

📄 MCL-AD: Multimodal Collaboration Learning for Zero-Shot 3D Anomaly Detection

2025-09-16

Авторы:

Gang Li, Tianjiao Chen, Mingle Zhou, Min Li, Delong Han, Jin Wan

## Контекст Zero-shot 3D (ZS-3D) anomaly detection является важной задачей, которая позволяет выявлять аномалии в 3D-объектах без необходимости использования меток для тренировочных данных. Эта задача имеет высокую значимость в сценариях, где данных для обучения ограничено, нет доступа к приватным данным, или требуется минимизировать затраты на метки. Однако, существующие методы, как правило, ограничиваются анализом только точечных исходных данных (point clouds), не учитывая богатые семантические сигналы, доступные из других модальностей, таких как RGB-изображения и текстовые представления. Это ограничение приводит к неэффективному использованию доступных ресурсов. Мы предлагаем MCL-AD, новую методологию, которая использует мультимодальное обучение для комбинирования сигналов из точечных данных, RGB-изображений и текстовых семантических сигналов, чтобы достичь более точных и высококачественных результатов в ZS-3D anomaly detection. ## Метод Мы предлагаем MCL-AD, фреймворк, который использует мультимодальное обучение для оптимального использования сигналов из разных модальностей: точечных данных, RGB-изображений и текстовых семантических сигналов. В центре нашего подхода лежит Multimodal Prompt Learning Mechanism (MPLM), который улучшает как внутримодальные представления, так и межмодальные коллаборации. MPLM включает в себя объект-агностичный декоупленный текстовый промоутер и мультимодальный контрастный потери. Для эффективного использования ресурсов, мы также предлагаем Collaborative Modulation Mechanism (CMM), который синхронно модиulates RGB-изображения и точечные данные, объединяя их взаимодействие и улучшая представление в рамках одного системного представления. Это инновационное решение позволяет MCL-AD достичь лидирующих результатов в ZS-3D anomaly detection. ## Результаты Мы провели обширные эксперименты на различных тестовых наборах данных, включая данные точек, RGB-изображения и текстовые признаки. Мы сравнили MCL-AD с другими современными методами в ZS-3D anomaly detection. Наши результаты показывают, что MCL-AD превосходит существующие методы в трех ключевых аспектах: точность, количество фальсипозитивов и общую скорость обработки. Мы также проверили точность в различных сценариях, включая сценарии с ограниченным количеством данных и сценарии с высоким уровнем шума. Результаты демонстрируют, что MCL-AD обеспечивает более точный детектор аномалий, даже в самых сложных условиях. ## Значимость MCL-AD имеет широкие применения в сферах, где необходимо выявлять аномалии в 3D-объектах без доступа к меток или в сценариях, где присутствуют богатые семантические сигналы из разных

Annotation:

Zero-shot 3D (ZS-3D) anomaly detection aims to identify defects in 3D objects without relying on labeled training data, making it especially valuable in scenarios constrained by data scarcity, privacy, or high annotation cost. However, most existing methods focus exclusively on point clouds, neglecting the rich semantic cues available from complementary modalities such as RGB images and texts priors. This paper introduces MCL-AD, a novel framework that leverages multimodal collaboration learning...

ID: 2509.10282v1 cs.CV, cs.LG

arXiv PDF

📄 Multi-pathology Chest X-ray Classification with Rejection Mechanisms

2025-09-16

Авторы:

Yehudit Aperstein, Amit Tzahar, Alon Gottlib, Tal Verber, Ravit Shagan Damti, Alexander Apartsin

## Контекст Исследование посвящено развитию моделей нейронных сетей для диагностики заболеваний на основе клетчатой интернализации с помощью глубокого обучения. Распространенная проблема в таких задачах состоит в том, что модели выводят недостаточно уверенные прогнозы, что может привести к ошибкам в критичных ситуациях. Это особенно актуально при классификации многомерных данных, таких как клетчатые изображения грудной клетки, где необходимо одновременно выявить несколько различных патологий. Модели, не умеющие отказываться от неуверенных прогнозов, могут выдавать ложные срабатывания, что ухудшает доверие к ним. Основная мотивация — создать модель, умеющую отказываться от неуверенных прогнозов и передавать такие случаи клиническим экспертам, чтобы повысить надежность диагностики. ## Метод Модель основана на архитектуре DenseNet-121, адаптированной для многомерной классификации клетчатых изображений грудной клетки. Для решения проблемы недостаточной уверенности в прогнозах введены два метода отказа от неуверенных прогнозов: 1. **Entropy-based rejection**: если неопределенность прогноза выше определенного порога, модель отказывается от прогноза и передает случай клиническому специалисту. 2. **Confidence interval-based rejection**: если прогноз не попадает в доверительный интервал для класса, модель также отказывается от прогноза. Был разработан процесс калибровки порогов для этих методов с использованием квантильной процедуры. Это позволяет адаптировать пороги к глобальной или класс-специфической ситуации. ## Результаты Исследование проводилось на трех крупных общедоступных датасетах: PadChest, NIH ChestX-ray14 и MIMIC-CXR. Оценки показали, что оба метода отказа от неуверенных прогнозов улучшают точность диагностики и уменьшают число ошибок. **Entropy-based rejection** демонстрирует наивысший **AUC** (Average Area Under Curve) для всех патологий, что делает его наиболее эффективным. Эти результаты подтверждают эффективность и практическую значимость использования отказа от неуверенных прогнозов в медицинских изображениях. ## Значимость Предложенная модель может использоваться в различных клинических ситуациях, где необходима надежная диагностика с минимальным риском ошибки. Основные преимущества: - Увеличение надежности прогноза. - Уменьшение числа ложных срабатываний. - Возможность передачи неуверенных случаев клиническим экспертам. Этот подход может стать важной составляющей в медицинских рабочих процессах, позволяя доверять искусственному интеллекту в критичных ситуациях. ## Выводы Предложенный подход доказал свою эффективность в улучшении диагностической точности и надежности моделей для клетчатой инт

Annotation:

Overconfidence in deep learning models poses a significant risk in high-stakes medical imaging tasks, particularly in multi-label classification of chest X-rays, where multiple co-occurring pathologies must be detected simultaneously. This study introduces an uncertainty-aware framework for chest X-ray diagnosis based on a DenseNet-121 backbone, enhanced with two selective prediction mechanisms: entropy-based rejection and confidence interval-based rejection. Both methods enable the model to abs...

ID: 2509.10348v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 SSL-AD: Spatiotemporal Self-Supervised Learning for Generalizability and Adaptability Across Alzheimer's Prediction Tasks and Datasets

2025-09-16

Авторы:

Emily Kaczmarek, Justin Szeto, Brennan Nichyporuk, Tal Arbel

## Контекст Alzheimer's disease (AD) — это хроническая, прогрессирующая заболевание, характеризующееся постепенным ухудшением памяти и когнитивных функций. Несмотря на развитые глубокие нейросетевые модели для предсказания AD, они сталкиваются с рядом проблем: ограниченная доступность меток данных, слабая община (generalizability) между различными данными, а также невозможность адаптироваться к разному числу сканов и интервалам времени между ними. Эти ограничения подчеркивают необходимость разработки моделей, которые могут обеспечить более широкую общину и гибкость при анализе данных. ## Метод В предложенной работе разрабатывается модель **SSL-AD**, основанная на **спектрально-пространственной самосупервизорной обучении (SSL)**, которая адаптируется для анализа трехмерных МРТ-сканов головного мозга. Методология основывается на двух ключевых компонентах: **подходе типа темпоральной порядковой прогнозирования** и **контрастивному обучению**. В качестве дополнения к этим подходам введены новые методы, способные справиться с проблемой неодинакового числа входных сканов и интервалов времени между ними. Эта модель позволяет повысить удовлетворяемость (robustness) модели к разным клиническим задачам, включая классификацию диагноза, определение конверсии и прогностическую модель будущих конверсий. ## Результаты Для тренировки использовались данные из четырех открытых баз данных, включающих 3,161 пациентов. Модель была протестирована на нескольких задачах предсказания AD, включая классификацию, определение конверсии и прогноз будущих конверсий. Результаты показали, что SSL-AD показала лучшую производительность по сравнению с моделями на основе супервизорного обучения в 6 из 7 задач. Особое внимание уделено ее гибкости и робастности при работе с разными входными данными, включая разное количество сканов и разные интервалы времени между ними. ## Значимость Предложенная модель может быть применена в различных клинических применениях, в том числе в диагностике, мониторинге и прогнозировании AD. Она предлагает важное решение для проблемы нехватки меток, а также обеспечивает высокую общину и гибкость при работе с разными данными. Благодаря этому, SSL-AD может стать полезным инструментом для разработки более точных и эффективных моделей в области предсказания и мониторинга AD. ## Выводы SSL-AD демонстрирует возможность использования самосупервизорного обучения для улучшения общины и гибкости моделей в области предсказания AD. Она показала значительное улучшение по сравнению с супервизорным обучением и может быть применена в различных клинических сценариях. Будущие ис

Annotation:

Alzheimer's disease is a progressive, neurodegenerative disorder that causes memory loss and cognitive decline. While there has been extensive research in applying deep learning models to Alzheimer's prediction tasks, these models remain limited by lack of available labeled data, poor generalization across datasets, and inflexibility to varying numbers of input scans and time intervals between scans. In this study, we adapt three state-of-the-art temporal self-supervised learning (SSL) approache...

ID: 2509.10453v1 cs.CV, cs.LG

arXiv PDF

📄 Automated Tuning for Diffusion Inverse Problem Solvers without Generative Prior Retraining

2025-09-16

Авторы:

Yaşar Utku Alçalar, Junno Yun, Mehmet Akçakaya

## Контекст В области развития генеративных моделей для решения инверских задач, таких как ускоренное восстановление изображений магнитной резонансной томографии (MRI), в последнее время наблюдается значительный прогресс. Диффузионные/скоростно-основые модели стали популярными генеративными примитивами для таких задач, благодаря их гибкости и возможности декомпозировать модель измерения от генеративного примитива. Однако, их эффективность сильно зависит от точного настройки данных фидертити-весов, особенно при использовании быстрых схем сэмплирования и небольшого числа данонинговых шагов. Традиционные подходы часто опираются на грубые интуитивные решения или установленные предварительно фиксированные веса, которые не могут эффективно адаптироваться к разным условиям измерений и нестандартным расписаниям. В данной работе мы предлагаем новый подход, Zero-shot Adaptive Diffusion Sampling (ZADS), который расширяет возможности текущих подходов, обеспечивая адаптивную настройку весов данных при тестировании без необходимости переучивать модель диффузионного примитива. ## Метод ZADS представляет собой метод оптимизации на этапе теста, который адаптивно настраивает веса фидбека в процессе создания изображений без необходимости переучивать генеративный примитив. Метод основывается на универсальной архитектуре методики построения диффузионных моделей, которая рассматривает диффузионный процесс как упорядоченную последовательность измерений и оптимизирует веса данных с помощью техник зеркального самосупервизора. Метод не требует дополнительных данных или тестовых выборок для переучивания модели. Основная идея заключается в том, что генеративный переменный (денойсинговый процесс) остается неизменным, в то время как веса фидбека адаптируются к конкретным условиям измерений, что позволяет достичь высокого качества распознавания даже при произвольных схемах сэмплирования. ## Результаты Эксперименты проводились на датасете fastMRI, который содержит разнообразные данные MRI с высоким разрешением и разными условиями измерений. Мы сравнили ZADS с традиционными методами, такими как сжатие сигнала (Compressed Sensing), и другими моделями диффузионных примитивов. Опытным путем мы показали, что ZADS показывает высокую точность восстановления изображений в различных ситуациях с измерениями и фидбеком, превосходя остальные подходы в соотношении качества исходного изображения и скорости вычислений. Значительное улучшение показался в сценариях с быстрым сэмплированием и нестандартными расписаниями, где другие методы часто сталкиваются с проблемами стабильности и качества. ## Значимость Предложенный подход им

Annotation:

Diffusion/score-based models have recently emerged as powerful generative priors for solving inverse problems, including accelerated MRI reconstruction. While their flexibility allows decoupling the measurement model from the learned prior, their performance heavily depends on carefully tuned data fidelity weights, especially under fast sampling schedules with few denoising steps. Existing approaches often rely on heuristics or fixed weights, which fail to generalize across varying measurement c...

ID: 2509.09880v1 eess.IV, cs.AI, cs.CV, cs.LG, physics.med-ph

arXiv PDF

📄 Drone-Based Multispectral Imaging and Deep Learning for Timely Detection of Branched Broomrape in Tomato Farms

2025-09-16

Авторы:

Mohammadreza Narimani, Alireza Pourreza, Ali Moghimi, Mohsen Mesgaran, Parastoo Farajpoor, Hamid Jafarbiglu

#### Контекст Branched broomrape (Phelipanche ramosa) является опасным паразитным растением, которое широко распространено в томатных фермах Калифорнии, где создаются 90% производства томатных продуктов в США. Это растение оказывает серьезное воздействие на урожайность и качество томатов, так как его имплантация происходит в почвенных слоях, а его развитие начинается в глубине земли. Традиционные методы борьбы с broomrape, такие как химическое лечение, являются дорогостоящими, вредными для окружающей среды и часто неэффективными. Это усиливает необходимость разработки более точных и экологически безопасных способов раннего выявления паразита. Многоспектральная дронная съемка и глубокое обучение представляют собой мощные инструменты, которые могут помочь определять broomrape на ранних стадиях, позволяя принимать быстрые и эффективные меры. #### Метод Для выявления broomrape использовались дрон-базированные многоспектральные снимки, обрабатываемые с помощью глубоких нейронных сетей типа Long Short-Term Memory (LSTM). Исследования проводились на томатном ферме в Woodland, где был заранее установлен распространенный бронморапе. Данные снимались на разных стадиях роста томатов, определенных через ростую степень (GDD). Для улучшения классификации взяты многоспектральные изображения, включающие отражение из растений, и исключились ненужные шумы. Для решения проблемы несбалансированности классов использовалась техника Synthetic Minority Over-sampling Technique (SMOTE). Эта методика позволила увеличить долю меньшинственных классов broomrape в обучающих данных. Также было использовано LSTM-сети для учета последовательности роста растений и для повышения точности выявления. #### Результаты За стадии роста GDD 897 было выявлено broomrape с общей точностью 79.09% и реколлокцией 70.36% без использования данных поздних стадий. Однако когда включались все стадии развития сети LSTM, точность определения broomrape значительно выросла. Лучший сценарий, включавший все стадии роста и использовавший технику SMOTE, показал общую точность 88.37% и реколлокцию 95.37%. Эти результаты указывают на возможность применения многоспектральной дрон-съёмки и LSTM для раннего выявления broomrape с высокой точностью, что может существенно повысить эффективность управления растениями и снизить убытки в сельскохозяйственном производстве. #### Значимость Этот подход имеет широкие применения в сельском хозяйстве, особенно в секторе томатной продукции. Многоспектральная дронная съемка, обработанная LSTM-сетями, может стать действительно прецизионным инструментом, уменьшающим потери и повышающий уровень санитарных мер в томатных зем

Annotation:

This study addresses the escalating threat of branched broomrape (Phelipanche ramosa) to California's tomato industry, which supplies over 90 percent of U.S. processing tomatoes. The parasite's largely underground life cycle makes early detection difficult, while conventional chemical controls are costly, environmentally harmful, and often ineffective. To address this, we combined drone-based multispectral imagery with Long Short-Term Memory (LSTM) deep learning networks, using the Synthetic Min...

ID: 2509.09972v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

1
2
58
59
60
61
62
83
84

Показано 591 - 600 из 835 записей