📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Enhancing compact convolutional transformers with super attention

2025-08-28

Авторы:

Simpenzwe Honore Leandre, Natenaile Asmamaw Shiferaw, Dillip Rout

## Контекст Современные модели конвейерных трансформеров становятся все более сложными, что негативно сказывается на их производительности и эффективности. Для решения этих проблем в статье предлагается модель, которая использует новый подход к токенизации и сжатию данных. Эта модель применяется в задачах с фиксированной длиной контекста, где традиционные модели часто сталкиваются с проблемами эффективности и точности. В частности, в тесте CIFAR100 модель показала существенное улучшение точности валидации по сравнению с базовыми моделями. Этот результат достигнут благодаря инновационной архитектуре, которая упрощает обучение и улучшает производительность. ## Метод Модель состоит из нескольких ключевых компонентов. Первый, **Tokenizer**, преобразует входные данные в токены с помощью полносвязного слоя. Второй, **Super Attention**, представляет собой усовершенствованный механизм внимания, который снижает объем вычислительных операций и упрощает обучение. Третий, **Sequence Pooling**, используется для сжатия последовательностей токенов, что позволяет эффективно обрабатывать длинные последовательности. Наконец, используется **Convolutional Tokenizer** для дополнительного сжатия токенов. Эта связка всех элементов позволяет модели достичь высокой точности с меньшим потреблением ресурсов. ## Результаты На тесте CIFAR100 модель показала существенное улучшение производительности. Точность валидации на 1% и 5% валидации растёт от 36.50% до 46.29% и от 66.33% до 76.31% соответственно. Это более эффективно, чем модель с Scaled Dot Product Attention (SDPA), которая работает медленнее и требует большего объема памяти при коротких контекстах. Модель также демонстрирует высокую стабильность при обучении и не требует дополнительных методов, таких как позиционные эмбеддинги или традиционная гиперпараметрическая оптимизация. Эти результаты подтверждают эффективность и универсальность нового подхода. ## Значимость Модель может быть применена в различных областях, включая обработку естественного языка, анализ изображений и видео. Высокая эффективность и упрощенная архитектура делают её привлекательной для сетей с ограниченными ресурсами. Благодаря своей простоте и точности модель подходит для использования в мобильных приложениях, малопроизводительных устройствах и контекстах с высоким уровнем сжатия данных. Это открывает новые возможности для развития ИИ на устройствах с ограниченным мощностным ресурсом. ## Выводы Результаты этого исследования открывают новые пути для развития моделей сжатых конвейерных трансформеров. Модель, описанная в статье, демонстрирует

Annotation:

In this paper, we propose a vision model that adopts token mixing, sequence-pooling, and convolutional tokenizers to achieve state-of-the-art performance and efficient inference in fixed context-length tasks. In the CIFAR100 benchmark, our model significantly improves the baseline of the top 1% and top 5% validation accuracy from 36.50% to 46.29% and 66.33% to 76.31%, while being more efficient than the Scaled Dot Product Attention (SDPA) transformers when the context length is less than the emb...

ID: 2508.18960v1 cs.CV, cs.LG

arXiv PDF

📄 USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

2025-08-28

Авторы:

Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He

## Контекст Изучение генерируемых стилистическими и тематическими ограничениями возникает во многих областях, включая глубокое обучение, графический дизайн, творческий текст и визуальный контент. Наиболее типичным является два разных подхода: стилистическая модель создает содержимое, сохраняя стилевую согласованность, в то время как тематическая модель сохраняет консистентность субъекта. Однако, подходы типично рассматриваются как взаимоисключающие, что создает проблему в создании моделей, способных одновременно обеспечить глубину содержания и стилевых компонентов. Эта проблема характеризуется взаимной антагонистичностью этих целей, которая часто приводит к взаимной потере качества. Существующие модели стилистической и тематической генерации обычно требуют переобучения или ручной коррекции, чтобы достичь приемлемого результата. Этот факт является мотивацией для разработки модели, которая может объединить эти две цели в единое решение. ## Метод Модель USO предлагает создать единый подход к обработке стилистических и тематических задач. Для этого предлагается разделять содержание и стиль, а затем рекомпонировать их в соответствии с конкретными потребностями. Основной инновацией является использование трехзвенной структуры модели: 1. **Дисентangling Scheme**: Эта часть состоит из двух подходов — style-alignment training и content-style disentanglement training, которые работают сплошной системой, чтобы обеспечить глубину анализа и композиции стиля и содержания. 2. **Style Reward Learning**: Это описано как SRL — Style Reward Learning, которое используется для оптимизации результатов, учитывая тематические и стилевые характеристики. 3. **USO-Bench**: Новая модель предлагается для оценки совместного эффекта стиля и содержания, а также для предоставления полного бенчмарка для сравнения различных моделей. ## Результаты Проведенные эксперименты показывают, что USO не только показывает высокую точность в выполнении задач стилистической и тематической генерации, но и достигает новых рекордов в сравнении с другими моделями. Модель была проверена на уникальном датасете USO-Bench, который содержит три пары (content images, style images, stylized content images), чтобы покрыть широкий спектр сценариев использования. Отчеты показывают, что USO достигает стабильно высокого качества в генерации содержания, которое коррелирует с этими целями. ## Значимость Модель USO предлагает новый подход к объединению стилистической и тематической генерации в едином фреймворке. Она имеет широкое применение в области глубокого обучения, включая редактирование текста, графический дизайн и творческую генерацию. Одним из основных

Annotation:

Existing literature typically treats style-driven and subject-driven generation as two disjoint tasks: the former prioritizes stylistic similarity, whereas the latter insists on subject consistency, resulting in an apparent antagonism. We argue that both objectives can be unified under a single framework because they ultimately concern the disentanglement and re-composition of content and style, a long-standing theme in style-driven research. To this end, we present USO, a Unified Style-Subject ...

ID: 2508.18966v1 cs.CV, cs.LG

arXiv PDF

📄 GReAT: leveraging geometric artery data to improve wall shear stress assessment

2025-08-28

Авторы:

Julian Suk, Jolanda J. Wentzel, Patryk Rygiel, Joost Daemen, Daniel Rueckert, Jelmer M. Wolterink

## Контекст Исследование динамики кровотока в организме человека является ключевым элементом в изучении многих медицинских заболеваний, в том числе ишемических сердечных заболеваний. Одним из критических показателей, определяющих риск развития таких заболеваний, является **wall shear stress (WSS)** — напряжение трения между кровью и стенками сосудов. Однако оценка WSS через компьютерные модели чрезвычайно трудоемка и требует сложных вычислительных симуляций. Большинство существующих алгоритмов используют малые наборы данных для обучения и не полностью используют геометрические особенности сосудов. В статье предлагается новый подход, использующий большой набор геометрических моделей трубообразных сосудов для повышения точности оценки WSS. ## Метод Проведена разработка уникальной методологии, основанной на **геометрических моделях трубообразных сосудов**. Метод включает в себя: 1. **Создание датасета из 8449 геометрических моделей трубообразных сосудов**, который был получен из коронарных систем. 2. Использование **характеристик геометрии**, основанных на **eigenvectors Laplacian**, для построения **heat kernel signature (HKS)** — оценки геометрических свойств моделей. 3. Разработка **self-supervised learning framework**, которая позволяет использовать этот большой набор данных для повышения точности оценки WSS. 4. Эксперименты проводились на клинической когорте из **49 пациентов**, чтобы проверить на практике эффективность полученных методов. ## Результаты Полученные результаты показывают, что **изучение геометрических моделей трубообразных сосудов позволяет значительно улучшить оценку WSS**. Были получены следующие результаты: - **Улучшение точности оценки низкого, среднего и высокого WSS** в сравнении с традиционными методами. - Значительно **повышение точности классификации, даже при ограниченных данных** (например, из клинического типа). - Модель после self-supervised pre-training показала свою **превосходность в использовании геометрических признаков** для повышения точности. ## Значимость Результаты имеют **значимую значимость в практических приложениях**: 1. **Улучшение диагностики заболеваний**, связанных с WSS — таких как ишемические сердечные заболевания. 2. **Повышение точности оценки WSS** в сочетании с медицинскими изображениями, что может уменьшить время и стоимость вычислительных симуляций. 3. Модель может быть использована в **патологических заболеваниях**, включая coronary artery disease (CAD), которые требуют точной оценки динамики кровотока. 4. Этот подход открывает пути для дальнейшего исследования **других медицинских данных** с использованием **big data и маши

Annotation:

Leveraging big data for patient care is promising in many medical fields such as cardiovascular health. For example, hemodynamic biomarkers like wall shear stress could be assessed from patient-specific medical images via machine learning algorithms, bypassing the need for time-intensive computational fluid simulation. However, it is extremely challenging to amass large-enough datasets to effectively train such models. We could address this data scarcity by means of self-supervised pre-training ...

ID: 2508.19030v1 cs.CV, cs.LG

arXiv PDF

📄 Learning Binary Sampling Patterns for Single-Pixel Imaging using Bilevel Optimisation

2025-08-28

Авторы:

Serban C. Tudosie, Alexander Denker, Zeljko Kereta, Simon Arridge

## Контекст Single-Pixel Imaging (SPI) представляет собой инновационную технологию, позволяющую восстанавливать изображения с помощью только одного пиксельного детектора. Эта технология основывается на последовательном освещении объекта структурированной световой паттерной, а затем анализе сгенерированных сигналов с помощью одного детектора. Однако существуют значительные сложности в оптимизации структурированных паттернов для конкретных задач, таких как микроскопия с помощью SPI. Наличие задач, требующих высокой точности и скорости, делает необходимыми более эффективные методы для проектирования паттернов. В данной работе рассматривается применение билевел-оптимизации для создания задач-специфических, бинарных паттернов, оптимизированных для решения таких задач, как микроскопия с помощью SPI. ## Метод Для решения проблемы оптимизации бинарных паттернов был применен метод билевел-оптимизации. Этот подход разделяет задачу на две уровневые оптимизации: верхний уровень оптимизирует качество восстановления изображения, а нижний уровень оптимизирует бинарные паттерны. Для устранения непроизводящихся свойств бинарных паттернов использован Straight-Through Estimator (STE), позволяющий вычислять производные через непрерывные приближения. Кроме того, в формулировке билевел-метода был включен регуляризатор Total Deep Variation, чтобы обеспечить гладкость и регулярность решения. Эта архитектура позволяет эффективно решать задачи, где паттерны должны быть оптимизированы для конкретных задач, таких как микроскопия с помощью SPI. ## Результаты Метод был проверен на датасете CytoImageNet, который содержит микроскопические изображения. Оптимизированные бинарные паттерны были сравнены с базовыми методами проектирования паттернов. Эксперименты показали, что паттерны, полученные с помощью предложенного подхода, обеспечивают значительное улучшение точности восстановления изображений, особенно при высоком уровне уменьшения выборки. Это демонстрирует эффективность метода в решении задач SPI в режимах низкого объема данных. ## Значимость Предложенный подход имеет широкое применение в сфере микроскопии и других областях, где требуется высокая точность восстановления изображений с помощью SPI. Метод позволяет эффективно использовать ограниченные ресурсы для получения более качественных результатов. Он также открывает пути для дальнейшего исследования оптимизации паттернов в SPI, включая применение для различных типов микроскопов и задач, требующих высокой скорости и точности. ## Выводы Результаты показывают, что предложенный метод билевел-оптимизации эффективно ре

Annotation:

Single-Pixel Imaging enables reconstructing objects using a single detector through sequential illuminations with structured light patterns. We propose a bilevel optimisation method for learning task-specific, binary illumination patterns, optimised for applications like single-pixel fluorescence microscopy. We address the non-differentiable nature of binary pattern optimisation using the Straight-Through Estimator and leveraging a Total Deep Variation regulariser in the bilevel formulation. We ...

ID: 2508.19068v1 cs.CV, cs.LG, math.OC, physics.optics

arXiv PDF

📄 Random forest-based out-of-distribution detection for robust lung cancer segmentation

2025-08-28

Авторы:

Aneesh Rangnekar, Harini Veeraraghavan

## Контекст Автоматическая детекция и сегментация раковых опухолей на изображениях полученных методом компьютерной томографии (CT) является критически важной задачей в области медицинского искусственного интеллекта. Это позволяет обеспечить точное планирование лечения и оценку эффективности терапии. Однако существуют значительные вызовы, связанные с точностью работы сегментационных моделей, особенно при использовании данных, отличающихся от обучающих (out-of-distribution, OOD). Традиционные модели часто не могут точно детектировать OOD случаи, что приводит к неточностям и нестабильности в работе систем. Мотивация для данного исследования заключается в разработке универсального метода, который мог бы улучшить надеждность сегментации в случаях, когда данные отличаются от обучающих. ## Метод Для решения этой проблемы предлагается использование Random Forest-based Out-of-Distribution Detection (RF-Deep). Этот подход использует deep features, полученные от предобученного transformer-based segmentation model, чтобы обнаружить OOD случаи. Модель представляет собой random forest classifier, который принимает deep features, полученные от Swin Transformer encoder. Этот encoder был предобучен с помощью masked image modeling (SimMIM) на большом количестве необъективированных 3D CT сканов, отражающих как раковые, так и здоровые ткани. Для сегментации легкоклеточных опухолей легких была использована convolution decoder. Модель была протестирована на 603 3D CT сканах, включавших один in-distribution (ID) games и четыре OOD datasets: chest CTs with pulmonary embolism (PE) и COVID-19, а также abdominal CTs с kidney cancers и healthy volunteers. ## Результаты Проведенные эксперименты показали, что RF-Deep достигает значительной точности в детекции OOD случаев. Он обнаруживает OOD cases с FPR95 равным 18.26% на PE, 27.66% на COVID-19, и менее 0.1% на abdominal CTs. Это значительно превосходит существующие OOD detection approaches. Благодаря использованию deep features, RF-Deep увеличивает надежность сегментации в области cancer segmentation, даже при работе с нестандартными данными. ## Значимость Результаты этого исследования имеют широкие приложения в области медицинского искусственного интеллекта. Они могут быть применены для улучшения надежности сегментации раковых опухолей в различных клинических сценариях, включая OOD случаи. Это имеет перспективы для повышения точности планирования лечения и оценки терапии. Разработанный подход также открывает возможности для дальнейшего исследования в области OOD detection, стабилизации моделей и улучшения их универсальности. ## Выводы Разработанный RF-Deep подход является простым и эффективным инструментом для улучшения надежности сегментации раковых опухолей в ID и OOD сценариях. Он устанавливает новый стандарт точности и надежности в данной области. Будущие работы будут сосредоточены на расширении применений этого

Annotation:

Accurate detection and segmentation of cancerous lesions from computed tomography (CT) scans is essential for automated treatment planning and cancer treatment response assessment. Transformer-based models with self-supervised pretraining can produce reliably accurate segmentation from in-distribution (ID) data but degrade when applied to out-of-distribution (OOD) datasets. We address this challenge with RF-Deep, a random forest classifier that utilizes deep features from a pretrained transforme...

ID: 2508.19112v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 A Bag of Tricks for Efficient Implicit Neural Point Clouds

2025-08-28

Авторы:

Florian Hahlbohm, Linus Franke, Leon Overkämping, Paula Wespe, Susana Castillo, Martin Eisemann, Marcus Magnor

#### Контекст Implicit Neural Point Cloud (INPC) — это недавно предложенная гибридная представление, которая объединяет выразительность нейропространств с эффективностью точечного рендеринга. Она достигает выдающегося качества в изображениях при новом просмотре. Тем не менее, как и другие высококачественные методы, требующие запросов к нейросетям во время рендеринга, INPC страдает от достаточно медленной скорости рендеринга. Это ограничивает ее практическую пригодность. В данной работе мы предлагаем набор оптимизаций, значительно повышающих производительность INPC при тренировке и рендеринге, при этом не ухудшая качество изображений. Особое внимание уделено улучшению rasterizer-а, эффективному методу выбора точек и использованию предварительного тренировочного процесса для нейросети, решающей проблему заполнения пропусков. Мы также показываем, что моделирование точек в качестве малых гауссовых функций во время рендеринга может существенно повысить качество. Наши оптимизации широко применяются за пределами INPC и подробно оцениваются в наших экспериментах. #### Метод Мы предлагаем набор оптимизаций для улучшения производительности INPC. Это включает улучшение rasterizer-а, чтобы более эффективно обрабатывать точки, методы выбора точек, который позволяет более эффективно использовать ресурсы, и предварительный тренировочный процесс для нейросети, решающей проблему заполнения пропусков. Мы также внедрили моделирование точек в виде малых гауссовых функций для улучшения качества во время рендеринга. Наша архитектура представляет собой систему, которая может быть расширена на другие задачи, неоградиентных методов. Мы тщательно оцениваем каждую из этих оптимизаций в ряде экспериментов, сравнивая результаты с существующими методами. #### Результаты Мы провели эксперименты, сравнивая наши оптимизированные INPC с базовым методом. Мы показали, что наша реализация 25% быстрее при тренировке и 2 раза быстрее при рендеринге, при этом уменьшает потребление видеопамяти на 20%. Мы также продемонстрировали, что моделирование точек в виде малых гауссовых функций приводит к улучшению качества во время рендеринга в extrapolated views. Общий результат показывает, что наша оптимизированная INPC может выполняться до 25% быстрее при тренировке, до 2 раз быстрее при рендеринге, и иметь 20% меньше потребления видеопамяти, при этом сохраняя высокое качество изображений. #### Значимость Наши оптимизации могут быть применены во многих областях, где требуется эффективность в рендеринге точечных облаков и качество изобра

Annotation:

Implicit Neural Point Cloud (INPC) is a recent hybrid representation that combines the expressiveness of neural fields with the efficiency of point-based rendering, achieving state-of-the-art image quality in novel view synthesis. However, as with other high-quality approaches that query neural networks during rendering, the practical usability of INPC is limited by comparatively slow rendering. In this work, we present a collection of optimizations that significantly improve both the training a...

ID: 2508.19140v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 Analysis of Transferability Estimation Metrics for Surgical Phase Recognition

2025-08-27

Авторы:

Prabhant Singh, Yiping Li, Yasmina Al Khalil

## Контекст Область исследования — анализ методов для оценки передовой мощности (transferability) моделей машинного обучения в задачах анализа сургиских видео. Одним из основных заданий в этой области является выбор наиболее подходящей предобученной модели для дальнейшего fine-tuning на задачу распознавания фаз сургерии. Этот выбор становится критически важным в условиях ограниченного количества меток, необходимых для обучения. Одним из подходов является source-independent transferability estimation (SITE), позволяющий предсказать эффективность fine-tuning'а на основе существующих векторов выхода или эмбеддингов модели, не требуя полной перепрограммировки. Несмотря на преимущества SITE, существуют проблемы, такие как ограниченная общность и возможность неточных оценок, которые могут привести к недостоверному выбору модели. Цель данного исследования — оценить и сравнить три широко используемых метрики SITE в контексте задачи распознавания фаз в сургерии (surgical phase recognition). ## Метод Методология основывается на сравнительном анализе трех метрик SITE: LogME, H-Score и TransRate. Данные для тестирования были взяты из двух различных наборов данных: RAMIE и AutoLaparo. Эти метрики были измерены для трех предобученных моделей, а результаты были сравнивались с реальным fine-tuning'ом для проверки точности предсказаний. Аблационные эксперименты проводились для оценки значимости различных аспектов, таких как качество модели, размеры датасетов и их разнообразие. Для визуализации и анализа результатов использовались графики, такие как boxplots и scatter plots. ## Результаты Результаты экспериментов показали, что LogME показывает наиболее точные предсказания для fine-tuning'а в большинстве случаев, особенно при использовании минимума персональных оценок подмножеств. H-Score оказался менее точным, несмотря на свою теоретическую основу. TransRate, наоборот, часто давал неверные рейтинги моделей, превращая приемлемые версии в предположительно более предпочтительные. Аблационные исследования продемонстрировали, что при схожем качестве моделей, transferability metrics становятся менее дискриминативными, что подчеркивает важность разнообразия моделей или дополнительных проверок для поддержки стабильных выборок. ## Значимость Полученные результаты имеют практическое значение для практических задач в сургерии, таких как распознавание фаз операций и анализ сургериальных видео. SITE-метрики помогают уменьшить накладные расходы на подготовку данных, оценивая передовую мощность моделей без полного fine-tuning'а. Это может существенно сократить время и затраты на обучение моделей. Кроме того, результаты могут быть применены в других областях, где требуется оптимизация выбора предобученных моделей, таки

Annotation:

Fine-tuning pre-trained models has become a cornerstone of modern machine learning, allowing practitioners to achieve high performance with limited labeled data. In surgical video analysis, where expert annotations are especially time-consuming and costly, identifying the most suitable pre-trained model for a downstream task is both critical and challenging. Source-independent transferability estimation (SITE) offers a solution by predicting how well a model will fine-tune on target data using o...

ID: 2508.16730v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Preserving Domain Generalization in Fine-Tuning via Joint Parameter Selection

2025-08-27

Авторы:

Bin Pan, Shiyu Shen, Zongbin Wang, Zhenwei Shi, Xia Xu

## Контекст Domain generalization является задачей развития моделей, которые могут обучаться на ограниченном количестве исходных доменов и эффективно обобщаться на неизвестных целевых доменах. Однако существующие подходы часто используют большие предварительно обученные модели в качестве инициализации, но эти модели могут лишаться их универсальных способностей во время полной оптимизации. Это снижает их общую жизнеспособность и способность обобщаться. Задача статьи — разработать метод, который способен поддерживать общую способность модели, оптимизируя только часть её параметров. Это позволит сохранить ценность предварительной модели, сделав модели более устойчивыми и гибкими для различных задач. ## Метод Метод, предложенный в статье, называется Joint Parameter Selection (JPS). Он стремится ограничить обновление параметров только самыми важными, спарсими, но в то же время эффективными. Решение включает два оператора: один для выбора параметров, способных принести самое большое влияние и сохранить универсальные свойства, а другой — для регулирования этих параметров. Архитектура является универсальной и может быть сочетана с различными предварительно обученными моделями. Теоретический анализ показывает, что этот подход гарантирует уменьшение обобщающей ошибки, если учитывать только самые важные параметры. Это позволяет установить теоретическую основу для JPS, оправдывающую его эффективность. ## Результаты Разработанные эксперименты проводились на различных бенчмарках в области данных изображений, где использовались предварительно обученные модели. Метод JPS был сравнен с текущими стандартами в области domain generalization. Результаты показали, что JPS не только повышает предсказательную точность, но и сохраняет генеральную способность модели. Этот подход показал лучшие результаты в сравнении с современными методами, установив новый стандарт для области domain generalization. Это подтверждает то, что JPS эффективно обеспечивает сбалансированное уменьшение ошибки и сохранение универсальных возможностей модели. ## Значимость Предложенный подход может применяться в области обработки изображений, машинного обучения, где требуется поддержать универсальность моделей в разных задачах, включая медицину, автоматизированные системы и многие другие. Он позволяет улучшить качество моделей в целом, сохраняя их универсальные способности. Это значительно увеличивает их применимость в различных сферах. За счет того, что JPS ограничивает обновление, он экономит ресурсы и улучшает общую эффективность машинного обучения. ## Выводы В статье был представлен новый подход к domain generalization, который

Annotation:

Domain generalization seeks to develop models trained on a limited set of source domains that are capable of generalizing effectively to unseen target domains. While the predominant approach leverages large-scale pre-trained vision models as initialization, recent studies have highlighted that full fine-tuning can compromise the intrinsic generalization capabilities of these models. To address this limitation, parameter-efficient adaptation strategies have emerged, wherein only a subset of model...

ID: 2508.16976v1 cs.CV, cs.LG

arXiv PDF

📄 SugarcaneShuffleNet: A Very Fast, Lightweight Convolutional Neural Network for Diagnosis of 15 Sugarcane Leaf Diseases

2025-08-27

Авторы:

Shifat E. Arman, Hasan Muhammad Abdullah, Syed Nazmus Sakib, RM Saiem, Shamima Nasrin Asha, Md Mehedi Hasan, Shahrear Bin Amin, S M Mahin Abrar

#### Контекст Область исследования связана с развитием искусственного интеллекта для диагностики заболеваний растений, в частности, соломы. Ранее разработанные модели диагностики часто не подходят для использования в реальных условиях по причине высокой сложности, большого объема вычислительных ресурсов и неэффективности работы в реальном времени. Задача предлагаемой работы — создать систему, которая была бы доступна в ресурсораспределенных регионах и могла бы оказать поддержку практическим сельскохозяйственным производителям. Для этого требуется создание новой проверочной коллекции данных, оптимизированной модели и инструмента для полевой работы. #### Метод Методология разработки состоит из нескольких этапов. Во-первых, была создана новая проверочная коллекция SugarcaneLD-BD, содержащая 638 изображений, собранных в различных условиях сельского хозяйства Бангладеша, и верифицированных экспертами. Для увеличения диверсии данных, эта коллекция была сочетана с двумя другими данными. Во-вторых, разработана модель SugarcaneShuffleNet с оптимизированной архитектурой, работающая с лучшим соотношением скорости и точности. Эта модель весит всего 9.26 МБ, достигает точности 98.02% и F1-метрики 0.98, а среднее время вывода — 4.14 мс на изображение. Третьим этапом является разработка Progressive Web Application SugarcaneAI, позволяющей совместить модель с полевыми условиями, включая Grad-CAM-объяснения. #### Результаты Коллекция SugarcaneLD-BD была проверена на точность и разнообразии. Модель SugarcaneShuffleNet отличается скоростью и эффективностью, достигая 98.02% точности и 0.98 F1-метрики за 4.14 мс на изображение. Модели MnasNet и EdgeNeXt, примененные в качестве конкурентов, требуют более высокого объема памяти и вычислительных ресурсов, что снижает их пригодность для ресурсораспределенных секторов. SugarcaneAI с представленной моделью и Grad-CAM-объяснениями позволяет решать задачи диагностики лесенкой в полевых условиях. #### Значимость Предлагаемая система может быть использована в разных сельскохозяйственных секторах, включая диагностику лесенков. Она предоставляет высокую эффективность и низкое требование к вычислительным ресурсам, что делает ее пригодной для использования в условиях ресурсораспределенных секторов. Инструмент может быть развернут в многофункциональном веб-приложении, предлагая возможности интерпретируемости модели, что увеличивает его полезность в практических приложениях. #### Выводы Разработанная система SugarcaneShuffleNet, SugarcaneLD-BD и SugarcaneAI представляет собой новый шаг в развитии моделей анализа данных для диагностики

Annotation:

Despite progress in AI-based plant diagnostics, sugarcane farmers in low-resource regions remain vulnerable to leaf diseases due to the lack of scalable, efficient, and interpretable tools. Many deep learning models fail to generalize under real-world conditions and require substantial computational resources, limiting their use in resource-constrained regions. In this paper, we present SugarcaneLD-BD, a curated dataset for sugarcane leaf-disease classification; SugarcaneShuffleNet, an optimized...

ID: 2508.17107v1 cs.CV, cs.LG

arXiv PDF

📄 VROOM - Visual Reconstruction over Onboard Multiview

2025-08-27

Авторы:

Yajat Yadav, Varun Bharadwaj, Jathin Korrapati, Tanish Baranwal

#### Контекст Формула 1 — одна из самых интенсивных и требовательных спортивных дисциплин, где каждая деталь играет ключевую роль. Одной из задач в рамках данного типа автоспорта является восстановление трехмерных моделей трасс на основе данных, полученных с бортовых камер. Такой подход может быть применен для повышения точности систем навигации, моделирования виртуальных трасс, а также для анализа работы гонщиков. Однако, восстановление трехмерных моделей в стохастических и быстро меняющихся условиях, таких как на большой скорости и с жесткими изменениями вида, представляется сложной. Такие быстротечные условия часто приводят к высокому уровню шума в данных, что сильно затрудняет использование традиционных методов восстановления. В настоящей работе представляется VROOM — система визуального восстановления трехмерных моделей на основе бортовых камер. Основной целью является разработка метода, который может использоваться в реальных условиях, не требуя дополнительных машинных ресурсов или специальных камер. #### Метод VROOM использует видеопоток с бортовых камер, полученный во время реальных гонок. Для восстановления трехмерных моделей используется последовательность методов: 1. **Preprocessing**: Включает маскирование, временное сегментирование и скалирование разрешения. Эти методы позволяют приспособиться к высокой скорости движения и резким переходам между кадрами. 2. **DROID-SLAM**: Метод визуальной ориентации и определения местоположения, использующий детальный анализ кадров для построения пространственных моделей. 3. **AnyCam**: Метод, позволяющий определить движение камеры в потоке видео. 4. **Monst3r**: Метод сбора данных о трехмерной структуре вокруг камеры. Последовательность этих методов позволяет обрабатывать изображения в живой среде, когда условия не позволяют применять простые алгоритмы. #### Результаты В результате экспериментов, проведенных на данных от Monaco Grand Prix 2023, VROOM получил некоторые трехмерные модели трассы и автомобиля. Несмотря на высокую скорость движения и жесткие изменения вида, модели показали достаточную точность в сохранении основных черт трассы и траекторий. Эти результаты подтверждают, что трехмерное восстановление в реальных условиях гонок можно осуществить с помощью видеопотока бортовых камер. #### Значимость Результаты VROOM открывают новые возможности для трехмерного моделирования в реальных условиях, включая автоматическое моделирование трасс, навигацию и анализ данных в спортивных соревнованиях. Благодаря использованию доступных ресурсов, таких как бортовые камеры, эта система может быть применена

Annotation:

We introduce VROOM, a system for reconstructing 3D models of Formula 1 circuits using only onboard camera footage from racecars. Leveraging video data from the 2023 Monaco Grand Prix, we address video challenges such as high-speed motion and sharp cuts in camera frames. Our pipeline analyzes different methods such as DROID-SLAM, AnyCam, and Monst3r and combines preprocessing techniques such as different methods of masking, temporal chunking, and resolution scaling to account for dynamic motion a...

ID: 2508.17172v1 cs.CV, cs.LG

arXiv PDF

1
2
68
69
70
71
72
83
84

Показано 691 - 700 из 835 записей