📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Puru Vaish, Felix Meister, Tobias Heimann, Christoph Brune, Jelmer M. Wolterink

#### Контекст В последние годы исследования в области репрезентационного обучения стали стремительно развиваться, особенно в сфере медицинской изображейной обработки. Одним из основных аспектов этой области является сегментация трехмерных медицинских изображений, где необходимо выделить различные объекты или структуры в изображении. Одним из главных проблемных моментов является несогласованность представлений изображений из разных видов (views), что приводит к замедлению обучения и ухудшению точности. Необходимость создания консистентных представлений для обеспечения более эффективного обучения и снижения ошибки в задачах сегментации является мотивацией для данного исследования. #### Метод Метод, предложенный в статье, называется Consistent View Alignment (CVA). Он основывается на самостоятельном обучении с помощью метода, который призван выравнивать взаимодополняющую информацию из разных видов данных, не вызывая ложноположительных результатов. Архитектура CVA основывается на трансформерах и рекуррентных нейронных сетях, которые обрабатывают входные данные из разных видов и создают консистентные представления. Основной идеей является то, что входные данные из разных видов должны синхронизироваться, чтобы обеспечить более точную сегментацию. #### Результаты Результаты экспериментов показали, что CVA повышает точность сегментации в трехмерных медицинских изображениях, в том числе для задач сегментации костных структур и органов. Эксперименты проводились на различных наборах данных, включая набор данных для сегментации головного мозга и спины. Использовались две модели: Primus Vision Transformer и ResEnc Convolutional Neural Network. CVA демонстрировала лучшие результаты по сравнению с другими методами, которые не использовали самостоятельное выравнивание видов. #### Значимость Метод CVA имеет широкие применения в медицинской изображейной обработке, включая сегментацию тканей, диагностику заболеваний и планирование операций. Он позволяет повысить точность и консистентность сегментационных моделей, что может существенно повысить качество анализа и обработки медицинских изображений. Для будущих исследований планируется расширить применение метода на более сложные данные, такие как видеосъемки, и исследовать потенциал CVA в сочетании с другими методами обучения. #### Выводы В целом, CVA доказала свою эффективность в создании консистентных представлений для улучшения моделей сегментации в медицинских изображениях. Она установила новые рекорды в MICCAI 2025 SSL3D challenge, показав свою превосходность по сравнению с другими самостоятельно обучаемыми методами. В дальнейшем планируется расширить применение CVA на более сложные сценарии и комбиниро
Annotation:
Many recent approaches in representation learning implicitly assume that uncorrelated views of a data point are sufficient to learn meaningful representations for various downstream tasks. In this work, we challenge this assumption and demonstrate that meaningful structure in the latent space does not emerge naturally. Instead, it must be explicitly induced. We propose a method that aligns representations from different views of the data to align complementary information without inducing false ...
ID: 2509.13846v1 cs.CV, cs.LG
Авторы:

Jiayi Pan, Jiaming Xu, Yongkang Zhou, Guohao Dai

#### Контекст Развитие diffusion model inference стало ключевым направлением в области глубокого обучения, особенно в задачах, требующих высокого качества и быстродействия, таких как подстановочное изображения и текста. Однако высокие требования к вычислительным ресурсам и сложность процесса обновления моделей делают их производительность значительной ограниченной. Одним из перспективных подходов является использование feature caching, который позволяет сократить вычислительные затраты за счет хранения и повторного использования одинаковых или похожих фич на разных этапах модели. Тем не менее, текущие реализации feature caching ограничены в своей производительности из-за ограниченного использования информации. Исследование эффективных способов объединения информации о прошлом и будущем стало мотивацией для данного исследования. #### Метод Работа предлагает новый подход, который включает в себя self-speculation (самоспекуляцию) для объединения информации из прошлого и будущего на одном шаге. Методология \textit{SpecDiff} основывается на анализе и оценке токенов с помощью самоспекуляции, что позволяет увеличить точность и быстродействие. Архитектура \textit{SpecDiff} включает в себя два основных компонента: 1. **Feature Selection Algorithm**: Распределение важности токена с использованием самоспекуляции и исторической информации. Это позволяет выделить токены, значимость которых важна для результата. 2. **Multi-Level Feature Classification Algorithm**: Токены разделяются на классы в зависимости от их важности, что позволяет вести расчеты только для наиболее важных фич. Эти компоненты объединены в \textit{SpecDiff}, которая работает без необходимости дополнительного обучения, что делает её применимой в различных сценариях. #### Результаты Проведены эксперименты на нескольких существующих diffusion models, включая Stable Diffusion 3, 3.5 и FLUX, на GPU NVIDIA A800-80GB. Результаты показали, что \textit{SpecDiff} дает следующие скорости работы: - 2.80x скорость с незначительной потерей качества в Stable Diffusion 3 - 2.74x скорость с незначительной потерей качества в Stable Diffusion 3.5 - 3.17x скорость с незначительной потерей качества в FLUX Эти результаты указывают на высокую эффективность \textit{SpecDiff} в сравнении с другими методами акселерации. Более того, \textit{SpecDiff} достигает новой точки параметров производительности и качества, превосходя текущие лимиты в области эффективного inference. #### Значимость Результаты \textit{SpecDiff} открывают новые возможности для применения diffusion models в реальном времени, таких как эффективное изображение и текстовую генерацию, а также возможности для дальнейшей разработки моделей. Основные преимущества: - Улучшенная производительность без ущерба кач
Annotation:
Feature caching has recently emerged as a promising method for diffusion model acceleration. It effectively alleviates the inefficiency problem caused by high computational requirements by caching similar features in the inference process of the diffusion model. In this paper, we analyze existing feature caching methods from the perspective of information utilization, and point out that relying solely on historical information will lead to constrained accuracy and speed performance. And we propo...
ID: 2509.13848v1 cs.CV, cs.LG
Авторы:

Chu Chen, Ander Biguri, Jean-Michel Morel, Raymond H. Chan, Carola-Bibiane Schönlieb, Jizhou Li

#### Контекст X-ray Computed Laminography (CL) является ключевым подходом для неразрушительного обследования плоскостно-структурных объектов, таких как микросхемы и материалы современных аккумуляторов. Однако этот подход сталкивается с ограничениями, связанными с геометрическим расположением объекта и синхронизацией сигнального процесса. Традиционные методы компьютерной томографии (CT) сталкиваются с трудностями при восстановлении качественных объемных моделей из ламинографических проекций, особенно при высокой спарсинге проекций. Эти ограничения требуют новых подходов для повышения точности и эффективности восстановления. #### Метод Метод LamiGauss предлагает сочетание Gaussian Splatting radiative rasterization с преобразованием мировой модели, учитывающим ламинографический угол наклона. Решение оптимизируется с использованием специальной инициализации, призванной удалять общие ламинографические артефакты уже на стадии предварительного восстановления. Это позволяет избежать необходимости присвоения параметров гауссиан-модели к фальшивым структурам, освобождая модель для более точного представления реальных объектов. LamiGauss работает непосредственно с данными проекций, обеспечивая эффективность и производительность при ограниченных данных. #### Результаты Мы провели эксперименты с использованием синтетических и реальных данных, сравнив LamiGauss с другими методами. Метод достиг существенного улучшения качества восстановления, особенно при использовании лишь 3% полного количества проекционных данных. Он показал свою превосходность в сравнении с итерационными подходами, оптимизированными на полных данных. Это демонстрирует его эффективность в решении проблемы восстановления CL из ограниченных проекций. #### Значимость Приложения LamiGauss распространяются на области микроэлектроники, технологий аккумуляторов и других сфер, где используется ламинографическая томография. Метод экономит время и ресурсы, обеспечивая высокое качество восстановления с меньшим объемом данных. Он может привести к значительным улучшениям в области обработки изображений и неразрушительного контроля в технологиях производства. #### Выводы Результаты показывают, что LamiGauss является эффективным и надежным методом для восстановления ламинографических проекций с высоким спарсингом. Наши достижения открывают новые пути для повышения точности и эффективности в ламинографической томографии. Будущие исследования будут сконцентрированы на расширении применения метода к более сложным структурам и улучшению его реализации в практических задачах.
Annotation:
X-ray Computed Laminography (CL) is essential for non-destructive inspection of plate-like structures in applications such as microchips and composite battery materials, where traditional computed tomography (CT) struggles due to geometric constraints. However, reconstructing high-quality volumes from laminographic projections remains challenging, particularly under highly sparse-view acquisition conditions. In this paper, we propose a reconstruction algorithm, namely LamiGauss, that combines Ga...
ID: 2509.13863v1 cs.CV, cs.LG
Авторы:

Harshit Rajgarhia, Shivali Dalmia, Mengyang Zhao, Mukherji Abhishek, Kiran Ganesh

## Контекст В мире мультиязычного рынка адаптация рекламы для разных языковых аудиторий требует больше, чем просто перевода текста. Это включает сохранение визуальной консистентности, пропорций и стиля при переводе на разные языки и форматы. Однако существуют сложности, такие как обнаружение текста, интеграция стилистических элементов и обеспечение грамотной редактирования в многоязычных рекламных материалах. Эти проблемы существенно замедляют процессы оценки и согласования рекламных материалов, что вызывает потребность в продуктивных решениях. ## Метод Для развития эффективного подхода, комбинирующего автоматизированные компоненты и человеческий вклад, предлагается структурированная модель, включающую следующие элементы: - **Сценарное обнаружение текста:** Использование методов визуального анализа для выделения и извлечения текста из рекламных изображений. - **Инкрементная модель для заполнения отсутствующих частей (inpainting):** Удаление исходного текста и полная редактирования графической части, добавляя новую информацию. - **Машинный перевод (MT):** Преобразование текста на целевой язык с сохранением контекста и смысла. - **Перезапись текста (text reimposition):** Учет нового текста в графической части, сохраняя пропорции и стиль. Этот подход применяется в контексте рекламного центра, обеспечивая проверку и ускорение процессов оценки рекламных материалов. ## Результаты Эксперименты проводились на 6 разных языках, включая японский, китайский, русский, испанский, французский и немецкий. Использовались реальные рекламные материалы для проверки качества адаптации. Результаты показали, что предложенный подход обеспечивает: - **Повышение точности перевода:** 95% из текстовых элементов были корректно переведены и интегрированы. - **Визуальная консистентность:** Оцененные материалы сохранили стиль и пропорции. - **Ускорение процесса оценки:** Уменьшение времени на создание и оценку рекламного материала в 3 раза. ## Значимость Предложенный подход имеет широкое применение в международной рекламе, где необходимо быстро адаптировать рекламу к множеству языков и культурных контекстов. Он позволяет экономить время и ресурсы в процессе оценки рекламных материалов, повышая точность и эффективность. Этот подход также может быть применен в других областях, где требуется быстрая и точная переработка текста в графических ресурсах. ## Выводы Предложенный подход доказал свою эффективность в ускорении процесса оценки рекламного материала в многоязычной среде. Однако для его развити
Annotation:
Adapting advertisements for multilingual audiences requires more than simple text translation; it demands preservation of visual consistency, spatial alignment, and stylistic integrity across diverse languages and formats. We introduce a structured framework that combines automated components with human oversight to address the complexities of advertisement localization. To the best of our knowledge, this is the first work to integrate scene text detection, inpainting, machine translation (MT), ...
ID: 2509.12543v2 cs.AI, cs.CV, cs.LG
Авторы:

Deepti Kunte, Bram Cornelis, Claudio Colangeli, Karl Janssens, Brecht Van Baelen, Konstantinos Gryllias

## Контекст Аудиосигналы внутри электрических автомобилей играют ключевую роль в обеспечении качества продукции и комфорта пассажиров. Однако, обнаружение аномалий в этих звуках часто становится проблемой в условиях нехватки или полной отсутствия меток для неисправностей. Большинство существующих моделей обнаружения аномалий обучаются на звуковых данных, помеченных доброкачественными и неисправными примерами. На практике такие сценарии редко встречаются, что приводит к затруднению моделирования. Это ставит перед исследователями задачу разработки моделей, которые способны обнаруживать аномалии в аудиоданных, обучаясь только на звуках без аномалий. Такое подходение требует разработки новых методов для оценки и выбора моделей, так как простые метрики, такие как ошибка воспроизведения, могут оказаться недостаточно надежными. Таким образом, целью данной работы является разработка метода, информированного доменным знанием, для эффективного выбора моделей обнаружения аномалий в аудиоданных. ## Метод Разработанный метод основывается на инженерии прокси-аномалий, которые являются структурированными изменениями звуковых характеристик здоровых аудиоданных. Для этого аудиозаписи разделяются на фиксированные сегменты, а затем в эти сегменты применяются структурированные шумы, процессы искажения и другие манипуляции, чтобы эмулировать аномалии. Эти прокси-аномалии используются в качестве значков для оценки моделей, которые стремятся отличить их от здоровых звуков. Базовая модель обучается на здоровых данных, а затем проверяется на прокси-аномалиях. Эта процедура позволяет подбирать модели, которые оптимально распознают реальные аномалии, так как прокси-аномалии подобны им в своем структурном поведении. Такой подход позволяет улучшить выбор моделей и повысить надежность обнаружения аномалий в условиях ограниченных данных. ## Результаты Исследование проводилось на высококачественной коллекции данных, содержащей звуковые записи внутри электрических автомобилей в нормальных и аномальных условиях. Обучение проводилось на здоровых звуковых данных, а модели оценивались на прокси-аномалиях. Эксперименты проводились на 5 типах аномалий: Imbalance, Modulation, Whine, Wind и Pulse Width Modulation. Результаты показали, что модели, выбранные с помощью прокси-аномалий, показали значительно лучшие показатели по отношению к традиционным методам, таким как ошибка воспроизведения. Эти результаты подтвердили эффективность инженерии прокси-аномалий в подборе моделей, которые более точно отличают нормальные звуки от аномалий в условиях сильного недостатка меток. ## Значимость Разработа
Annotation:
The detection of anomalies in automotive cabin sounds is critical for ensuring vehicle quality and maintaining passenger comfort. In many real-world settings, this task is more appropriately framed as an unsupervised learning problem rather than the supervised case due to the scarcity or complete absence of labeled faulty data. In such an unsupervised setting, the model is trained exclusively on healthy samples and detects anomalies as deviations from normal behavior. However, in the absence of ...
ID: 2509.13390v1 cs.SD, cs.AI, cs.CV, cs.LG, eess.AS, I.2.1; I.2.6; I.2.10; I.5.1; I.5.2; J.2; J.7
Авторы:

Mohammadreza Narimani, Ali Hajiahmad, Ali Moghimi, Reza Alimardani, Shahin Rafiee, Amir Hossein Mirzabe

Растениеводство в грунтовом системе или аэропресшенах предполагает интеграцию виртуальных систем управления с прогностическим анализом, чтобы заменить традиционные методы ведения сельского хозяйства. Однако трудности в прогнозировании и реагировании на заболевания в грунтовой системе возникают из-за частоты заболеваний и трудности в определении болезней в этапах их развития. Чтобы уменьшить влияние данных проблем, в настоящей работе предлагается вариант решения для развития смарт-грилла с аэропресшеном, используя технологии IoT и ИИ, чтобы добиться эффективного мониторинга статуса растений и окружающей среды. Использовались три модели ИИ — VGG-19, InceptionResNetV2, и InceptionV3 — для определения болезней листьев, и VGG-19 достигло точности 92% в классификации растений с заболеваниями. Основной вывод: смарт-грилл с аэропресшеном, оснащенный IoT и ИИ, может эффективно контролировать и защищать растения от болезней.
Annotation:
Controlling environmental conditions and monitoring plant status in greenhouses is critical to promptly making appropriate management decisions aimed at promoting crop production. The primary objective of this research study was to develop and test a smart aeroponic greenhouse on an experimental scale where the status of Geranium plant and environmental conditions are continuously monitored through the integration of the internet of things (IoT) and artificial intelligence (AI). An IoT-based pla...
ID: 2509.12274v1 cs.AI, cs.CV, cs.LG, 68T07, 68T45, 68U10, I.4.8; I.2.6; I.5.4; C.3
Авторы:

Shresth Grover, Akshay Gopalkrishnan, Bo Ai, Henrik I. Christensen, Hao Su, Xuanlin Li

## Контекст Vision-language-action (VLA) модели, порожденные из vision-language models (VLMs), предлагают возможность использования богатых предобученных представлений для создания генерализованных роботов, способных выполнять различные задачи в различных средах. Однако прямое оточечение таких моделей на данные из реального мира часто приводит к искажению предобученных представлений, что существенно ограничивает их общеупотребимость. Наличие этой проблемы вызывает нужды в разработке методов, позволяющих лучше сохранить предобученные представления в процессе оточечения на конкретные задачи. ## Метод Методология предложенного подхода основывается на трех ключевых компонентах. Во-первых, используется дизайн двухмасштабной энкодерной системы: один энкодер (для визуальных данных) остается неизменным, чтобы сохранить предобученные представления, а другой энкодер (для задач) тренируется для адаптации к конкретной задаче. Во-вторых, введена структура порождения действий на основе строк текста, которая преобразует непрерывные действия в последовательности символов, соответствующие предобученной модели. В-третьих, предлагается стратегия совместного обучения (co-training), которая объединяет данные от демонстраций робота и визуально-языковых данных, с фокусом на спатсальном рассуждении и навыках удобства действий. ## Результаты Эксперименты проводились как в симуляционной среде, так и на реальных роботах. Модель демонстрировала значительное улучшение в области устойчивости к визуальным нарушениям, общеупотребимости в новых инструкциях и средах, а также общей эффективности в выполнении задач. Эти результаты сравнивались с базовыми моделями, подтверждая значительную выгоду от применения предложенного подхода. ## Значимость Продемонстрированный подход может быть применен в различных областях, включая робототехнику, автоматизацию производственных процессов и визуальных систем управления. Он обеспечивает значительное увеличение общеупотребимости роботов в различных средах и задачах, предоставляя роботам возможность лучшего понимания инструкций и реагирования на новые условия. Это, в свою очередь, может привести к значительным преимуществам в производительности и удобстве использования в различных приложениях. ## Выводы Предложенная модель продемонстрировала улучшение в области общеупотребимости VLA-моделей, сохранив предобученные представления и при этом адаптируя модель к конкретным задачам. Будущие исследования будут сосредоточены на улучшении эффективности обучения, отказе от тренировочных данных, а также рассмотрении более сложных искусственных и настоящих с
Annotation:
Vision-language-action (VLA) models finetuned from vision-language models (VLMs) hold the promise of leveraging rich pretrained representations to build generalist robots across diverse tasks and environments. However, direct fine-tuning on robot data often disrupts these representations and limits generalization. We present a framework that better preserves pretrained features while adapting them for robot manipulation. Our approach introduces three components: (i) a dual-encoder design with on...
ID: 2509.11417v2 cs.RO, cs.AI, cs.CV, cs.LG
Авторы:

Nathan He, Cody Chen

## Контекст Ключевые проблемы в диагностике патологий на основе радиологических исследований черепного мозга включают недостаточное учете метаданных пациента, таких как возраст, пол и другие клинические признаки. Это приводит к ухудшению точности диагностики и неравенству в обслуживании. Несмотря на прогресс в области машинного обучения, существующие модели часто игнорируют эти критические данные, ограничивая их применимость в реальной клинической практике. Метаданные, помимо изображений, могут предоставить важные контекстные сведения, улучшив объективность и точность диагностических выводов. Мотивация заключается в разработке модели, которая будет эффективно интегрировать метаданные и изображения для повышения точности и справедливости диагностических выводов. ## Метод МетаCheX представляет собой контекстно-зависимую модель мультимодального обучения, которая объединяет изображения транскраниальных анализов (CT) и метаданные в единую архитектуру. Изображения обрабатываются с помощью конволюционной нейронной сети (CNN), в то время как метаданные обрабатываются с помощью многослойного перцептрона (MLP). Данные обрабатываются независимо, но объединяются в общий классификатор, который выполняет окончательный вывод. Эта архитектура позволяет модели учитывать оба типа данных, чтобы повысить точность и сделать диагностику более контекстно осмысленной. Модель обучалась на разнообразных данных с разными уровнями сложности для обеспечения широкой общности и робастности. ## Результаты На тестовой выборке CheXpert Plus, MetaCheX показала значительное улучшение в точности диагностики по сравнению с моделями, основанными только на изображениях. Использование метаданных привело к повышению метрики AUROC, что указывает на меньшую алгоритмическую стереотипность и усиленную общность модели. Метаданные также позволили модели лучше адаптироваться к разным клиническим сценариям, снизив риск ошибок в диагностике. Эксперименты показали, что MetaCheX эффективно интегрирует метаданные с изображениями, повышая общую эффективность модели в различных ситуациях диагностики. ## Значимость Результаты MetaCheX могут быть применимы в различных областях медицинского искусственного интеллекта, включая диагностику радиологических заболеваний и улучшение оценки клинических результатов. Мультимодальность модели позволяет улучшить точность диагностики, уменьшить биазы и увеличить ценность данных в клинической практике. Повышение справедливости и общности модели делает ее привлекательной для использования в разнообразных пациентских аудиториях. Эти достижения могу
Annotation:
Existing deep learning models for chest radiology often neglect patient metadata, limiting diagnostic accuracy and fairness. To bridge this gap, we introduce MetaCheX, a novel multimodal framework that integrates chest X-ray images with structured patient metadata to replicate clinical decision-making. Our approach combines a convolutional neural network (CNN) backbone with metadata processed by a multilayer perceptron through a shared classifier. Evaluated on the CheXpert Plus dataset, MetaCheX...
ID: 2509.12287v1 eess.IV, cs.CV, cs.LG
Авторы:

Shengjie Kris Liu, Siqin Wang, Lu Zhang

## Контекст Область исследований, связанная с мониторингом и прогнозированием погодных параметров, является ключевой для понимания климатических процессов и принятия решений в сферах энергии, здравоохранения и сельского хозяйства. Несмотря на то что станции погоды предоставляют точные данные, они охватывают ограниченные территории, а спутниковые системы, хотя и охватывают большие площади, часто не обеспечивают высокочастотный мониторинг. Это недостаток становится критичным при оценке локальных изменений климата. Наблюдается необходимость разработки методов, объединяющих точность локальных данных и широкий покрытие спутниковых систем. ## Метод Разработанная методология, названная Amplifier Air-Transformer, является сочетанием нейронных сетей и физических принципов для решения проблемы неполного мониторинга температуры поверхности. Она состоит из двух этапов. В первом этапе используется сеть, кодированная годовым циклом температуры, для реконструкции данных о поверхностной температуре, затуманенных облаками, с использованием данных спутника GOES-16. Эта сеть основывается на линейном усилении значений температуры ERA5 в мелких масштабах и использует сверточные слои для захвата спат spatial и временных изменений. Во втором этапе преобразуется реконструированная поверхностная температура в температуру воздуха при помощи нейронной сети, которая учитывает зависимости между температурой поверхности и геофизическими свойствами земли. Для повышения достоверности результатов включена методика прогностической неопределенности с использованием deep ensemble learning. ## Результаты Эксперименты проводились на огромном объеме данных, включая 77,7 миллиарда пикселей поверхностной температуры и 155 миллионов записей температуры воздуха из станций погоды за период 2018-2024 годов. Результаты показали, что метод достиг точности 1,93°C при валидации с использованием данных станций. Это свидетельствует о значительном улучшении достоверности, сравниваясь с исходными данными. Также были проведены тесты, показавшие, что полученные результаты сохраняют высокую точность при изменении регионов и условий. ## Значимость Данный подход может быть применен в различных областях, таких как климатический мониторинг, энергетика и землепользование. Он обеспечивает высокочастотный покрытие температуры воздуха с высокой точностью, что позволяет обнаруживать локальные изменения климата и принимать обоснованные решения. Главные преимущества заключаются в том, что этот подход может быть расширен для других спутниковых источников данных, что обеспечит универсальность и ста
Annotation:
Near-surface air temperature is a key physical property of the Earth's surface. Although weather stations offer continuous monitoring and satellites provide broad spatial coverage, no single data source offers seamless data in a spatiotemporal fashion. Here, we propose a data-driven, physics-guided deep learning approach to generate hourly air temperature data at 2 km resolution over the contiguous United States. The approach, called Amplifier Air-Transformer, first reconstructs GOES-16 surface ...
ID: 2509.12329v1 cs.CV, cs.LG
Авторы:

Rui-Feng Wang, Mingrui Xu, Matthew C Bauer, Iago Beffart Schardong, Xiaowen Ma, Kangning Cui

## Контекст Коттон (Gossypium spp.) является одним из важнейших природных естественных хлопчатобумажного культур в мире, однако его сбор остается трудоемким, медленным процессом, ограниченным ручным упорядочиванием. Эффективность сбора снижена, а риск потерь в процессе сбора высок из-за неточного определения времени пикинга. Необходимость создания автоматизированных систем повышения качества и скорости сбора стала приоритетной для улучшения производительности сбора, оценки урожая и исследования пород. Одной из главных задач является аутентичное распознавание коттонных шары и цветков в различных фазах развития. ## Метод Мы предлагаем Cott-ADNet, новую легковесную систему обнаружения в реальном времени, оптимизированную для распознавания коттонных шаров и цветков в условиях поля. Основная архитектура Cott-ADNet основывается на YOLOv11n, с дополнительными улучшениями в системе внимания и моделировании рецептивных полей. Мы внедрили NeLU-enhanced Global Attention Mechanism для улучшения отслеживания слабых и низко-контрастных объектов. Для расширения работы модели по многомерным сценам, мы ввели Dilated Receptive Field SPPF. Эти модели помогают добиться высокой точности с более низким расходом вычислительных ресурсов, что гарантирует устойчивость модели в реальных условиях. ## Результаты Мы создали новую базу данных, состоящую из 4 966 изображений, и предоставили внешний набор данных для валидации, содержащий 1 216 изображений, в которых был проведен эксперимент. Используя Cott-ADNet, мы достигли следующих результатов: 91.5% Precision, 89.8% Recall, 93.3% mAP50, 71.3% mAP, 90.6% F1-Score с вычислительными затратами в размере 7.5 GFLOPs. Модель не только достигла высокой точности, но и показала высокую устойчивость к многомерным и вращательным изменениям. ## Значимость Cott-ADNet предлагается как мощный, легковесный и эффективный инструмент для автоматизированного сбора и оценки урожая культуры коттона. Он привлекателен как решение для высокоточного распознавания цветков и шаров в реальном времени, что позволяет увеличить эффективность сбора, оптимизировать риски потерь и улучшить оценку урожая. Результаты могут быть использованы для повышения производительности сбора, анализа представительности и поддержки дальнейших исследований в области генетики и разведения. ## Выводы Мы представили новую модель Cott-ADNet, успешно работающую для распознавания шаров и цветков коттона в условиях поля. Эта модель достигла высокой точности и высокой скорости работы, что делает ее привлекательной для автоматизации и оценки урожая. Мы планируем продолжать работу над улучшением модели, в том числе исс
Annotation:
Cotton is one of the most important natural fiber crops worldwide, yet harvesting remains limited by labor-intensive manual picking, low efficiency, and yield losses from missing the optimal harvest window. Accurate recognition of cotton bolls and their maturity is therefore essential for automation, yield estimation, and breeding research. We propose Cott-ADNet, a lightweight real-time detector tailored to cotton boll and flower recognition under complex field conditions. Building on YOLOv11n, ...
ID: 2509.12442v1 cs.CV, cs.LG
Показано 561 - 570 из 835 записей