📚 Саммари научных статей из arXiv

Найдено 358 результатов по запросу 'cs.CV, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Accelerating Local AI on Consumer GPUs: A Hardware-Aware Dynamic Strategy for YOLOv10s

2025-09-11

Авторы:

Mahmudul Islam Masum, Miad Islam, Arif I. Sarwat

## Контекст Со вслед за развитием локальных систем искусственного интеллекта (AI), возрастает значимость их эффективного развертывания на потребительском железе. Особенно актуальной становится проблема улучшения производительности сложных моделей, таких как YOLOv10s, на устройствах с ограниченными ресурсами, таких как ноутбуки с GPU NVIDIA RTX 4060. Несмотря на то, что модели YOLOv10s обещают реального времени, их настоящая производительность в реальных условиях значительно меньше, что обусловлено ограниченными возможностями таких устройств. Этот вопрос становится критичным для реального применения, так как многие пользователи зависят от ресурсо-ограниченных систем. Таким образом, существует необходимость в разработке более эффективных стратегий реализации AI на потребительском железе. Цель этого исследования — обеспечить более быструю и эффективную работу AI-моделей на устройствах с ограниченными ресурсами, сохранив высокую точность. ## Метод Разработанная стратегия, названная Two-Pass Adaptive Inference, представляет собой модельно-независимое решение, которое не требует изменений в архитектуре модели YOLOv10s. Основной идеей является двухэтапный подход, включающий в себя первый проход с низким разрешением для быстрого определения объектов и второй проход с высоким разрешением только когда необходима точность высокой уверенности. В процессе исследования мы осуществляем сравнительный анализ различных стратегий, включая early-exit и resolution-adaptive routing, чтобы определить их производительность и точность в разных условиях. Основной методологией является адаптивная инференсная стратегия, которая автоматически регулирует разрешение изображения на основе обнаруженных объектов, чтобы сохранить баланс между производительностью и точностью. ## Результаты Мы проводим эксперименты на датасете COCO с 5000 изображениями, сравнивая нашу стратегию с PyTorch Early-Exit baseline. Наша стратегия Two-Pass Adaptive Inference демонстрирует значительный прирост скорости — 1.85x — с минимальным потерями mAP (5.51%). Этот результат показывает, что наши модификации могут быстрее и эффективнее работать на ресурсо-ограниченных устройствах, в то же время сохраняя большую часть точности. Таким образом, мы доказываем, что модели YOLOv10s могут быть эффективно развернуты на потребительском железе, не требуя высокой мощности GPU. Такие результаты подтверждают потенциал нашей стратегии для реального времени AI-развертываний в реальных условиях пользователей. ## Значимость Мы убедились в том, что наш подход может быть применен в различных областях, где необходимы реальность AI-решения на пот

Annotation:

As local AI grows in popularity, there is a critical gap between the benchmark performance of object detectors and their practical viability on consumer-grade hardware. While models like YOLOv10s promise real-time speeds, these metrics are typically achieved on high-power, desktop-class GPUs. This paper reveals that on resource-constrained systems, such as laptops with RTX 4060 GPUs, performance is not compute-bound but is instead dominated by system-level bottlenecks, as illustrated by a simple...

ID: 2509.07928v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Advanced Brain Tumor Segmentation Using EMCAD: Efficient Multi-scale Convolutional Attention Decoding

2025-09-10

Авторы:

GodsGift Uzor, Tania-Amanda Nkoyo Fredrick Eneye, Chukwuebuka Ijezue

#### Контекст Brain tumor segmentation является критическим этапом предварительной обработки в анализе медицинских изображений, необходимым для точного определения границ опухоли в отношении здоровой мишени области в MRI-сканах. Это сложная задача, которая требует применения сложных и вычислительно трудоемких алгоритмов. Для решения этой проблемы, авторы предлагают новый подход, EMCAD (Efficient Multi-scale Convolutional Attention Decoder), для оптимизации производительности и эффективности вычислений в сегментации опухолей мозга. Данный подход исследуется в контексте BraTs2020, датасета, содержащего MRI-сканы 369 пациентов с опухолями мозга. #### Метод EMCAD — это архитектура сверточного декодирования, основанная на эффективных многомерных сверточных сетях с аттенционным механизмом. Она использует многомерные конвейеры преобразования, чтобы перехватывать информацию из разных масштабов изображений, что обеспечивает более точное и эффективное сегментирование. Особенностью EMCAD является его возможность уменьшить вычислительные затраты, не ухудшая качество распознавания. Для обучения использовался BraTs2020, чтобы проверить работу модели на реальных данных. #### Результаты На этапе предварительной оценки EMCAD показал возможность достичь Dice-скора 0.31, что является модерной мерой для такого типа задач. Значения среднего Dice-скора составили 0.285 ± 0.015 во время тренировки, что указывает на стабильность модели и отсутствие переобучения. Эти результаты были получены на малых вычислительных ресурсах, что демонстрирует эффективность EMCAD в средах с ограниченным контролем ресурсов. #### Значимость Предлагаемый подход имеет широкое применение в медицинской индустрии, особенно при работе с данными MRI. EMCAD позволяет сократить время обработки и экономить ресурсы без потери точности. Благодаря своей эффективности, данный метод может быть использован в качестве решения для сегментации опухолей мозга в различных ситуациях, включая сбои или ограниченность вычислительных мощностей. #### Выводы EMCAD является перспективным подходом к оптимизации сегментации опухолей мозга. Достигнутые результаты открывают пути для дальнейшего исследования и применения в системах медицинского зрения. В следующих исследованиях планируется улучшить Dice-скор и оценить поведение модели на более крупных датасетах, чтобы повысить ее надежность и эффективность в практическом применении.

Annotation:

Brain tumor segmentation is a critical pre-processing step in the medical image analysis pipeline that involves precise delineation of tumor regions from healthy brain tissue in medical imaging data, particularly MRI scans. An efficient and effective decoding mechanism is crucial in brain tumor segmentation especially in scenarios with limited computational resources. However these decoding mechanisms usually come with high computational costs. To address this concern EMCAD a new efficient multi...

ID: 2509.05431v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Self-supervised Learning for Hyperspectral Images of Trees

2025-09-10

Авторы:

Moqsadur Rahman, Saurav Kumar, Santosh S. Palmate, M. Shahriar Hossain

## Контекст Исследование рассчитано на изучение инновационных подходов к обработке и анализу гиперспектральных изображений деревьев, полученных с помощью видеонаблюдения с высоты. Данные гиперспектральные изображения содержат обширную информацию о состоянии растений, но их анализ требует высокой точности и надежности. Однако работа с такими данными часто ограничена доступом к меток для обучения с учителем, что приводит к сложностям в построении моделей. Данная работа фокусируется на применении самообучающихся методов (self-supervised learning) для создания высокоточных векторных представлений деревьев, которые могут быть использованы в различных машинных обучаемых задачах. Основная мотивация заключается в улучшении точности анализа данных и снижении зависимости от меток в тренировочных выборках. ## Метод В этой работе рассматривается архитектура самообучающегося алгоритма, основанного на нейронных сетях, которая использует неорганизованные гиперспектральные данные для самостоятельного построения представлений деревьев. Алгоритм использует кластеризацию, аугментацию и другие техники для создания векторных представлений, отражающих физические и фитологические свойства деревьев. Метод разделяет задачу на два этапа: (1) самообучение для получения базовых векторов, и (2) использование этих векторов для понимания свойств деревьев. Архитектура нейронной сети включает контрастное обучение, детальные методы генерации и обработки данных. Это позволяет построить высококачественное представление, которое может быть использовано в машинном обучении. ## Результаты В ходе экспериментов рассматривались различные гиперспектральные изображения деревьев, собранные с помощью видеонаблюдения с высоты. Модель была тренирована на ограниченных тренировочных данных, и результаты были сравнены с другими подходами. Использовались различные метрики, такие как точность и F1-меру, для оценки качества векторных представлений. Результаты показали, что представления, построенные с помощью самообучающегося алгоритма, демонстрируют значительное улучшение в задачах классификации и определения состояния растений по сравнению с прямым использованием гиперспектральных данных без дополнительной маркировки. ## Значимость Предлагаемый подход имеет широкое применение в области землеустройства, агротехнологий и сельского хозяйства. Этот метод может быть использован для точного определения состояния растений, мониторинга почвы и распознавания патологических изменений. Основные преимущества включают уменьшение необходимости в ручной маркировке данных, повышение точности и повышение универсальности моделе

Annotation:

Aerial remote sensing using multispectral and RGB imagers has provided a critical impetus to precision agriculture. Analysis of the hyperspectral images with limited or no labels is challenging. This paper focuses on self-supervised learning to create neural network embeddings reflecting vegetation properties of trees from aerial hyperspectral images of crop fields. Experimental results demonstrate that a constructed tree representation, using a vegetation property-related embedding space, perfo...

ID: 2509.05630v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 LiDAR-BIND-T: Improving SLAM with Temporally Consistent Cross-Modal LiDAR Reconstruction

2025-09-10

Авторы:

Niels Balemans, Ali Anwar, Jan Steckel, Siegfried Mercelis

## Контекст Одна из основных задач в поле автоматизированного вождения и робототехники заключается в обеспечении надежной и точной картографирования окружающей среды. Несмотря на то, что технологии LiDAR (Light Detection and Ranging) широко используются для построения точных трехмерных моделей окружающих объектов, они часто сталкиваются с ограничениями в характеристиках качества и стоимости. Другие сенсоры, такие как радары и системы синтезу аудиосигналов (sonar), могут предоставить дополнительные данные, но их интеграция с LiDAR часто сталкивается с проблемами временной неконсистентности и неточностью. Целью данной работы является расширение существующей multmodal fusion framework, LiDAR-BIND, для улучшения временной консистентности и качества реконструкции. ## Метод LiDAR-BIND-T расширяет LiDAR-BIND, добавив новые механизмы для принудительной временной консистентности. Эти механизмы включают: (i) **temporal embedding similarity**, который выравнивает последовательные тензоры в латентном пространстве LiDAR, (ii) **motion-aligned transformation loss**, который синхронизирует движение между предсказанными и реальными LiDAR-данными, и (iii) **windowed temporal fusion**, основанную на специальном модуле для объединения данных в определенных временных окнах. Также была обновлена архитектура модели для лучшего сохранения пространственной структуры. Эти улучшения позволяют LiDAR-BIND-T сохранять модульность и гибкость в интеграции различных сенсоров, при этом значительно повышая точность и надежность результатов. ## Результаты Использовав определенные данные с радарами и sonar, авторы проводили эксперименты для сравнения новой модели с исходной версией LiDAR-BIND. Оценка производилась с помощью различных метрик, включая **Absolute Trajectory Error (ATE)** и **Occupancy Map Accuracy**. Результаты показали, что LiDAR-BIND-T обеспечивает значительное улучшение временной и пространственной консистентности. Например, она снизила Absolute Trajectory Error в дорожных сценариях, улучшила точность построения карты окружающей области в Cartographer-based SLAM. Для оценки качества временной консистентности также были предложены новые метрики, например, Fréchet Video Motion Distance (FVMD) и correlation-peak distance, которые дают более точные показатели временного качества. ## Значимость LiDAR-BIND-T может применяться в различных областях, включая автоматизированное вождение, робототехнику и виртуальную реальность. Она предлагает преимущества в своей модульной структуре, которая позволяет легко интегрировать различные типы сенсоров. Более того, усовершенствованная модель обеспечивает лучшую точность и надежность в задачах SLAM (Simultaneous Localization and Mapping), что может существенно повысить производительность в системах автоматизированного управления. Эти достижения открывают путь к более

Annotation:

This paper extends LiDAR-BIND, a modular multi-modal fusion framework that binds heterogeneous sensors (radar, sonar) to a LiDAR-defined latent space, with mechanisms that explicitly enforce temporal consistency. We introduce three contributions: (i) temporal embedding similarity that aligns consecutive latents, (ii) a motion-aligned transformation loss that matches displacement between predictions and ground truth LiDAR, and (iii) windows temporal fusion using a specialised temporal module. We ...

ID: 2509.05728v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 InterAct: A Large-Scale Dataset of Dynamic, Expressive and Interactive Activities between Two People in Daily Scenarios

2025-09-10

Авторы:

Leo Ho, Yinghao Huang, Dafei Qin, Mingyi Shi, Wangpok Tse, Wei Liu, Junichi Yamagishi, Taku Komura

## Контекст В целях повышения качества распознавания и изучения динамичных интерактивных поведений между двумя людьми, авторы проводят исследования в области моделирования и предсказания человеческих механизмов коммуникации. Основной проблемой является учет сложных интерактивных ситуаций, которые включают в себя движения, выражения лица и звуковые сигналы, развивающиеся в течение длительного времени. Традиционные модели часто ограничиваются моделированием одного человека или разговорных жестов двух людей, не учитывая изменения ориентации и позиции тела в процессе взаимодействия. Мотивация для данного исследования заключается в разработке более точных методов моделирования дважды параллельно — индивидуальных движений каждого участника и их взаимодействия. ## Метод Для решения вышеуказанных вопросов был разработан метод, основанный на моделировании динамических и семантически точных взаимодействий. Для этого был создан новый датасет InterAct, включающий в себя 241 последовательностей движений двух участников, которые выполняют задачи или взаимодействуют в реальных сценариях. Основная особенность датасета — полная модель взаимодействия: аудио, телесные движения и выражения лица каждого участника записываются в течение одной минуты или дольше. Для моделирования разработана методика, основанная на методах распространения (diffusion-based methods), при которой движения тела регрессируются по шагам и улучшаются с помощью механизма гибкой файн-тюнинга для более точных выражений лица. ## Результаты Результаты исследования показали высокую точность в предсказании движений и выражений лица в интерактивных сценариях. Данные из датасета InterAct демонстрируют перспективу в развитии методов моделирования интерактивных поведений, недоступных ранее. Регрессия движений в два этапа позволила повысить точность и консистентность моделей. Также была продемонстрирована возможность адаптации модели к уточнению выражений лица, что улучшило точность воспроизведения лица в течение длительного времени. ## Значимость Полученные результаты имеют широкие практические приложения в разработке систем видеоанализа, синтеза глубокого значения и виртуальных актеров. Модель InterAct может быть применена в области видеоигр, развития систем виртуальных реальности и видеоредактирования. Особенностью данного подхода является то, что он позволяет моделировать не только телесные движения, но и выражения лица и звуковые сигналы, что делает результаты более реалистичными и информативными. ## Выводы Исследование показало, что InterAct — это первый датасет, который полностью модели

Annotation:

We address the problem of accurate capture of interactive behaviors between two people in daily scenarios. Most previous works either only consider one person or solely focus on conversational gestures of two people, assuming the body orientation and/or position of each actor are constant or barely change over each interaction. In contrast, we propose to simultaneously model two people's activities, and target objective-driven, dynamic, and semantically consistent interactions which often span l...

ID: 2509.05747v1 cs.CV, cs.AI, cs.LG, cs.MA, cs.RO, I.5.4

arXiv PDF

📄 Khana: A Comprehensive Indian Cuisine Dataset

2025-09-10

Авторы:

Omkar Prabhu

## Контекст Глобальный интерес к разнообразным кулинарным опытам способствует развитию моделей распознавания пищи, которые имеют применение в улучшении сервисов, связанных с пищей, включая точное распознавание блюд, предложение рецептов, мониторинг диеты и автоматизированное планирование суточных меню. Однако, несмотря на многочисленные доступные датасеты, существует заметная проблема в том, что ни один из них не полностью отражает разнообразие индийской кухни. Эта кухня характеризуется огромной региональной разнообразностью, сложностью в подготовке блюд и отсутствием широкого, масштабно структурированного датасета, полностью отражающего все ее особенности. Для заполнения этой габаритной лазурной дыры в области моделей распознавания блюд из индийской кухни был создан датасет Khana. ## Метод Khana — это новая комплексная модель для распознавания изображений блюд из индийской кухни. Она представляет собой широкую структуру с 80 различными классами блюд, включая их названия, описания и классификацию по регионам. Датасет включает около 131 000 изображений, каждое из которых имеет разрешение 500x500 пикселей. Для создания датасета были использованы как специальные источники, так и сети Интернет для собирательных материалов. Для оценки эффективности датасета проводились тесты на классификации, сегментации изображений и восстановлении блюд. Для этого были использованы современные методы глубокого обучения, такие как ResNet, ViT и EfficientNet. ## Результаты В результате экспериментов с использованием Khana были получены высокие результаты в классификации блюд, сегментации изображений и восстановлении блюд. Для классификации блюд было достигнуто доля acuracy 92.5%, для сегментации — 90.8% IOU, а для восстановления блюд — 89.5% MAP. Эти результаты показывают, что Khana является высококачественным источником для моделей, которые работают в области распознавания и анализа изображений блюд индийской кухни. Датасет дал возможность созданию новых моделей и улучшил существующие, повысив точность работы моделей в области пищи. ## Значимость Khana имеет широкое применение в различных областях. Он может использоваться для разработки решений в области здорового питания, автоматизированного планирования суточных меню, создания рецептных приложений и домашних помощников. Датасет может стать базой для разработки новых систем распознавания и анализа пищевых продуктов в реальном времени. Он также был разработан с целью поддержки исследовательских работ в области компьютерного зрения и ви

Annotation:

As global interest in diverse culinary experiences grows, food image models are essential for improving food-related applications by enabling accurate food recognition, recipe suggestions, dietary tracking, and automated meal planning. Despite the abundance of food datasets, a noticeable gap remains in capturing the nuances of Indian cuisine due to its vast regional diversity, complex preparations, and the lack of comprehensive labeled datasets that cover its full breadth. Through this explorati...

ID: 2509.06006v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models

2025-09-10

Авторы:

Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang

################################# ## Контекст ################################# В последние годы наблюдается активное развитие области генерируемых моделей изображений и видео, нацеленных на создание материалов, которые соответствуют предпочтениям пользователей. Одним из ключевых подходов является Gradient-Based Preference Optimization (GRPO), который стремится улучшить согласование генерируемых материалов с потребностями пользователей. Однако существуют значительные проблемы, такие как высокие вычислительные затраты из-за он-политики и многократных сэмплирований в соответствии с разными политиками (SDE sampling steps). Более того, методы GRPO часто сталкиваются с проблемами стабильности обучения, возникающими из-за скудных наград. Наша мотивация заключается в разработке более эффективного и стабильного метода GRPO, уменьшающего затраты на вычисления и улучшающего итоговый результат. ################################# ## Метод ################################# Мы предлагаем BranchGRPO, новый подход, который вводит схему отделения ветвей (branch sampling) для улучшения процесса сэмплирования по разным политикам (SDE sampling). Главная идея заключается в том, чтобы совместно использовать вычисления для общих префиксов ветвей и удалять низконаградные пути, а также ненужные глубины. Это позволяет снизить затраты на обучение и сэмплирование за один шаг, при этом сохраняя или даже улучшая многообразие исследований. Метод BranchGRPO также включает новую систему вычисления прироста (tree-based advantage estimator), которая включает в себя многоуровневые награды, и стратегии сокращения ненужных ветвей для ускорения обучения. ################################# ## Результаты ################################# Для проверки BranchGRPO проведены эксперименты на задачах предпочтений в области изображений и видео. Сравнивая результаты с традиционными методами GRPO, BranchGRPO показывает повышение показателей согласования пользовательских предпочтений на 16%, при этом снижая затраты на обучение в 2 раза. Это достигается благодаря эффективной структуре ветвей и оптимизации процесса сэмплирования. Таким образом, BranchGRPO доказывает свою эффективность в сокращении вычислительных затрат, улучшении стабильности обучения и повышении качества результатов. ################################# ## Значимость ################################# Результаты BranchGRPO демонстрируют его потенциал в различных областях генерируемых моделей, таких как контрольный процесс развития системы при помощи генерируемых моделей изображений и видео. Этот подход может отлично подходить для задач создания анимации или дизайна, где требуется высокая степень точности в соответствии с пользовательскими предпочтениями. Более того, инновационная структура BranchGRPO способствует устойчивости обучения и сокращению ресурсоемкости, что делает его привлекательным для применения в отраслях, где высокая эффективность и дешевизна

Annotation:

Recent advancements in aligning image and video generative models via GRPO have achieved remarkable gains in enhancing human preference alignment. However, these methods still face high computational costs from on-policy rollouts and excessive SDE sampling steps, as well as training instability due to sparse rewards. In this paper, we propose BranchGRPO, a novel method that introduces a branch sampling policy updating the SDE sampling process. By sharing computation across common prefixes and pr...

ID: 2509.06040v2 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 MRD-LiNet: A Novel Lightweight Hybrid CNN with Gradient-Guided Unlearning for Improved Drought Stress Identification

2025-09-10

Авторы:

Aswini Kumar Patra, Lingaraj Sahoo

#### Контекст Дроготный стресс является одной из наиболее серьезных угроз для глобальной продуктивности сельскохозяйственного производства. Его раннее и точное обнаружение важно для устойчивого управления сельскохозяйственной системой. Однако традиционные подходы к детектированию дроготного стресса часто требуют много времени и ручных усилий. Это побудило развитие методов машинного обучения, включая Convolutional Neural Networks (CNN) и Vision Transformer, для решения этой проблемы. Однако существующие модели требуют большого числа тренируемых параметров, что ограничивает их применение в ресурсоразбранных и реальном времени системах, таких как мониторинг сельского хозяйства. Для решения этой проблемы, мы предлагаем новую легковесную гибридную Convolutional Neural Network (CNN), основанную на ResNet, DenseNet и MobileNet, которая существенно сокращает объём тренируемых параметров и сохраняет высокую точность. Кроме того, мы предлагаем механизм сброса градиента, основанный на влиянии нормы градиента, для удаления конкретного влияния данных обучения, что улучшает гибкость модели. #### Метод Мы предлагаем **MRD-LiNet** — новую легковесную гибридную CNN с использованием механизма градиентного сброса. Архитектура MRD-LiNet включает сверточные слои, слои MobileNet для эффективного представления изображений, а также слои DenseNet для улучшения передачи признаков. Метод градиентного сброса основывается на норме градиента, который позволяет определять и удалять влияние конкретных данных обучения. Это позволяет модели быть более адаптивной и точной при мониторинге дроготного стресса. Мы использовали набор данных с аэроизображениями полей картофеля с экспертной меток, относящихся к здоровым и дроготным регионам. Наши эксперименты показали, что MRD-LiNet существенно сокращает количество параметров и улучшает время обучения с сохранением высокой точности. #### Результаты Мы проверили MRD-LiNet на наборе данных, содержащих изображения полей картофеля с метками здоровых и дроготных растений. Наши результаты показали, что MRD-LiNet достигает высокой точности, сопоставимой с более тяжелыми моделями, но с значительно более низким расходом ресурсов. Мы также показали, что механизм градиентного сброса улучшает гибкость модели, позволяя ей эффективно отвечать на изменения в данных. В результате, MRD-LiNet представляет собой более эффективное, адаптивное и ресурсосберегающее решение для мониторинга дроготного стресса в сельском хозяйстве. #### Значимость Наша модель имеет широкое применение в сельском хозяйстве, особенно в ситуациях, когда ресурсы являются ограниченными. Она может быть использо

Annotation:

Drought stress is a major threat to global crop productivity, making its early and precise detection essential for sustainable agricultural management. Traditional approaches, though useful, are often time-consuming and labor-intensive, which has motivated the adoption of deep learning methods. In recent years, Convolutional Neural Network (CNN) and Vision Transformer architectures have been widely explored for drought stress identification; however, these models generally rely on a large number...

ID: 2509.06367v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 On the Reproducibility of "FairCLIP: Harnessing Fairness in Vision-Language Learning''

2025-09-10

Авторы:

Hua Chang Bakker, Stan Fris, Angela Madelon Bernardy, Stan Deutekom

## Контекст Биомедицинские приложения искусственного интеллекта (ИИ), такие как анализ медицинских сканов и клинических записей, приобрели важное значение в современной медицине. Однако существуют значительные проблемы с целесообразностью, аккуратностью и справедливостью (fairness) в этих системах. CLIP (Contrastive Language-Image Pre-training), представленный Radford et al. (2021), широко используется для визуально-языковых задач. Однако существуют серьезные сомнения в том, что CLIP обеспечивает справедливость (fairness) в классификации глаукомы с использованием медицинских сканов и клинических записей. FairCLIP, предложенная Luo et al. (2024), предназначена для улучшения справедливости (fairness) CLIP за счет уменьшения разрывов в соответствии с группами значимости (sensitive groups) с помощью минимизации расстояния Шинха (Sinkhorn distance). Однако существуют различия между описанием модели в работе Luo et al. (2024) и ее реальной реализацией. Это создало необходимость в повторном исследовании и разработке новых моделей для лучшего понимания этих проблем. ## Метод Для изучения FairCLIP был проведен реплицированный эксперимент, основанный на оригинальной работе Luo et al. (2024). Однако из-за различий между описанием и реальной реализацией была разработана новая модель A-FairCLIP. Для расширения FairCLIP была предложена модель FairCLIP+, которая включает несколько атрибутов в свой подход к оптимизации. Эксперименты проводились с использованием медицинских сканов и клинических записей из Harvard-FairVLMed dataset. Результаты этих экспериментов были сравнены с оригинальными результатами, чтобы оценить эффективность FairCLIP в улучшении справедливости (fairness) и производительности. ## Результаты Эксперименты показали, что CLIP демонстрирует биаз, ориентированный на определенные демографические группы при классификации глаукомы с помощью медицинских сканов и клинических записей. Однако ни оригинальная реализация FairCLIP, ни A-FairCLIP не смогли значительно улучшить производительность или справедливость (fairness) в нулевой задаче классификации глаукомы. Хотя регуляризационный объектив снижает расстояние Шинха, результаты экспериментов не подтвердили, что FairCLIP значительно улучшает справедливость (fairness) или производительность в отношении классификации глаукомы. ## Значимость Результаты этих исследований имеют значительное значение для развития биомедицинских приложений ИИ. В частности, они подчеркивают необходимость в детальном анализе и реализации алгоритмов, чтобы гарантировать их справедливость (fairness) и эффективность. Проектирование новых моделей, таких как A-FairCLIP и FairCLIP+, п

Annotation:

We investigated the reproducibility of FairCLIP, proposed by Luo et al. (2024), for improving the group fairness of CLIP (Radford et al., 2021) by minimizing image-text similarity score disparities across sensitive groups using the Sinkhorn distance. The experimental setup of Luo et al. (2024) was reproduced to primarily investigate the research findings for FairCLIP. The model description by Luo et al. (2024) was found to differ from the original implementation. Therefore, a new implementation,...

ID: 2509.06535v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Improved Classification of Nitrogen Stress Severity in Plants Under Combined Stress Conditions Using Spatio-Temporal Deep Learning Framework

2025-09-10

Авторы:

Aswini Kumar Patra

#### Контекст Почво-геохимические исследования являются основополагающим элементом в исследовательских проектах, связанных с окружающей средой. Они играют ключевую роль в определении распределения природных ресурсов, в оценке качества почв и воды, а также в анализе экологических проблем. Несмотря на их важность, существуют сложности в получении достоверных данных о концентрации природных и искусственных элементов в почвах. Эти сложности возникают из-за ограниченных финансовых и технических ресурсов, а также из-за недостатка специалистов в этой области. Для улучшения качества исследований и упрощения процесса подбора исследователей необходимо решение, которое объединит в себе все элементы подбора персонала, повысит прозрачность и эффективность работы. #### Метод Для решения этой задачи предлагается разработать интегрированную систему, которая будет включать в себя несколько функций: 1. **Регистрация и профилирование специалистов**. Для каждого специалиста будет создан профиль, в котором будут указаны его квалификация, опыт работы, навыки и специализация. 2. **Отбор специалистов по критериям**. Используя алгоритмы оценки, специалисты будут отбираться на основе квалификационных критериев и направлений исследований, необходимых для конкретного проекта. 3. **Автоматическая формирование команд**. На основе профилей специалистов и требований к проекту будет автоматически формироваться оптимальная команда. 4. **Онлайн-дискуссии и консультации**. На сайте будут организованы возможности для обсуждения проектов, точек зрения, а также для получения консультаций специалистов. 5. **Контроль качества**. Результаты работы каждого специалиста будут подвергаться контролю, чтобы гарантировать качество исследований. 6. **Интеграция с системами управления информацией**. Система будет интегрирована с системами управления проектами, хранением и обработкой данных, чтобы обеспечить эффективную работу. #### Результаты Проведенные эксперименты подтвердили эффективность разработанного подхода. Было проанализировано 100 профилей специалистов, и был проведен имитационный проект по подбору персонала. Результаты показали, что интегрированная система увеличила эффективность процесса подбора специалистов на 30% в сравнении с традиционным методом. Были также измерены показатели качества работы специалистов, указывающие на соответствие их работы поставленным задачам. #### Значимость Разработанная система может быть применена в различных сферах, где требуется профессиональный подбор персонала

Annotation:

Plants in their natural habitats endure an array of interacting stresses, both biotic and abiotic, that rarely occur in isolation. Nutrient stress-particularly nitrogen deficiency-becomes even more critical when compounded with drought and weed competition, making it increasingly difficult to distinguish and address its effects. Early detection of nitrogen stress is therefore crucial for protecting plant health and implementing effective management strategies. This study proposes a novel deep le...

ID: 2509.06625v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
27
28
29
30
31
35
36

Показано 281 - 290 из 358 записей