📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 QSilk: Micrograin Stabilization and Adaptive Quantile Clipping for Detail-Friendly Latent Diffusion

2025-10-21

Авторы:

Denis Rychkovskiy

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present QSilk, a lightweight, always-on stabilization layer for latent diffusion that improves high-frequency fidelity while suppressing rare activation spikes. QSilk combines (i) a per-sample micro clamp that gently limits extreme values without washing out texture, and (ii) Adaptive Quantile Clip (AQClip), which adapts the allowed value corridor per region. AQClip can operate in a proxy mode using local structure statistics or in an attention entropy guided mode (model confidence). Integrat...

ID: 2510.15761v1 cs.CV, cs.LG, 68T07, 68U10, I.2.10; I.4.8; I.4.9

arXiv PDF

📄 Enhancing Maritime Object Detection in Real-Time with RT-DETR and Data Augmentation

2025-10-11

Авторы:

Nader Nemati

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Maritime object detection faces essential challenges due to the small target size and limitations of labeled real RGB data. This paper will present a real-time object detection system based on RT-DETR, enhanced by employing augmented synthetic images while strictly evaluating on real data. This study employs RT-DETR for the maritime environment by combining multi-scale feature fusion, uncertainty-minimizing query selection, and smart weight between synthetic and real training samples. The fusion...

ID: 2510.07346v1 cs.CV, cs.LG, 68T07, 68T45, 68U10, 62H30, 94A08, I.2.10; I.4.8; I.5.4; I.2.6; C.3

arXiv PDF

📄 AI-Driven Radiology Report Generation for Traumatic Brain Injuries

2025-10-11

Авторы:

Riadh Bouslimi, Houda Trabelsi, Wahiba Ben Abdssalem Karaa, Hana Hedhli

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Traumatic brain injuries present significant diagnostic challenges in emergency medicine, where the timely interpretation of medical images is crucial for patient outcomes. In this paper, we propose a novel AI-based approach for automatic radiology report generation tailored to cranial trauma cases. Our model integrates an AC-BiFPN with a Transformer architecture to capture and process complex medical imaging data such as CT and MRI scans. The AC-BiFPN extracts multi-scale features, enabling the...

ID: 2510.08498v1 eess.IV, cs.AI, cs.CV, cs.LG, 68T07, 68U10, I.2.10; I.2.7; I.4.5

arXiv PDF

📄 Developing an aeroponic smart experimental greenhouse for controlling irrigation and plant disease detection using deep learning and IoT

2025-09-18

Авторы:

Mohammadreza Narimani, Ali Hajiahmad, Ali Moghimi, Reza Alimardani, Shahin Rafiee, Amir Hossein Mirzabe

Растениеводство в грунтовом системе или аэропресшенах предполагает интеграцию виртуальных систем управления с прогностическим анализом, чтобы заменить традиционные методы ведения сельского хозяйства. Однако трудности в прогнозировании и реагировании на заболевания в грунтовой системе возникают из-за частоты заболеваний и трудности в определении болезней в этапах их развития. Чтобы уменьшить влияние данных проблем, в настоящей работе предлагается вариант решения для развития смарт-грилла с аэропресшеном, используя технологии IoT и ИИ, чтобы добиться эффективного мониторинга статуса растений и окружающей среды. Использовались три модели ИИ — VGG-19, InceptionResNetV2, и InceptionV3 — для определения болезней листьев, и VGG-19 достигло точности 92% в классификации растений с заболеваниями. Основной вывод: смарт-грилл с аэропресшеном, оснащенный IoT и ИИ, может эффективно контролировать и защищать растения от болезней.

Annotation:

Controlling environmental conditions and monitoring plant status in greenhouses is critical to promptly making appropriate management decisions aimed at promoting crop production. The primary objective of this research study was to develop and test a smart aeroponic greenhouse on an experimental scale where the status of Geranium plant and environmental conditions are continuously monitored through the integration of the internet of things (IoT) and artificial intelligence (AI). An IoT-based pla...

ID: 2509.12274v1 cs.AI, cs.CV, cs.LG, 68T07, 68T45, 68U10, I.4.8; I.2.6; I.5.4; C.3

arXiv PDF

📄 Automated Cervical Cancer Detection through Visual Inspection with Acetic Acid in Resource-Poor Settings with Lightweight Deep Learning Models Deployed on an Android Device

2025-08-21

Авторы:

Leander Melroy Maben, Keerthana Prasad, Shyamala Guruvare, Vidya Kudva, P C Siddalingaswamy

#### Контекст Кожный рак является одной из самых распространенных форм рака в женской популяции и приводит к большому числу заболеваний и смертей в низкоингредиентных и среднеингредиентных странах, несмотря на то, что имеет предсказуемую и достаточно простую терапию. Опытные исследования показали, что профилактические меры, включающие в себя публичные скрининговые программы, могут значительно снизить частоту и поводы для смерти от кожного рака. Несмотря на доступность различных тестов, визуальная инспекция с применением якорного кислота (VIA) является наиболее бюджетным и простым в применении в средствах борьбы с раком в низкоингредиентных регионах. VIA требует вмешательства квалифицированного медиком и является подлежащим субъективному осмотру. Автоматизация VIA с помощью искусственного интеллекта может устранить эту субъективность и позволить расширить применение скрининга менее квалифицированным медицинским работникам. В настоящей работе описывается легковесное нейросетевое решение, которое использует EfficientDet-Lite3 для обнаружения регионов интереса (ROI) и модель MobileNet-V2 для классификации, включенных в систему, работающую на андроид-устройстве. Эта система предназначена для эксплуатации в удаленных областях и предоставляет результаты в режиме реального времени, не требуя высококвалифицированных специалистов, специальных лабораторий или высокоскоростного интернета. #### Метод Авторы предлагают сочетание двух нейросетевых моделей, работающих вместе для решения задачи автоматизации VIA. EfficientDet-Lite3 используется для выделения регионов интереса (ROI) на изображениях, полученных в ходе процедуры VIA. Для классификации этих регионов используется модель MobileNet-V2, обученная на многочисленных примерах, которая определяет присутствие раковых симптомов. Архитектура системы разработана с учетом требований низкоингредиентных регионов, чтобы обеспечить быструю и эффективную обработку на устройствах с ограниченными ресурсами. Для обучения и оценки модели использовались данные, собранные в ходе скрининговых программ VIA. Эксперименты проводились на наборе данных, включающем изображения с различными уровнями сложности и различными степенями выраженности раковых заболеваний. #### Результаты На тестовом наборе данных модель демонстрирует высокую точность (92.31%), высокую чувствительность (98.24%) и специфичность (88.37%). Эти показатели подтверждают то, что система может применяться в удаленных медицинских услугах, не требуя высококвалифицированных специалистов. Кроме того, модель работает быстро, что позволяет использовать е

Annotation:

Cervical cancer is among the most commonly occurring cancer among women and claims a huge number of lives in low and middle-income countries despite being relatively easy to treat. Several studies have shown that public screening programs can bring down cervical cancer incidence and mortality rates significantly. While several screening tests are available, visual inspection with acetic acid (VIA) presents itself as the most viable option for low-resource settings due to the affordability and si...

ID: 2508.13253v1 eess.IV, cs.CV, cs.LG, 68T07, 92C55, 68T45, I.4.9; J.3; I.2.10; I.2.6

arXiv PDF

📄 Conditional Fetal Brain Atlas Learning for Automatic Tissue Segmentation

2025-08-09

Авторы:

Johannes Tischer, Patric Kienast, Marlene Stümpflen, Gregor Kasprian, Georg Langs, Roxane Licandro

Условная атласная модель для сегментации тканей мозга неbornого ребенка (Fetal Brain Atlas Learning for Automatic Tissue Segmentation) решает проблему стандартизации и анализа МРТ изображений мозга неbornого ребенка, которые часто бывают непостоянными в зависимости от возраста беременности, протоколов съемки и степени точности оценки возраста беременности (GA). Метод предлагает генерировать условные, возрастно-специфичные модели, используя нейронные сети с регистрацией и условным дискриминатором. Модель обучалась на 219 MR-снимках неbornого мозга от 21 до 37 недель во втором триместре. Она достигла высокой аккуратности регистрации и точной сегментации шести зон мозга с DSC 86.3%. Благодаря этому, модель позволяет проводить детальный анализ развития мозга неbornого ребенка, дающий более точные траектории роста мозга, и оказывает важное значение для клинических исследований и применений.

Annotation:

Magnetic Resonance Imaging (MRI) of the fetal brain has become a key tool for studying brain development in vivo. Yet, its assessment remains challenging due to variability in brain maturation, imaging protocols, and uncertain estimates of Gestational Age (GA). To overcome these, brain atlases provide a standardized reference framework that facilitates objective evaluation and comparison across subjects by aligning the atlas and subjects in a common coordinate system. In this work, we introduce ...

ID: 2508.04522v1 eess.IV, cs.CV, cs.LG, 68T07 (Primary) 92C50 (Secondary), I.4.9; I.4.6; I.2.0

arXiv PDF

📄 Toward Errorless Training ImageNet-1k

2025-08-09

Авторы:

Bo Deng, Levi Heath

В статье **"Toward Errorless Training ImageNet-1k"** авторы предлагают новый подход к обучению искусственных нейронных сетей с помощью метода, достигшего высокой точности 98,3% с приемлемым значением Top-1 (99,69%) на датасете ImageNet-1k. Основоположником нового подхода является устранение искажений в данных, что позволило свести к минимуму ошибки сети в ходе обучения. Однако авторы отмечают, что достижение 100% точности недостижимо из-за дублирования изображений с разными меток в наборе данных. Экспериментальные результаты показали, что модель с 322 миллионов параметров способна правильно классифицировать 285.9 меток в среднем за 10 партиций данных. Основной вывод — что ограничения в качестве данных остаются ключевым фактором, скорее всего, ограничивающим достижение идеальной точности.

Annotation:

In this paper, we describe a feedforward artificial neural network trained on the ImageNet 2012 contest dataset [7] with the new method of [5] to an accuracy rate of 98.3% with a 99.69 Top-1 rate, and an average of 285.9 labels that are perfectly classified over the 10 batch partitions of the dataset. The best performing model uses 322,430,160 parameters, with 4 decimal places precision. We conjecture that the reason our model does not achieve a 100% accuracy rate is due to a double-labeling pro...

ID: 2508.04941v1 cs.CV, cs.LG, 68T07

arXiv PDF

📄 VCNet: Recreating High-Level Visual Cortex Principles for Robust Artificial Vision

2025-08-09

Авторы:

Brennen A. Hill, Zhang Xinyu, Timothy Putra Prasetio

Модели сверточных нейронных сетей (CNN), хотя и достигают высокой точности в задачах классификации изображений, обладают серьезными ограничениями: низкая эффективность использования данных, слабая обществойность за пределами обучающего набора и чувствительность к адверсарным направленным помехам. Работа основывается на том, что приматская визуальная система достигает эффективности и высокой устойчивости благодаря своей сложной структуре. В этой работе предлагается VCNet — модель, которая эмулирует биологические принципы работы визуального коры, включая горизонтальное и вертикальное процессинг, двойной поток информации и возвратные прогностические сигналы. Модель протестирована на двух специализированных датасетах: Spots-10 и задаче распознавания изображений в лучах. Результаты показали, что VCNet демонстрирует высокую точность классификации (92.1% на Spots-10 и 74.4% на лучах), превосходя сравнимые модели. Это доказывает, что интеграция природных принципов может привести к более эффективным и устойчивым моделям для решения проблем в машинном обучении.

Annotation:

Despite their success in image classification, modern convolutional neural networks (CNNs) exhibit fundamental limitations, including data inefficiency, poor out-of-distribution generalization, and vulnerability to adversarial perturbations. The primate visual system, in contrast, demonstrates superior efficiency and robustness, suggesting that its architectural principles may offer a blueprint for more capable artificial vision systems. This paper introduces Visual Cortex Network (VCNet), a nov...

ID: 2508.02995v1 cs.NE, cs.AI, cs.CV, cs.LG, 68T07, 68T45, 68U10, I.2.6; I.4.8; I.2.10; I.5.1

arXiv PDF