📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Dasol Choi Jihwan Lee, Minjae Lee, Minsuk Kahng

**Резюме:** В статье рассматривается проблема демографических предубеждений в объектах, генерируемых моделями text-to-image. Несмотря на то, что предыдущие исследования фокусировались в основном на биасе в демографической характеристике людей, авторы раскрывают более тонкую проблему — стереотипы в визуальных атрибутах объектов, таких как автомобили. Для этого был разработан новый фреймворк SODA (Stereotyped Object Diagnostic Audit), который позволяет систематически измерять такие биаси. Анализ 2700 изображений, сгенерированных тремя современными моделями (GPT Image-1, Imagen 4, Stable Diffusion) в пяти категориях объектов, показал сильную ассоциацию между демографическими признаками (такими как пол или этническая принадлежность) и визуальными чертами объектов. Обнаруженные стереотипы отражают и усиливают социально-культурные представления, в том числе самые тонкие и неочевидные. Также было выявлено, что некоторые модели генерируют менее разнообразные выходные данные, что усиливает различия в визуальных атрибутах. Результаты показывают, что SODA может стать эффективным инструментом для выявления и коррекции стереотипных биасов в моделях генеративного AI.
Annotation:
While prior research on text-to-image generation has predominantly focused on biases in human depictions, we investigate a more subtle yet pervasive phenomenon: demographic bias in generated objects (e.g., cars). We introduce SODA (Stereotyped Object Diagnostic Audit), a novel framework for systematically measuring such biases. Our approach compares visual attributes of objects generated with demographic cues (e.g., "for young people'') to those from neutral prompts, across 2,700 images produced...
ID: 2508.03483v1 cs.CV, cs.AI
Авторы:

Inamullah, Imran Razzak, Shoaib Jameel

Несмотря на признание ретинальной микрососудистой архитектуры как окна в системное здоровье, механизмы, связывающие её с липидным профилем крови, оставались неизученными. Авторы анализировали 10 DL-извлечённых вазографических признаков и 4 класса сывороточных липидов (FA, DAG, TAG, CE) в когорте 8 000 здоровых взрослых. Применив корреляционный анализ с FDR-регулировкой, они показали: свободные жирные кислоты предсказывают извилистость сосудов, холестериловые эфиры — средний диаметр артерий и вен, а DAG/TAG обратно коррелировали с шириной и сложностью артериолярной сети. Работа впервые демонстрирует, что ретинальные DL-трейты отражают конкретные липидные сигнатуры, что открывает путь к неинвазивному скринингу метаболического риска задолго до клинических проявлений.
Annotation:
Retinal microvascular imaging is increasingly recognised as a non invasive method for evaluating systemic vascular and metabolic health. However, the association between lipidomics and retinal vasculature remains inadequate. This study investigates the relationships between serum lipid subclasses, free fatty acids (FA), diacylglycerols (DAG), triacylglycerols (TAG), and cholesteryl esters (CE), and retinal microvascular characteristics in a large population-based cohort. Using Spearman correlati...
ID: 2508.03538v1 cs.CV, cs.AI
Авторы:

Wuyang Li, Wentao Pan, Xiaoyuan Liu, Zhendong Luo, Chenxin Li, Hengyu Liu, Din Ping Tsai, Mu Ku Chen, Yixuan Yuan

Современные миниатюрные эндоскопы ограничены миллиметровыми линзами. Метаповерхности позволяют уменьшить толщину до микрон, но создают качественный разрыв между физикой света и алгоритмами. Авторы строят первый набор данных для металинзовой эндоскопии и выявляют два ключевых искажения — затухание интенсивности и хроматическую аберрацию. Предложенная сеть MetaScope учитывает оптику двумя модулями: OIA корректирует затухание через оптические эмбеддинги, OCC устраняет аберрации через пространственную деформацию, обученную на распределении PSF. Градиент-направленная дистилляция переносит знания из базовой модели. Эксперименты показывают SOTA-результаты по сегментации и восстановлению изображений, а также успешную работу на реальных биомедицинских сценах.
Annotation:
Miniaturized endoscopy has advanced accurate visual perception within the human body. Prevailing research remains limited to conventional cameras employing convex lenses, where the physical constraints with millimetre-scale thickness impose serious impediments on the micro-level clinical. Recently, with the emergence of meta-optics, ultra-micro imaging based on metalenses (micron-scale) has garnered great attention, serving as a promising solution. However, due to the physical difference of meta...
ID: 2508.03596v1 cs.CV, cs.AI
Авторы:

Daniel DeAlcala, Aythami Morales, Julian Fierrez, Ruben Tolosana

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы сверточные нейронные сети (CNNs) стали основным инструментом для решения задач в области компьютерного зрения, таких как классификация изображений, детекция объектов и сегментация. Однако, несмотря на успехи, CNNs имеют ограничения в способности эффективно выделять значимые регионы на изображениях. Это связано с тем, что стандартные архитектуры часто полагаются на заранее заданные параметры и фиксированные фильтры, которые могут не учитывать все тонкости и вариативность визуальных данных. Традиционные подходы с применением механизмов внимания, направленных на улучшение качества извлекаемых признаков, зачастую требуют интеграции в конкретные архитектуры, что ограничивает их универсальность и применимость. Таким образом, существует необходимость в разработке модульного и архитектурно-независимого решения, которое могло бы улучшать процесс выделения признаков в существующих CNNs без значительных изменений их структуры. В данной статье авторы предлагают новый метод Attention Zoom, который направлен на решение этих проблем и повышение эффективности процесса извлечения признаков из изображений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Attention Zoom представляет собой модульный механизм пространственного внимания, который можно интегрировать в различные архитектуры CNN без необходимости значительных изменений. В отличие от традиционных подходов, которые требуют специфической интеграции в архитектуру, Attention Zoom добавляется как отдельный слой, фокусирующийся на областях изображения с высокой важностью. Этот механизм анализирует входные данные и акцентирует внимание сети на значимых регионах, улучшая тем самым качество извлекаемых признаков. Основной идеей является использование внимания для "увеличения" критических участков изображения, что приводит к более детальному и разнообразному вниманию. Таким образом, Attention Zoom способствует более точному и эффективному извлечению признаков, минимизируя при этом архитектурные накладные расходы и сохраняя общую универсальность и гибкость метода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода Attention Zoom авторы провели серию экспериментов на различных архитектурах CNN с использованием наборов данных CIFAR-100 и TinyImageNet. Результаты показали значительные улучшения в точности классификации как по метрике Top-1, так и по метрике Top-5. Визуальный анализ с использованием Grad-CAM и пространственного искажения продемонстрировал, что Attention Zoom способствует более тонкому и разнообразному распределению внимания по изображению. Это подтверждает способность метода акцентировать внимание на более значимых деталях, что в свою очередь улучшает общее качество классификации. Полученные результаты указывают на универсальность и эффективность предложенного слоя, который может улучшать производительность CNNs с минимальными изменениями в архитектуре. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный механизм Attention Zoom обладает широким спектром потенциальных применений в различных областях, связанных с компьютерным зрением. Одним из ключевых преимуществ является его архитектурная независимость, что позволяет интегрировать его в существующие модели без значительных изменений. Это делает метод особенно привлекательным для практического применения, где часто требуется улучшать производительность уже развернутых систем. Улучшение качества извлечения признаков может существенно повысить точность и надежность задач классификации, детекции и сегментации изображений. Кроме того, минимальные архитектурные накладные расходы делают метод доступным для применения в ресурсозависимых средах, таких как мобильные устройства и встроенные системы. Такой подход может значительно повлиять на эффективность и точность обработки визуальной информации в реальных приложениях, от автономных транспортных средств до систем мониторинга безопасности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы демонстрируют, что Attention Zoom является эффективным и универсальным решением для улучшения качества выделения признаков в CNNs. Основные достижения включают значительное повышение точности классификации и более детализированное распределение внимания на изображениях. Поскольку метод не требует значительных изменений архитектуры, он может быть легко адаптирован для использования с различными моделями CNN. В будущем исследование может быть направлено на дальнейшее улучшение механизма внимания и его адаптацию для других типов нейронных сетей и задач, таких как обработка видео и трехмерных изображений. Кроме того, изучение влияния Attention Zoom в контексте обучения с малым количеством данных может открыть новые возможности для его применения в условиях ограниченных ресурсов.
Annotation:
We present Attention Zoom, a modular and model-agnostic spatial attention mechanism designed to improve feature extraction in convolutional neural networks (CNNs). Unlike traditional attention approaches that require architecture-specific integration, our method introduces a standalone layer that spatially emphasizes high-importance regions in the input. We evaluated Attention Zoom on multiple CNN backbones using CIFAR-100 and TinyImageNet, showing consistent improvements in Top-1 and Top-5 clas...
ID: 2508.03625v1 cs.CV, cs.AI
Показано 2271 - 2274 из 2274 записей