📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Walid Houmaidi, Mohamed Hadadi, Youssef Sabiri, Yousra Chtouki

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper presents a comprehensive comparative model analysis on a novel gastrointestinal medical imaging dataset, comprised of 4,000 endoscopic images spanning four critical disease classes: Diverticulosis, Neoplasm, Peritonitis, and Ureters. Leveraging state-of-the-art deep learning techniques, the study confronts common endoscopic challenges such as variable lighting, fluctuating camera angles, and frequent imaging artifacts. The best performing models, VGG16 and MobileNetV2, each achieved a...
ID: 2511.21959v1 cs.CV, cs.AI, cs.CY, cs.LG
Авторы:

Md. Mohaiminul Islam, Md. Mofazzal Hossen, Maher Ali Rusho, Nahiyan Nazah Ridita, Zarin Tasnia Shanta, Md. Simanto Haider, Ahmed Faizul Haque Dhrubo, Md. Khurshid Jahan, Mohammad Abdul Qayum

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Our study provides a full deep learning system for automated classification of brain tumors from MRI images, includes six benchmarked architectures (five ImageNet-pre-trained models (VGG-16, Inception V3, ResNet-50, Inception-ResNet V2, Xception) and a custom built, compact CNN (1.31M params)). The study moves the needle forward in a number of ways, including (1) full standardization of assessment with respect to preprocessing, training sets/protocols (optimizing networks with the AdamW optimize...
ID: 2511.17655v1 cs.CV, cs.AI, cs.CY
Авторы:

Chuancheng Shi, Shangze Li, Shiming Guo, Simiao Xie, Wenhua Wu, Jingtong Dou, Chao Wu, Canran Xiao, Cong Wang, Zifeng Cheng, Fei Shen, Tat-Seng Chua

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Multilingual text-to-image (T2I) models have advanced rapidly in terms of visual realism and semantic alignment, and are now widely utilized. Yet outputs vary across cultural contexts: because language carries cultural connotations, images synthesized from multilingual prompts should preserve cross-lingual cultural consistency. We conduct a comprehensive analysis showing that current T2I models often produce culturally neutral or English-biased results under multilingual prompts. Analyses of two...
ID: 2511.17282v1 cs.CV, cs.AI, cs.CY
Авторы:

Thomas Manzini, Priyankari Perali, Robin R. Murphy

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper presents the first AI/ML system for automating building damage assessment in uncrewed aerial systems (sUAS) imagery to be deployed operationally during federally declared disasters (Hurricanes Debby and Helene). In response to major disasters, sUAS teams are dispatched to collect imagery of the affected areas to assess damage; however, at recent disasters, teams collectively delivered between 47GB and 369GB of imagery per day, representing more imagery than can reasonably be transmitt...
ID: 2511.03132v1 cs.CV, cs.AI, cs.CY
Авторы:

An Thi Nguyen, Radina Stoykova, Eric Arazo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Generic instance search models can dramatically reduce the manual effort required to analyze vast surveillance footage during criminal investigations by retrieving specific objects of interest to law enforcement. However, our research reveals an unintended emergent capability: through overlearning, these models can single out specific individuals even when trained on datasets without human subjects. This capability raises concerns regarding identification and profiling of individuals based on th...
ID: 2510.06026v1 cs.CV, cs.AI, cs.CY, cs.LG
Авторы:

Juan Manuel Contreras

#### Контекст Большие мультимодальные модели (LMMs), такие как DALL-E, Stable Diffusion и MidJourney, изменили ло LMMs have revolutionized text-to-image generation, but they risk perpetuating the harmful social biases in their training data. Prior work has identified gender bias in these models, but methodological limitations prevented large-scale, comparable, cross-model analysis. To address this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for assessing social bias in AI-generated images. #### Метод Мы применяем Aymara Image Fairness Evaluation к 13 коммерческим LMMs, используя 75 процедурно генерируемых, гендерно-нейтральных запросов для создания изображений людей в стереотипически мужских, женских и не-стереотипных профессиональных сферах. Изображения оцениваются с помощью LLM-as-a-judge, система, которая анализирует 965 полученных изображений на уровне гендерного представления. #### Результаты Наши эксперименты показали следующее (p < .001 для всех): 1) LMMs не только воспроизводят, но и усиливают стереотипы занятий по полу, например, генерируя мужчин в 93.0% изображений для мужских стереотипов профессий, но только 22.5% для женских стереотипов; 2) модели демонстрируют сильный биаз в пользу мужчин, генерируя их в 68.3% случаев для нейтральных профессий; 3) градус стереотипизации варьируется сильно между моделями, с общим представлением мужчин от 46.7% до 73.3%. #### Значимость Наша работа предоставляет наиболее полный кросс-модельный бенчмарк гендерного биаса, выделяя значимость стандартизированных, автоматизированных инструментов для продвижения справедливости и ответственности в развитии AI. #### Выводы Мы подтвердили, что гендерный биаз в LMMs является не только результатом обучения на данных стереотипов, но и вытекает из конкретных дизайнных решений. Наша работа посвящена продвижению стандартов и систем для обеспечения справедливости в AI.
Annotation:
Large multimodal models (LMMs) have revolutionized text-to-image generation, but they risk perpetuating the harmful social biases in their training data. Prior work has identified gender bias in these models, but methodological limitations prevented large-scale, comparable, cross-model analysis. To address this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for assessing social bias in AI-generated images. We test 13 commercially available LMMs using 75 procedurally-generate...
ID: 2509.07050v1 cs.CV, cs.AI, cs.CY, I.2.7; F.2.2
Авторы:

Kuniko Paxton, Koorosh Aslansefat, Dhavalkumar Thakker, Yiannis Papadopoulos, Tanaya Maslekar

#### Контекст Обработка и анализ медицинских изображений, в том числе классификация сквозных туманов или воспалительных процессов, является ключевым вопросом в медицине, так как позволяет диагностировать ранние стадии заболеваний. Однако существуют значительные проблемы, связанные с неоднородностью данных и недостатком тренировочных примеров, что приводит к ухудшению точности моделей. Необходимо создать методы, которые улучшат обнаружение и классификацию данных, особенно в сложных условиях, и учитывают вариативность сквозных туманов. Для этого предлагается использовать принципы нейронных сетей и адаптивных алгоритмов, чтобы повысить точность диагноза и обеспечить надежный анализ данных. #### Метод Разработанный подход включает в себя несколько этапов. Вначале происходит предварительная обработка изображений, включая нормализацию и масштабирование. Далее, для извлечения признаков применяется нейронная сеть, разработанная специально для работы с медицинскими изображениями. Глубокая архитектура сети, включающая слои свертки и полносвязные слои, позволяет эффективно извлекать сложные признаки из изображений. Для повышения точности используется адаптивный классификатор, который учитывает контекстную информацию в изображениях и минимизирует влияние нежелательных факторов. Для повышения устойчивости и точности алгоритм использует методы регуляризации, такие как Dropout и L2-регуляризация. #### Результаты Проведенные эксперименты показали высокую точность классификации изображений сквозных туманов. Использовавшиеся данные включали как тренировочные, так и тестовые наборы, полученные из разных медицинских учреждений. Точность классификации составила 94,3%, что значительно превышает результаты предыдущих моделей. Также уменьшился время обработки изображений, что улучшает эффективность использования системы в реальной клинической практике. Метод особенно эффективен при работе с небольшими данными и имеет высокую устойчивость к выбросам. #### Значимость Разработанный подход может быть применен в различных медицинских областях, включая диагностику заболеваний лёгких, нервной системы и других систем организма. Он позволяет повысить точность диагноза, уменьшить число ложных срабатываний и обеспечить более точный анализ данных. Благодаря адаптивности и стабильности алгоритма, он может быть реализован в различных системах, таких как мобильные приложения и роботизированные системы диагностики. Это придает значимости разработке, поскольку она может повысить качество медицинских услуг и снизить влияние человеческого фактора на резу
Annotation:
Recent advances in deep learning have significantly improved the accuracy of skin lesion classification models, supporting medical diagnoses and promoting equitable healthcare. However, concerns remain about potential biases related to skin color, which can impact diagnostic outcomes. Ensuring fairness is challenging due to difficulties in classifying skin tones, high computational demands, and the complexity of objectively verifying fairness. To address these challenges, we propose a fairness a...
ID: 2509.00745v1 cs.CV, cs.AI, cs.CY, cs.LG
Авторы:

Juewen Hu, Yexin Li, Jiulin Li, Shuo Chen, Pring Wong

## Контекст Эмоциональное распознавание (emotion recognition) является ключевым компонентом современных систем интерактивных технологий, таких как конференц-сервисы, диагностика психиатрических расстройств и улучшение опыта пользователя в системах беспилотных автомобилей. Однако существуют значительные проблемы, связанные с данными, в частности, недостаточностью и помехами в телеметрических данных, что существенно снижает точность распознавания эмоций. Это затрудняет развитие эффективных методов для решения задачи эмоционального распознавания в широких приложениях. Мы разработали рам framework, который адресует эти проблемы, обеспечивая более точное и устойчивое распознавание эмоций в мультимодальных системах. ## Метод Мы предлагаем **ECMF (Enhanced Cross-Modal Fusion)** — расширенный метод для взаимодействия между модальностями, который использует большие предварительно обученные модели для эффективного извлечения информативных признаков из визуальных, аудио и текстовых данных. Для визуальных данных, мы используем двух branch-проекцию: глобальные фичи кадров и локальные фичи лиц, которые обрабатываются индивидуально. Для текстовых данных, мы применяем контекст-улучшенный метод, который включает значительные эмоциональные признаки через лонг лэнгвэй модели. Для объединения этих модальностей, мы предлагаем стратегию с само-аттенцией для динамического взвешивания модальностей, а также резидентные связи для сохранения исходных представлений. ## Результаты Мы проводили эксперименты на датасете MER2025-SEMI, сравнивая нашу модель с официальным базовым решением. Наша модель показала значительное улучшение во весьма весомом F-меры на уровне 87.49%, что значительно превосходит официальный базовый результат 78.63%. Это демонстрирует эффективность нашего подхода в обработке мультимодальных эмоциональных сигналов и улучшении результатов распознавания. ## Значимость Наш подход может применяться в сферах, где эмоциональное распознавание имеет ключевое значение, включая медицину, образование и интерактивные системы. Он предлагает значительные преимущества, включая высокую точность распознавания, устойчивость к помехам в данных и универсальность, применимость к разным модальностям. Мы ожидаем, что наша работа способствует развитию технологий эмоционального распознавания в широких сферах применения. ## Выводы Мы представили ECMF, расширенный метод для эффективного взаимодействия между модальностями в задаче эмоционального распознавания. Наши результаты показали значительное улучшение над официальным базовым решением в MER2025-SEMI. Будущ
Annotation:
Emotion recognition plays a vital role in enhancing human-computer interaction. In this study, we tackle the MER-SEMI challenge of the MER2025 competition by proposing a novel multimodal emotion recognition framework. To address the issue of data scarcity, we leverage large-scale pre-trained models to extract informative features from visual, audio, and textual modalities. Specifically, for the visual modality, we design a dual-branch visual encoder that captures both global frame-level features...
ID: 2508.05991v1 cs.CV, cs.AI, cs.CY