📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Fairness in Multi-modal Medical Diagnosis with Demonstration Selection

2025-11-21

Авторы:

Dawei Li, Zijian Gu, Peng Wang, Chuhan Song, Zhen Tan, Mohan Zhang, Tianlong Chen, Yu Tian, Song Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multimodal large language models (MLLMs) have shown strong potential for medical image reasoning, yet fairness across demographic groups remains a major concern. Existing debiasing methods often rely on large labeled datasets or fine-tuning, which are impractical for foundation-scale models. We explore In-Context Learning (ICL) as a lightweight, tuning-free alternative for improving fairness. Through systematic analysis, we find that conventional demonstration selection (DS) strategies fail to e...

ID: 2511.15986v1 cs.CV, cs.CY, cs.LG

arXiv PDF

📄 MIRAGE: Agentic Framework for Multimodal Misinformation Detection with Web-Grounded Reasoning

2025-10-22

Авторы:

Mir Nafis Sharear Shopnil, Sharad Duwal, Abhishek Tyagi, Adiba Mahbub Proma

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Misinformation spreads across web platforms through billions of daily multimodal posts that combine text and images, overwhelming manual fact-checking capacity. Supervised detection models require domain-specific training data and fail to generalize across diverse manipulation tactics. We present MIRAGE, an inference-time, model-pluggable agentic framework that decomposes multimodal verification into four sequential modules: visual veracity assessment detects AI-generated images, cross-modal con...

ID: 2510.17590v1 cs.AI, cs.CL, cs.CV, cs.CY, cs.LG, I.2.7; H.3.3; I.4.9

arXiv PDF

📄 Auto-scaling Continuous Memory for GUI Agent

2025-10-14

Авторы:

Wenyi Wu, Kun Zhou, Ruoxin Yuan, Vivian Yu, Stephen Wang, Zhiting Hu, Biwei Huang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study how to endow GUI agents with scalable memory that help generalize across unfamiliar interfaces and long-horizon tasks. Prior GUI agents compress past trajectories into text tokens, which balloons context length and misses decisive visual cues (e.g., exact widget size and position). We propose a continuous memory that encodes each GUI trajectory into a fixed-length sequence of continuous embeddings using the VLM itself as an encoder; these embeddings are plugged directly into the backbon...

ID: 2510.09038v1 cs.AI, cs.CL, cs.CV, cs.CY, cs.LG

arXiv PDF

📄 InstaGeo: Compute-Efficient Geospatial Machine Learning from Data to Deployment

2025-10-09

Авторы:

Ibrahim Salihu Yusuf, Iffanice Houndayi, Rym Oualha, Mohamed Aziz Cherif, Kobby Panford-Quainoo, Arnu Pretorius

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Open-access multispectral imagery from missions like Landsat 8-9 and Sentinel-2 has fueled the development of geospatial foundation models (GFMs) for humanitarian and environmental applications. Yet, their deployment remains limited by (i) the absence of automated geospatial data pipelines and (ii) the large size of fine-tuned models. Existing GFMs lack workflows for processing raw satellite imagery, and downstream adaptations often retain the full complexity of the original encoder. We presen...

ID: 2510.05617v1 cs.CV, cs.CY, cs.LG

arXiv PDF

📄 Face4FairShifts: A Large Image Benchmark for Fairness and Robust Learning across Visual Domains

2025-09-05

Авторы:

Yumeng Lin, Dong Li, Xintao Wu, Minglai Shao, Xujiang Zhao, Zhong Chen, Chen Zhao

## Контекст Научные исследования постоянно сталкиваются со сложностями в обеспечении справедливости (fairness) и надежности (robustness) машинного обучения, особенно при переходах между различными видами визуальных данных (domain shifts). Эти проблемы становятся актуальнее в таких областях, как распознавание лиц, где необходимо обеспечить точность и справедливость в отношении различных демографических групп. Одной из ключевых проблем является то, что существующие данные и методы не вполне эффективны для оценки и улучшения справедливости и надежности моделей в условиях значительных визуальных различий. Это способствует необходимости в разработке более сложных инструментов для этих задач. Face4FairShifts - это крупномасштабная база данных, специально разработанная для систематической оценки справедливости в машинном обучении и обеспечения достоверности моделей при переходах между различными видами визуальных данных. ## Метод Face4FairShifts является большой базой данных, состоящей из 100,000 изображений лиц, разделенных на четыре вида различных визуальных доменов. Эти домены отличаются визуально и содержат детальные характеристики для 39 атрибутов, разделенных на 14 категорий, включающих как демографические признаки, так и физиологические особенности лица. База данных предназначена для тестирования различных алгоритмов обучения, особенно тех, которые стремятся добиться справедливости и надежности в условиях значительных визуальных различий. Она позволяет проводить эксперименты с разными архитектурами моделей и сравнивать полученные результаты, чтобы выявлять с WEAKNESSES в текущих подходах к обучению. ## Результаты Исследователи провели многочисленные эксперименты с Face4FairShifts, оценивая различные модели машинного обучения по их способности работать в условиях дистрибутивных сдвигов. Набор данных был использован для измерения производительности моделей в задачах распознавания лиц и справедливости. Результаты показали, что многие текущие модели имеют существенные уязвимости в тех случаях, когда требуется работа в условиях визуальных различий. Это подтверждает наличие значительных проблем в нынешних подходах к обучению, особенно в ситуациях, где требуется справедливость в отношении различных демографических групп. ## Значимость Face4FairShifts предоставляет широкие возможности для развития новых подходов к обучению, способных обеспечить справедливость и надежность в разных визуальных доменах. Этот набор данных может быть использован в различных областях, таких как безопасность, здравоохранение, искусственный интеллект и др., где важно обеспечить не только точ

Annotation:

Ensuring fairness and robustness in machine learning models remains a challenge, particularly under domain shifts. We present Face4FairShifts, a large-scale facial image benchmark designed to systematically evaluate fairness-aware learning and domain generalization. The dataset includes 100,000 images across four visually distinct domains with 39 annotations within 14 attributes covering demographic and facial features. Through extensive experiments, we analyze model performance under distributi...

ID: 2509.00658v1 cs.CV, cs.CY, cs.LG

arXiv PDF

📄 Vision-Based Embedded System for Noncontact Monitoring of Preterm Infant Behavior in Low-Resource Care Settings

2025-09-05

Авторы:

Stanley Mugisha, Rashid Kisitu, Francis Komakech, Excellence Favor

## Контекст Преждевременный род вызывает значительную часть неонатальной смертности и тяжелых заболеваний у новорожденных, специфично страдающих от недостатка доступа к высокотехнологичным плотных терапийным отделениям (терапевтический отдел новорожденных) в медицинских учреждениях низкого ресурсного уровня. Непрерывный мониторинг поведения преждевременного младенца, включающий состояния сна и бодрствования, а также выплески, является критически важной задачей. Однако, существующие методы, такие как ручное наблюдение или использование инвазивных сенсоров, требуют значительных усилий и могут вызывать кожные повреждения. Этот артикул предлагает инновационный подход, основанный на визуальной обработке изображений, для решения этой проблемы. ## Метод Предлагаемое решение основывается на разработке визуального системы мониторинга на базе эмбеддированной системы. Используется модель MobileNet, уменьшенная за счет quantization, запущенная на Raspberry Pi. Эта модель обеспечивает быстрый и эффективный анализ видеопотока для определения состояний сна, бодрствования и крика младенца. Технической особенностью является использование IoT для безопасной передачи данных в реальном времени клиническим системам, позволяющим связать проявления необычного поведения с клиническими оповещениями. Методика включает бенчмаркинг различных моделей, включая ResNet152 и VGG19, для сравнения их вычислительной эффективности и точности диагностики. ## Результаты Оценка производительности производилась на публичных датасетах неонатальной медицины. Уменьшенная модель MobileNet показала высокую точность в определении состояния сна (91.8%) и классификации крика (97.7%) с оптимальным балансом между вычислительной сложностью и точностью. Вычислительные эксперименты показали, что размер модели и ее скорость вывода являются критичными факторами для интеграции в реальном времени. Отчет о сравнении с более крупными архитектурами, такими как ResNet и VGG, показал, что хотя они могут показывать незначительное повышение точности, их ресурсоемкость не позволяет использовать их в реальном времени на малопроизводительных устройствах. ## Значимость Предложенная система может применяться в клинических учреждениях низкого ресурсного уровня для непрерывного мониторинга преждевременных младенцев. Система обеспечивает дешевую и клинически действительную альтернативу традиционным методам мониторинга. Основные преимущества включают высокую точность диагностики, эффективность ресурсов, и минимизацию возможных повреждений от инвазивных сенсоров. Это направляет прогре

Annotation:

Preterm birth remains a leading cause of neonatal mortality, disproportionately affecting low-resource settings with limited access to advanced neonatal intensive care units (NICUs).Continuous monitoring of infant behavior, such as sleep/awake states and crying episodes, is critical but relies on manual observation or invasive sensors, which are prone to error, impractical, and can cause skin damage. This paper presents a novel, noninvasive, and automated vision-based framework to address this g...

ID: 2509.02018v1 cs.CV, cs.CY, cs.LG, I.4.9

arXiv PDF