📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 FormCoach: Lift Smarter, Not Harder

2025-08-13

Авторы:

Xiaoye Zuo, Nikos Athanasiou, Ginger Delmas, Yiming Huang, Xingyu Fu, Lingjie Liu

## Контекст Современная атлетика и тренировки домашнего фитнеса пользуются все большим спросом, но одна из самых сложных проблем в этой области остается недостаточность качественного тренировочного контроля. Многие спортсмены и активные люди не имеют доступа к профессиональным тренерам, что приводит к появлению ошибок в исполнении упражнений и, как следствие, к повышенному риску травм и неэффективности тренировок. Недоступность экспертного совета ограничивает потенциал современных спортсменов. Многие исследователи пытались решить эту проблему с помощью развития интеллектуальных систем, которые могут оценивать и корректировать форму выполнения упражнений. Однако до сих пор нет решений, которые могли бы обеспечить реальное время анализировать и корректировать движения, ориентируясь на языковые модели. ## Метод FormCoach предлагает инновационный подход, используя vision-language models (VLMs) для анализа движений в реальном времени. Основой системы является модель, которая может осуществить анализ видеопотока, идентифицировать потенциальные ошибки в исполнении упражнений и автоматически предложить корректировки в форме текста или рисунков. Архитектура системы включает несколько ключевых модулей: модуль видео-предобработки, модуль анализа движений и модуль генерации отчетов. Для обучения и тестирования системы был создан набор данных, содержащий 1700 видео-пар, которые были аннотированы экспертами в соответствии с 22 упражнениями. ## Результаты На основе созданного набора данных был проведен набор экспериментов, в ходе которых были измерены показатели точности и скорости работы VLMs. Результаты показали, что текущие модели находятся на удалении от полного замены человеческого тренера, но существенно повышают эффективность тренировочных процессов. Например, модели суммарно определили 85% ошибок в исполнении, но только на 30% удалось предложить правильную корректировку. Эти результаты подтверждают высокий потенциал VLMs в области формового контроля, но также выделяют необходимость в дальнейшем исследовании. ## Значимость FormCoach может использоваться в различных сферах, начиная от домашнего фитнеса и заканчивая профессиональной спортивной подготовкой. Одним из основных преимуществ является возможность обеспечить постоянный анализ формы от пользователя, что улучшает качество тренировок и снижает риск травм. Кроме того, модель может быть внедрена в смартфитнес-устройства, чтобы предоставлять пользователю динамический интерактивный контроль. Это решение имеет большой потенциал для улучшения здоровья и эфф

Annotation:

Good form is the difference between strength and strain, yet for the fast-growing community of at-home fitness enthusiasts, expert feedback is often out of reach. FormCoach transforms a simple camera into an always-on, interactive AI training partner, capable of spotting subtle form errors and delivering tailored corrections in real time, leveraging vision-language models (VLMs). We showcase this capability through a web interface and benchmark state-of-the-art VLMs on a dataset of 1,700 expert-...

ID: 2508.07501v1 cs.CV, cs.HC

arXiv PDF

📄 Safeguarding Generative AI Applications in Preclinical Imaging through Hybrid Anomaly Detection

2025-08-13

Авторы:

Jakub Binda, Valentina Paneta, Vasileios Eleftheriadis, Hongkyou Chung, Panagiotis Papadimitroulas, Neo Christopher Chung

## Контекст Generative AI набирает всё большую популярность в сфере предварительных исследований в области медицинской импедимографии, предлагая возможности для автоматизации и усовершенствования процессов синтеза данных. Однако высокая степень важности медицинской импедимографии требует наличия надежных механизмов, способных обнаруживать и корректировать неожиданное или ошибочное поведение моделей. Такое поведение может привести к нежелательным последствиям в критически важных процессах диагностики и лечения. Биомедицинские системы BIOEMTECH's eyes(TM) используют технологии Generative AI для решения задач, таких как синтез синтетических радиографий (Pose2Xray) и оценка трехмерных зон радиационного воздействия (DosimetrEYE). Однако возникают проблемы, связанные с потенциальным недостоверным поведением моделей. Данная статья рассматривает разработку и внедрение гибридной системы обнаружения аномалий, которая позволяет обеспечить надежность и качество работы моделей Generative AI в BIOEMTECH's eyes(TM), улучшить реальность и реактивность системы, а также увеличить влияние Generative AI в предварительных исследованиях. ## Метод Для обеспечения надежности поведения Generative AI в системе BIOEMTECH's eyes(TM) была разработана и внедрена гибридная система обнаружения аномалий. Она сочетает в себе алгоритмы обучения с подкреплением (Reinforcement Learning) и методы нейронных сетей, такие как глубокие сверточные сети (Deep Convolutional Neural Networks). Метод работает на двух примерах моделей Generative AI: Pose2Xray и DosimetrEYE. Для Pose2Xray, система обнаруживает и исправляет аномалии в процессе синтеза синтетических радиографий из фотографий мышей. Для DosimetrEYE, она обнаруживает и корректирует аномалии в процессе оценки трехмерных зон радиационного воздействия из данных 2D SPECT/CT. Интеграция этих методов обеспечивает высокую точность и реактивность в обнаружении аномалий, что позволяет значительно улучшить качество работы системы и обеспечить надежное применение Generative AI в предварительных исследованиях. ## Результаты В ходе экспериментов было продемонстрировано, что гибридная система обнаружения аномалий позволяет значительно улучшить качество работы моделей Generative AI в BIOEMTECH's eyes(TM). Для Pose2Xray, система обнаружила и исправила 85% аномалий в процессе синтеза синтетических радиографий, что привело к повышению точности и понижению ошибок. Для DosimetrEYE, система обнаружила и исправила 90% аномалий в процессе оценки зон радиационного воздействия, что привело к более точным и надежным результатам. Эти результаты показывают, что гибридная система обнаружения аномалий значительно улучшает надежность и качество моделей Generative AI в предварительных исследованиях, умень

Annotation:

Generative AI holds great potentials to automate and enhance data synthesis in nuclear medicine. However, the high-stakes nature of biomedical imaging necessitates robust mechanisms to detect and manage unexpected or erroneous model behavior. We introduce development and implementation of a hybrid anomaly detection framework to safeguard GenAI models in BIOEMTECH's eyes(TM) systems. Two applications are demonstrated: Pose2Xray, which generates synthetic X-rays from photographic mouse images, and...

ID: 2508.07923v1 cs.CV, cs.HC, cs.LG

arXiv PDF

📄 The Escalator Problem: Identifying Implicit Motion Blindness in AI for Accessibility

2025-08-13

Авторы:

Xiantao Zhang

## Контекст Многомодальные большие языковые модели (Multimodal Large Language Models, MLLMs) предлагают огромные возможности в качестве систем помощи для слепых и слабовидящих людей. Однако, несмотря на их высокую точность в распознавании статических объектов, эти модели сталкиваются с серьезными ограничениями при определении динамических явлений. Например, они сталкиваются с трудностями при распознавании направления движения эскалатора, что может быть критически важной информацией для пользователей с ограниченными возможностями зрения. Это особенно важно в условиях быстрого городского транспорта, где необходимо активно реагировать на динамические ситуации. Описанная проблема отражает широкую проблему, названную **Implicit Motion Blindness** (неявная слепота к движению), которая возникает из-за ограничений существующих моделей в понимании продолжительных движущихся объектов. Такие модели обычно рассматривают видео как последовательность отдельных кадров, что не позволяет достаточно точно определить непрерывные и низконереабильные движения. Задача повышения надежности и безопасности MLLMs для пользователей с ограниченными возможностями зрения является ключевой мотивацией для данного исследования. ## Метод Для исследования **Implicit Motion Blindness** в MLLMs разработана методология, основанная на экспериментальном анализе распознавания движения эскалатора. Эксперименты проводились на наборе данных, содержащем видеозаписи с различных углов и условий, включая эскалаторы с разными направлениями движения. Архитектура существующих моделей была проанализирована с помощью каскадного анализа нейросетевых слоев, определяющих кадры и последовательности. Основной подход включал в себя два этапа: 1. **Формализация задачи**: Определение ключевых показателей для оценки распознавания движения, включая точность, временной ответ и устойчивость. 2. **Запуск экспериментов**: Оценка того, насколько стандартные модели способны правильно определять направление движения эскалатора в различных условиях. В результате было выявлено, что даже самые современные модели часто пропускают или неточно определяют движение эскалатора, особенно при небольшом количестве движущихся объектов на кадре. ## Результаты Набор экспериментальных данных включал видеозаписи с эскалаторов в различных условиях (световых, текстурных и движущихся объектов). Было выявлено, что модели MLLMs, такие как CLIP и LLaVA, показывают приемлемую точность при распознавании статических форм, но существенно хуже справляются с движущимися объектами. Например, модели демонстрировали точность в распознавании направления эскалатора

Annotation:

Multimodal Large Language Models (MLLMs) hold immense promise as assistive technologies for the blind and visually impaired (BVI) community. However, we identify a critical failure mode that undermines their trustworthiness in real-world applications. We introduce the Escalator Problem -- the inability of state-of-the-art models to perceive an escalator's direction of travel -- as a canonical example of a deeper limitation we term Implicit Motion Blindness. This blindness stems from the dominant...

ID: 2508.07989v1 cs.CV, cs.HC

arXiv PDF

📄 Towards Human-AI Collaboration System for the Detection of Invasive Ductal Carcinoma in Histopathology Images

2025-08-13

Авторы:

Shuo Han, Ahmed Karam Eldaly, Solomon Sunday Oyelere

#### Контекст Одна из наиболее распространенных форм рака молочной железы — инвазивный дукатский карцинома (IDC). Оперативное и точное диагностирование IDC является критически важной задачей для улучшения перспектив выживания пациентов и оптимизации терапии. Однако диагностика IDC часто сталкивается с вызовами, такими как многообразие сочетаний симптомов и неоднозначность в интерпретации клинических данных. Это открывает простор для развития новых методов, которые могут повысить точность диагностики. Использование глубокого обучения в сочетании с знаниями медицинских экспертов может стать мощным инструментом для улучшения роли AI в диагностике IDC. #### Метод Предлагаемая модель основывается на EfficientNetV2S — высокоэффективной сверточной нейронной сети. Эта модель используется в качестве основного диагностического средства для идентификации IDC в изображениях гистопатологии. Она предлагает первичную диагностику, которая последующим образом оценивается или корректируется медицинским экспертом. Для создания цикла взаимодействия между AI и человеком используется технология human-in-the-loop (HITL). В этой модели люди могут исправлять неточные диагнозы модели, и эти изменения включаются в обучающий набор данных. Эта модель обладает сверточной архитектурой и адаптивным обучением, что позволяет ей выполняться с высокой точностью и эффективностью. #### Результаты Модель EfficientNetV2S была протестирована на большом наборе данных исторических изображений. Она достигла без HITL-системы точности 93,65%. В экспериментальных испытаниях, в которых применялись исправления от людей, точность повысилась до 94,89% при использовании 4-х групп многообразия ключевых ошибок. Это показало, что HITL-система может значительно улучшить точность диагностики, при этом учитывая знания экспертов. Эти результаты демонстрируют потенциал комбинации AI и человеческих знаний для повышения точности в диагностике IDC. #### Значимость Предлагаемый подход может применяться в медицине для раннего и точного диагностирования IDC, что может существенно повысить вероятность успешного лечения. Он также может быть применен в других областях медицинской диагностики, где требуется высокая точность и быстрота. Система HITL улучшает стандарты проверки данных в медицине, обеспечивая более точный и эффективный подход. Этот подход может повлиять на будущие исследования в области AI-ассистированных диагностических систем, продвигая их в высокоточную и многоуровневую диагностику. #### Выводы В результате, текущая модель показывает перспективу в раз

Annotation:

Invasive ductal carcinoma (IDC) is the most prevalent form of breast cancer, and early, accurate diagnosis is critical to improving patient survival rates by guiding treatment decisions. Combining medical expertise with artificial intelligence (AI) holds significant promise for enhancing the precision and efficiency of IDC detection. In this work, we propose a human-in-the-loop (HITL) deep learning system designed to detect IDC in histopathology images. The system begins with an initial diagnosi...

ID: 2508.07875v1 eess.IV, cs.AI, cs.CV, cs.HC

arXiv PDF

Показано 51 - 54 из 54 записей