📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Coarse-to-Fine Joint Registration of MR and Ultrasound Images via Imaging Style Transfer

2025-08-09

Авторы:

Junyi Wang, Xi Zhu, Yikun Guo, Zixi Wang, Haichuan Gao, Le Zhang, Fan Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Регистрация магнитно-резонансных (MR) и ультразвуковых (US) изображений представляет собой критически важную задачу в нейрохирургии, особенно при планировании и навигации во время операций по удалению опухолей головного мозга. Современная нейрохирургическая практика требует точного совмещения предоперационных данных МРТ, которые предоставляют высококонтрастные анатомические структуры, с пострезекционными ультразвуковыми изображениями, которые позволяют врачам в реальном времени оценить полноту удаления опухолевой ткани. Однако существует ряд фундаментальных проблем, которые препятствуют эффективной регистрации этих модальностей. Первая и наиболее значительная проблема заключается в кардинальном различии физических принципов формирования изображений. МРТ использует ядерный магнетизм и радиочастотные импульсы для создания детализированных анатомических снимков, тогда как ультразвук основан на отражении акустических волн, что приводит к значительно более низкому пространственному разрешению и различным типам артефактов. Это различие приводит к тому, что даже одна и та же анатомическая структура будет выглядеть совершенно по-разному на изображениях разных модальностей. Вторая проблема связана с изменениями, происходящими в мозге во время операции. После вмешательства происходит смещение мозговых тканей, изменение формы желудочков, появление отёков и гематом, что делает прямую точечную регистрацию предоперационных и постоперационных изображений практически невозможной. Традиционные методы регистрации, основанные на сопоставлении интенсивностей пикселей, оказываются неэффективными из-за этих драматических изменений. Кроме того, существует проблема отсутствия парных данных для обучения. Получение идеально зарегистрированных пар MR-US изображений представляет собой трудоемкий и дорогостоящий процесс, который требует участия экспертов-радиологов и нейрохирургов. Это ограничивает возможности применения методов глубокого обучения, которые требуют больших объемов обучающих данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают инновационный многоступенчатый подход к регистрации MR и US изображений, который решает описанные проблемы через комбинацию нейростилевого переноса и крупномасштабной деформируемой регистрации. Центральным элементом предложенной методики является использование 3D CycleGAN для генерации синтетических T1-взвешенных MR изображений из ультразвуковых данных, что позволяет существенно уменьшить разрыв между модальностями. Архитектура CycleGAN адаптирована для работы с трехмерными медицинскими изображениями. Генераторы модели используют 3D сверточные слои с пропусками (dilated convolutions) для увеличения рецептивного поля и эффективного захвата долгосрочных зависимостей в пространственных данных. Дискриминаторы реализованы в виде 3D PatchGAN, которые оценивают реалистичность локальных патчей размером 70x70x70 вокселей. Для стабилизации обучения применяется спектральная нормализация в слоях дискриминатора и цикловая консистентная потеря, которая гарантирует, что обратное преобразование восстановит исходное изображение. Процесс регистрации организован по схеме "грубо-к-тонкому" (coarse-to-fine). На первом этапе применяется аффинное преобразование, которое выполняет глобальное выравнивание изображений через вращение, масштабирование и трансляцию. Для оптимизации аффинных параметров используется нормализованная взаимная информация в качестве функции потерь, что позволяет эффективно работать даже при значительных различиях в интенсивностях между модальностями. На втором этапе реализуется локальная деформируемая регистрация с использованием свободно деформируемой модели (free-form deformation) на основе B-сплайнов. Деформационное поле параметризуется регулярной сеткой контрольных точек, где каждая точка может смещаться в трех направлениях. Для предотвращения чрезмерной деформации применяется гладкое регуляризационное слагаемое, которое штрафует большие значения градиентов деформационного поля. Оптимизация выполняется через градиентный спуск с адаптивным шагом обучения. ## ЭКСПЕРИМЕН

Annotation:

We developed a pipeline for registering pre-surgery Magnetic Resonance (MR) images and post-resection Ultrasound (US) images. Our approach leverages unpaired style transfer using 3D CycleGAN to generate synthetic T1 images, thereby enhancing registration performance. Additionally, our registration process employs both affine and local deformable transformations for a coarse-to-fine registration. The results demonstrate that our approach improves the consistency between MR and US image pairs in m...

ID: 2508.05240v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 RegionMed-CLIP: A Region-Aware Multimodal Contrastive Learning Pre-trained Model for Medical Image Understanding

2025-08-09

Авторы:

Tianchen Fang, Guiru Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Медицинское изображение — ключевой элемент современной медицины, играющий решающую роль в автоматизированном диагностировании и поддержке клинических решений на основе данных. Однако прогресс в этой области сталкивается с двумя крупными препятствиями. Во-первых, значительный недостаток качественно аннотированных медицинских данных ограничивает разработку эффективных моделей. Во-вторых, существующие модели часто основываются на глобальных признаках изображений, что приводит к пропуску тонких, но клинически важных патологических регионов. Эти регионы могут содержать критическую информацию, необходимую для точного диагностирования. Дополнительная проблема заключается в том, что многие существующие визуально-языковые модели не специально адаптированы для медицинских данных, что ограничивает их эффективность в решении задач, связанных с медицинским изображением. Требуется новый подход, который бы сочетал глобальную семантическую информацию с локализованными, точечными признаками патологий, а также обеспечивал высокую точность в задачах, таких как извлечение изображений по тексту, классификация и визуальные ответы на вопросы. Решение этих проблем требует разработки модели, которая не только обучается на больших медицинских данных, но также учитывает региональные особенности изображений. Такой подход может существенно улучшить качество медицинского изображения и повысить эффективность клинических решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД RegionMed-CLIP представляет собой инновационный region-aware мультимодальный контрастивный предварительный обучающий фреймворк, предназначенный для улучшения понимания медицинских изображений. Основной компонент этого метода — ROI (region-of-interest) процессор, который адаптивно интегрирует тонкие региональные признаки с глобальным контекстом изображения. Это позволяет модели сосредоточиться на клинически важных областях, не теряя при этом общую семантическую информацию. Для поддержки этого процесса авторы предлагают прогрессивную стратегию обучения, которая улучшает иерархическую мультимодальную алгоритмическую выравнивание. Это позволяет модели эффективно обучаться на больших медицинских данных, охватывающих различные уровни клинических описаний. Чтобы обеспечить масштабное обучение на уровне регионов, авторы создали MedRegion-500k — комплексный корпус медицинских изображений и текстов, который включает расширенные региональные аннотации и многоуровневые клинические описания. Этот корпус обеспечивает необходимые данные для обучения модели и позволяет достичь высокой точности в задачах, связанных с медицинским изображением. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий спектр экспериментов для оценки эффективности RegionMed-CLIP. Эксперименты включали задачи изображения-текста, нулевой классификации и визуальные ответы на вопросы. Результаты показали, что RegionMed-CLIP значительно превосходит современные визуально-языковые модели во всех этих задачах. В частности, модель достигла высокой точности в извлечении изображений по тексту, что демонстрирует ее способность точно сопоставлять клинические описания с соответствующими медицинскими изображениями. Также, в задачах классификации и визуальных ответов на вопросы, RegionMed-CLIP показала значительное улучшение по сравнению с другими моделями. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RegionMed-CLIP имеет широкий спектр практических применений в медицинской диагностике и поддержке клинических решений. Благодаря ее способности учитывать региональные особенности изображений, она может использоваться для точного диагностирования различных заболеваний, включая те, которые требуют высокой чувствительности к тонким патологическим изменениям. Кроме того, модель может быть использована для автоматизации процессов классификации и визуального анализа медицинских изображений, что сэкономит время и ресурсы в клинической практике. Ее прогрессивная структура и высокая точность делают ее идеальной для использования в крупных медицинских базах данных, где критически важно обеспечивать высокую точность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ RegionMed-CLIP является передовым решением для медицинского изображения, которое эффективно сочетает глобальные и локальные признаки для улучшения точности диагностики. Будущие исследования могут расширить этот подход, включая большее количество клинических данных и улучшив точность модели в реальных клинических условиях. Также, можно исследовать возможности интеграции RegionMed-CLIP с другими медицинскими технологиями для создания более комплексных решений для медицинской диагностике.

Annotation:

Medical image understanding plays a crucial role in enabling automated diagnosis and data-driven clinical decision support. However, its progress is impeded by two primary challenges: the limited availability of high-quality annotated medical data and an overreliance on global image features, which often miss subtle but clinically significant pathological regions. To address these issues, we introduce RegionMed-CLIP, a region-aware multimodal contrastive learning framework that explicitly incorp...

ID: 2508.05244v1 cs.CV, cs.AI

arXiv PDF

📄 A Study of Gender Classification Techniques Based on Iris Images: A Deep Survey and Analysis

2025-08-09

Авторы:

Basna Mohammed Salih Hasan, Ramadhan J. Mstafa

## КОНТЕКСТ И ПРОБЛЕМАТИКА Классификация пола является важной областью в различных приложениях, таких как слежение и наблюдение, корпоративное профайлинг, и взаимодействие человека с компьютером. Определение пола человека представляет собой форму мягкой биометрии, которая помогает в идентификации личности. За последние годы было разработано множество методов для определения пола, основанных на различных физических признаках, таких как лицо, отпечатки пальцев, отпечатки ладони, ДНК, ухо, шаг и рост ребра. Однако методы, основанные на физических характеристиках лица, являются самыми популярными и широко используемыми. Одним из наиболее перспективных биометрических признаков является рост ребра. Исследования показали, что рост ребра остается вероятно константным на протяжении всей жизни человека. Кроме того, рост ребра виден извне и не требует вторжения в организм пользователя, что делает его удобным и практичным для реальных приложений. Доступны хорошо разработанные методы для сегментации и кодирования изображений роста ребра, что облегчает выбор и извлечение векторов атрибутов из текстур роста ребра. Однако, несмотря на широкое распространение методов классификации пола, существуют некоторые проблемы и пробелы в этой области. Например, многие существующие методы страдают от недостатков в точности и надежности, особенно при работе с большими и разнообразными наборами данных. Кроме того, существует потребность в более глубоком анализе и сравнении различных подходов для классификации пола, чтобы понять их сильные и слабые стороны. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данном исследовании предлагается детальный обзор и анализ различных методов классификации пола, основанных на росте ребра. Авторы предоставляют подробное описание методологий, используемых на различных этапах классификации пола. Обзор включает в себя различные подходы к сегментации и кодированию текстур роста ребра, а также методы извлечения и выбора векторов атрибутов. Авторы также обсуждают различные методы классификации, используемые в предыдущих исследованиях, и анализируют их эффективность. Они предлагают новые подходы и улучшения для существующих методов, направленные на повышение точности и надежности классификации пола. Кроме того, исследование охватывает использование различных алгоритмов машинного обучения и глубокого обучения для улучшения процесса классификации. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проводятся эксперименты с использованием различных наборов данных для оценки эффективности предлагаемых методов. Авторы используют как синтетические, так и реальные данные для тестирования и сравнения различных подходов к классификации пола. Результаты экспериментов показывают, что предлагаемые методы могут достигать высокой точности классификации, особенно при использовании современных методов машинного обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Классификация пола имеет широкое применение в различных областях, таких как безопасность, маркетинг, и медицинские исследования. Использование роста ребра как биометрического признака предоставляет некоторые преимущества, такие как неинвазивность и константность на протяжении жизни. Это делает его привлекательным для практических приложений, где необходима высокая точность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В исследовании представлены основные достижения в области классификации пола на основе роста ребра. Авторы выделяют значительные улучшения в точности и надежности методов, а также предлагают направления для будущих исследований. Они подчеркивают необходимость дальнейшего исследования и разработки более эффективных методов для обработки и анализа текстур роста ребра. Кроме того, исследование выделяет необходимость в создании более крупных и разнообразных наборов данных для тестирования и улучшения методов классификации пола.

Annotation:

Gender classification is attractive in a range of applications, including surveillance and monitoring, corporate profiling, and human-computer interaction. Individuals' identities may be gleaned from information about their gender, which is a kind of soft biometric.Over the years, several methods for determining a person's gender have been devised. Some of the most well-known ones are based on physical characteristics like face, fingerprint, palmprint, DNA, ears, gait, and iris. On the other han...

ID: 2508.05246v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 CF3: Compact and Fast 3D Feature Fields

2025-08-09

Авторы:

Hyunjoon Lee, Joonkyu Min, Jaesik Park

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) — это перспективный подход к представлению трехмерных сцен, который интегрирует богатые 2D-фундаментальные модели для повышения точности и качества. Несмотря на значительные улучшения, многие существующие методы опираются на низкоуровневые (bottom-up) оптимизационные процессы, где необработанные 2D-фундаментальные признаки рассматриваются как истинные данные. Такой подход требует высоких вычислительных ресурсов, что создает барьер для практического применения. Кроме того, большинство существующих методов обучают автоэнкодеры (autoencoders) в 2D-пространстве, а затем применяют их к 3D-данным, что может привести к несоответствию между распределением признаков в 2D и 3D-пространстве. Проблематика заключается в необходимости создания более компактных и эффективных методов для представления 3D-сцен, которые сохраняют детали геометрии и при этом снижают вычислительную сложность. Также важно обеспечить лучшее выравнивание между распределением признаков в 2D и 3D, чтобы повысить качество представления и снизить требования к ресурсам. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается новый подход под названием CF3 (Compact and Fast 3D Feature Fields), который решает вышеупомянутые проблемы путем внедрения топо-низкого (top-down) конвейера. Основные этапы метода включают: 1. **Быстрая взвешенная фьюжн (Weighted Fusion):** На первом этапе производится быстрая интеграция многоугольников 2D-фундаментальных признаков с предварительно обученными Гауссовыми распределениями. Это позволяет эффективно перенести информацию из 2D-пространства в 3D-пространство. 2. **Обучение автоэнкодера на 3D-данных:** В отличие от традиционных методов, CF3 обучает автоэнкодеры непосредственно на 3D-данных, поднятых из 2D-признаков. Это обеспечивает лучшее выравнивание распределения признаков между 2D и 3D-пространством. 3. **Адаптивная спарсификация (Adaptive Sparsification):** Для оптимизации представления 3D-сцены предлагается метод адаптивной спарсификации, который удаляет и сливает избыточные Гауссовы распределения. Это позволяет сократить количество используемых Гауссов на до 95% по сравнению с Feature-3DGS, сохраняя при этом детали геометрии. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных 3D-данных, включая сцены с высокой сложностью геометрии. CF3 демонстрирует следующие результаты: - **Уменьшение количества Гауссов:** Метод достигает высокого качества представления 3D-сцены, используя только 5% Гауссовых распределений по сравнению с Feature-3DGS. - **Снижение вычислительной сложности:** Благодаря адаптивной спарсификации и топо-низкому конвейеру, CF3 значительно сокращает время обработки и использование ресурсов. - **Сохранение геометрии:** Даже при существенном сокращении количества Гауссов, метод сохраняет детали геометрии, что подтверждается качественными и количественными оценками. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CF3 имеет широкое применение в областях, требующих эффективное представление 3D-сцен, таких как: - **Виртуальная и дополненная реальность:** Компактные и быстрые 3D-представления могут улучшить производительность приложений VR/AR. - **3D-моделирование и визуализация:** Метод может быть использован для создания высококачественных и оптимизированных 3D-моделей для различных приложений. - **Автономные системы:** Низкие вычислительные требования делают CF3 пригодным для использования в автономных системах, таких как роботы и автономные автомобили. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CF3 представляет собой эффективный и компактный метод для создания 3D-представлений, который сочетает в себе высокое качество и низкие вычислительные требования. Будущие исследования могут сосредоточиться на дальнейшем улучшении адаптивной спарсификации и интеграции CF3 с другими моделями для повышения качества и эффективности представления 3D-сцен.

Annotation:

3D Gaussian Splatting (3DGS) has begun incorporating rich information from 2D foundation models. However, most approaches rely on a bottom-up optimization process that treats raw 2D features as ground truth, incurring increased computational costs. We propose a top-down pipeline for constructing compact and fast 3D Gaussian feature fields, namely, CF3. We first perform a fast weighted fusion of multi-view 2D features with pre-trained Gaussians. This approach enables training a per-Gaussian autoe...

ID: 2508.05254v1 cs.CV, cs.AI

arXiv PDF

📄 Marine Chlorophyll Prediction and Driver Analysis based on LSTM-RF Hybrid Models

2025-08-09

Авторы:

Zhouyao Qian, Yang Chen, Baodian Li, Shuyi Zhang, Zhen Tian, Gongsen Wang, Tianyue Gu, Xinyu Zhou, Huilin Chen, Xinyi Li, Hao Zhu, Shuyao Zhang, Zongheng Li, Siyuan Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Концентрация хлорофилла в морских водах является важным показателем состояния экосистемы и силы углеродного цикла. Точная прогнозирование этого показателя играет ключевую роль в предупреждении о «красных волнах» (red tide) и адаптивном управлении экологическими системами. Традиционные модели прогнозирования, такие как Long Short-Term Memory (LSTM) и Random Forest (RF), сталкиваются со сложностями в моделировании временных рядов и характеризации нелинейных зависимостей. LSTM хорошо справляется с временными зависимостями, но может быть неэффективен в портретировании комплексных нелинейных связей, тогда как RF Excel в нелинейных анализах, но страдает от недостатков в обработке временных последовательностей. В данном исследовании авторы предлагают гибридную модель LSTM-RF, которая сочетает преимущества обоих подходов, обеспечивая более точный прогноз концентрации хлорофилла. Использование многоисточниковых океанических данных, таких как температура, соленость, растворенный кислород и другие, позволяет создать комплексную модель, способную учитывать разнообразные факторы влияющие на экосистему. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемая модель LSTM-RF состоит из двух основных компонентов: LSTM для моделирования временных рядов и RF для анализа нелинейных зависимостей. LSTM, как рекуррентная нейронная сеть, обрабатывает последовательности входных данных, учитывая их временной контекст. RF, с другой стороны, используется для извлечения и анализа нелинейных функций из входных данных. В качестве входных данных модель использует много источников океанической информации, включая температуру, соленость, растворенный кислород и другие физико-химические параметры. Для улучшения точности прогноза, авторы применили стандартизированную обработку данных и метод скользящего окна. Скользящее окно позволяет разбивать временные ряды на меньшие фрагменты, улучшая моделирование короткосрочных изменений. Архитектура модели включает два этапа: в первом этапе, LSTM обрабатывает временные ряды и генерирует временно-зависимые функции; во втором этапе, RF анализирует выходные данные LSTM и нелинейные зависимости между различными факторами. Такая комбинация позволяет добиться лучшей точности в прогнозировании концентрации хлорофилла. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности модели LSTM-RF, авторы провели сравнительные эксперименты с использованием только LSTM и только RF. Данные были получены из многоисточниковых океанических наборов данных, включающих температуру, соленость, растворенный кислород и другие параметры. Результаты показали, что LSTM-RF модель достигла коэффициента детерминации (R^2) в 0.5386, среднеквадратичную ошибку (MSE) в 0.005806, и среднюю абсолютную ошибку (MAE) в 0.057147 на тестовом наборе данных. Эти результаты значительно превосходят производительность модели LSTM (R^2 = 0.0208) и RF (R^2 = 0.4934) использованных в отдельности. Стандартизированная обработка данных и метод скользящего окна также улучшили точность модели. Эти методы позволили лучше учесть короткосрочные изменения в временных рядах и улучшить моделирование нелинейных зависимостей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенная модель LSTM-RF имеет значительное практическое применение в области экологического мониторинга и управления. Точный прогноз концентрации хлорофилла может использоваться для предупреждения о «красных волнах» (red tide), что позволяет быстрее реагировать на экологические кризисы. Кроме того, модель может быть использована для мониторинга состояния экосистем, оценки влияния климатических изменений на морские экосистемы, и разработки стратегий адаптации. Преимущества LSTM-RF модели заключаются в ее способности обрабатывать многоисточниковые данные, обеспечивая более точный и надежный прогноз. Это может привести к улучшению систем мониторинга и управления экологическими ресурсами, а также повышению эффективности мер по сохранению биологического разнообразия. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этом исследовании была разработана гибридная модель LSTM-RF, которая эффективно сочетает в себе способность LSTM к моделированию временных рядов и RF к анализу нелинейных зависимостей. Эксперименты показали, что модель достигает значительно вышей точности в прогнозировании концентрации хлорофилла по сравнению с использованием LSTM или RF в отдельности. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая использование более разнообразных источников данных, оптимизацию параметров модели, и расширение ее применения на другие экологические переменные. Кроме того, можно исследовать возможности интеграции модели в реальные системы мониторинга для более эффективного управления экологическими ресурсами.

Annotation:

Marine chlorophyll concentration is an important indicator of ecosystem health and carbon cycle strength, and its accurate prediction is crucial for red tide warning and ecological response. In this paper, we propose a LSTM-RF hybrid model that combines the advantages of LSTM and RF, which solves the deficiencies of a single model in time-series modelling and nonlinear feature portrayal. Trained with multi-source ocean data(temperature, salinity, dissolved oxygen, etc.), the experimental results...

ID: 2508.05260v1 cs.LG, cs.AI

arXiv PDF

📄 Robust Tracking with Particle Filtering for Fluorescent Cardiac Imaging

2025-08-09

Авторы:

Suresh Guttikonda, Maximilian Neidhart, Johanna Sprenger, Johannes Petersen, Christian Detter, Alexander Schlaefer

## КОНТЕКСТ И ПРОБЛЕМАТИКА Коронарное шунтирование (CABG) остаётся «золотым стандартом» лечения многовеселой ишемической болезни сердца, но его долгосрочный успех напрямую зависит от проходимости создаваемых шунтов. Современные операционные залы оснащаются гибридными системами: после завершения анастомозов хирург может ввести флуоресцентный индикатор (чаще всего индоцианин-зелёный — ICG) и в реальном времени оценивать микроциркуляцию миокарда. Получаемые при этом видеопотоки (обычно 25–30 кадр/с, разрешение 512×512–1024×1024) содержат богатую динамическую информацию: начальный «wash-in» красителя, плато и «wash-out» фазы дают возможность вычислить количественные показатели — время до пика, скорость накопления, площадь под кривой и др. Эти параметры коррелируют с ранним функциональным результатом, позволяя хирургу принимать решение о корректировке плохо перфузируемых участков ещё до закрытия грудной клетки. Однако само сердце продолжает сокращаться, создавая сложную трёхмерную траекторию движения: поворот вокруг оси, смещение основания и вершины, а также высокочастотные вибрации, вызванные вентиляцией лёгких. Кроме того, при наполнении коронарных сосудов ICG структурно обогащается сеть мельчайших артериол и венул, что приводит к резким изменениям яркости, контраста и текстур. Традиционные методы отслеживания опорных точек — от простого KLT-трекера до современных свёрточных нейросетей (Siamese, GOTURN, SiamRPN) — терпят неудачу: либо теряют цель при масштабных изменениях, либо «прилипают» к похожим текстурам соседних сосудов. В результате хирург вынужден полагаться на субъективную оценку «на глаз», а количественная перфузионная карта остаётся неточной. Работа Guttikonda и коллег ставит цель разработать трекер, который был бы одновременно: 1) точным (ошибка < 5 px при разрешении 512×512), 2) устойчивым к контрастным всплескам, 3) масштабируемым до сотен одновременно отслеживаемых точек, и 4) работающим в реальном времени на оборудовании операционной. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают гибридную архитектуру, объединяющую классический фильтр частиц (Sequential Importance Resampling, SIR) с «циклической проверкой согласованности» (cyclic-consistency check). Вход — последовательность флуоресцентных кадров Iₜ, предобработанных гауссовым размытием (σ = 0.8 px) для подавления шумов CMOS-матрицы. Для каждого целевого ландшафта (например, bifurcation коронарной артерии) формируется множество из N = 300 частиц-гипотез {xₜⁱ}ᵢ₌₁ᴺ, где xₜⁱ = (u, v, ẋ, ẏ, θ, s) — 6-мерный вектор состояния: координаты, скорости, вращение и масштаб. Динамическая модель задаётся как xₜ = A xₜ₋₁ + qₜ, где A — матрица постоянной скорости, а qₜ ~ 𝒩(0, Q) учитывает случайные колебания миокарда. Главная инновация — двухэтапный цикл согласованности. Сначала прямой проход (forward pass): частицы прогнозируются из t–1 в t. Затем обратный проход (backward pass): те же частицы регрессируются обратно в t–1 и сравниваются с исходными положениями. Расстояние ‖xₜ₋₁ⁱ − x̂ₜ₋₁ⁱ‖ используется как метрика надёжности wₜⁱ ∝ exp(−‖·‖²/2σ²). Эта процедура эффективно подавляет «дрейф» на текстурно похожих сосудах: если частица ошиблась в прямом направлении, обратный шаг возвращает её далеко от истины, и её вес резко падает. Для измерения правдоподобия применяется адаптивное цветовое моделирование: каждая частица строит локальную цветовую гистограмму HSV (16×4×4 бина) вокруг якорной точки и сравнивает её с шаблоном H* из первого кадра с помощью дивергенции Бхаттачарьи. Также используется аппаратная оптимизация: вычисления распараллелены на GPU (CUDA kernels) с использованием shared memory для

Annotation:

Intraoperative fluorescent cardiac imaging enables quality control following coronary bypass grafting surgery. We can estimate local quantitative indicators, such as cardiac perfusion, by tracking local feature points. However, heart motion and significant fluctuations in image characteristics caused by vessel structural enrichment limit traditional tracking methods. We propose a particle filtering tracker based on cyclicconsistency checks to robustly track particles sampled to follow target lan...

ID: 2508.05262v1 cs.CV, cs.AI

arXiv PDF

📄 SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion

2025-08-09

Авторы:

Xiaoyang Zhang, Zhen Hua, Yakun Ju, Wei Zhou, Jun Liu, Alex C. Kot

## КОНТЕКСТ И ПРОБЛЕМАТИКА Инфракрасно-видимое изображение (IVIF) — это ключевой процесс в области компьютерного зрения, направленный на комбинацию тепловой радиации, присущей инфракрасным изображениям, и деталей текстуры, характерных для видимых изображений. Цель этого процесса — улучшить восприятие и повысить эффективность вычислительных задач, таких как наблюдение, распознавание объектов и мониторинг. Однако традиционные методы IVIF сталкиваются с серьёзными ограничениями. Проблема заключается в том, что существующие подходы часто не могут должным образом сохранить ключевые объекты и детали из-за отсутствия глубокого семантического понимания сцены. Это приводит к потере важной информации и возникновению артефактов в результирующем изображении. Кроме того, процесс слияния может привести к потере деталей и снижению качества изображения, что негативно сказывается на производительности в дополнительных задачах. Мотивация для разработки новых методов заключается в необходимости создания более эффективных решений, которые бы сочетали высокое качество изображений с сохранением ключевых семантических деталей. Подобные методы должны быть в состоянии обеспечить высокую точность функциональных задач, таких как распознавание и классификация, особенно в условиях, где исходные данные имеют различные модальности и сложность. В этой статье авторы предлагают SGDFuse — инновационный подход, который использует Segment Anything Model (SAM) для генерации высококачественных семантических масок. Эти маски служат явными приоритетов для улучшения процесса фузирования, обеспечивая тем самым более точный и высококачественный результат. ## ПРЕДЛОЖЕННЫЙ МЕТОД SGDFuse представляет собой уникальную комбинацию модели Conditional Diffusion Model (CDM) и Segment Anything Model (SAM) для достижения высококачественного и семантически осмысленного фузирования инфракрасных и видимых изображений. Архитектура метода основана на двух этапах. На первом этапе производится предварительное фузирование мультимодальных фичи с использованием традиционных подходов. На втором этапе SAM используется для генерации высококачественных семантических масок, которые вместе с результатом предварительного фузирования служат условием для оптимизации модели CDM. Это гарантирует, что процесс фузирования будет направлен на сохранение важной семантической информации и устранение артефактов. Ключевой момент метода заключается в том, что SAM предоставляет явные семантические приоритеты, которые помогают CDM в процессе шумоподавления и генерации изображений. Этот подход обеспечивает качество результата на высоком уровне, сохраняя при этом важные детали и структуру изображения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий набор экспериментов для оценки эффективности SGDFuse. Использовались различные наборы данных, включая инфракрасные и видимые изображения с различными условиями захвата. Результаты показали, что SGDFuse достигает лучших показателей по качественным и количественным показателям по сравнению с современными методами. В частности, SGDFuse показал значительное улучшение в плане сохранения деталей, уменьшения артефактов и повышения качества результирующих изображений. Эксперименты также подтвердили высокую адаптивность метода к различным задачам, таким как распознавание объектов и мониторинг, что делает его универсальным инструментом для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SGDFuse имеет широкое применение в различных областях, где важна высокая точность и качество обработки изображений. Этот метод может быть использован в таких областях, как наблюдение и мониторинг, распознавание объектов, медицинское изображение и системы безопасности. Его способность сохранять ключевые семантические детали и обеспечивать высокое качество изображений делает его важным инструментом для разработки высокопроизводительных систем компьютерного зрения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SGDFuse представляет собой значительный шаг вперёд в области IVIF, обеспечивая высококачественное и семантически осмысленное фузирование изображений. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, включая использование более продвинутых моделей для генерации семантических масок и оптимизации процесса фузирования. Кроме того, можно исследовать возможности применения этого подхода к другим модальностям изображений и задачам компьютерного зрения.

Annotation:

Infrared and visible image fusion (IVIF) aims to combine the thermal radiation information from infrared images with the rich texture details from visible images to enhance perceptual capabilities for downstream visual tasks. However, existing methods often fail to preserve key targets due to a lack of deep semantic understanding of the scene, while the fusion process itself can also introduce artifacts and detail loss, severely compromising both image quality and task performance. To address th...

ID: 2508.05264v1 cs.CV, cs.AI

arXiv PDF

📄 An Explainable Natural Language Framework for Identifying and Notifying Target Audiences In Enterprise Communication

2025-08-09

Авторы:

Vítor N. Lourenço, Mohnish Dubey, Yunfei Bai, Audrey Depeige, Vivek Jain

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных крупномасштабных организациях технического обслуживания управление коммуникациями представляет сложные вызовы, особенно когда речь заходит об идентификации субъектов и координации взаимодействия в условиях сложной сети взаимосвязей между сущностями. Традиционные подходы к коммуникации часто не справляются с этими вызовами, что приводит к информационному перегруженности, увеличению времени отклика и ухудшению эффективности взаимодействия. Такие проблемы особенно критичны в сфере технического обслуживания, где необходимо быстро и точно определять экспертов, ответственных за определенные устройства, производители или соответствующие объекты обслуживания. Дополнительным фактором становится необходимость обеспечить прозрачность и доверие к системе коммуникаций. Пользователи должны понимать, как и почему определенные решения принимаются, чтобы избежать недоверия и повысить эффективность процессов. Традиционные системы часто не могут обеспечить такую прозрачность, что создает дополнительные трудности в управлении коммуникациями. В этой связи возникает потребность в разработке инновационных решений, которые могли бы сочетать гибкость естественного языка с возможностью точного и эффективного определения целевых аудиторий. Такой подход должен обеспечивать не только скорость и точность, но и прозрачность, чтобы пользователи могли доверять системе и эффективно использовать ее в своей работе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный фреймворк, который сочетает технологии RDF графовых баз данных и технологии языковых моделей (LLM) для обработки естественного языка. Этот фреймворк разработан для того, чтобы обрабатывать запросы пользователей в естественном языке и точно определять целевые аудитории на основе сложной сети связей между различными сущностями, такими как оборудование, производители, инженеры по техническому обслуживанию и объекты обслуживания. Ключевой элемент фреймворка – это архитектура планирования и оркестрации, которая позволяет обеспечить прозрачность процесса принятия решений. Эта архитектура позволяет пользователям формулировать запросы на естественном языке, которые могут включать различные концепции, такие как типы оборудования, производители, инженеры и местоположения. Затем, система использует RDF граф для того, чтобы представить эти сущности и их взаимосвязи, а LLM обрабатывает запрос и формирует результат, который может быть легко интерпретирован пользователем. Процесс работы фреймворка включает в себя несколько этапов: вначале, пользователь формулирует запрос на естественном языке, который затем преобразуется в структурированный запрос к графу. Граф представляет собой взаимосвязи между различными сущностями, и система использует эту информацию для того, чтобы определить целевую аудиторию. Наконец, система предоставляет результат в виде подробного отчета, который объясняет, как и почему были выбраны определенные сущности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предложенного фреймворка. В экспериментах использовались данные из реальных ситуаций, связанных с техническим обслуживанием в крупных организациях. Данные включали информацию оборудования, производителей, инженеров и местоположений. Результаты экспериментов показали, что предложенный фреймворк значительно улучшил эффективность коммуникации в организации. Система была в состоянии точно и быстро определять целевые аудитории на основе запросов пользователей, и результаты были представлены в прозрачной и интерпретируемой форме. Кроме того, пользователи отметили высокую степень доверия к системе, так как они могли понимать, как и почему были приняты определенные решения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет широкие возможности применения в различных областях, где необходимо управлять коммуникациями в условиях сложной сети связей между сущностями. Он может быть использован в сфере технического обслуживания, логистики, управления проектами и других областях, где важно быстро и точно определять целевые аудитории. Одним из ключевых преимуществ фреймворка является его прозрачность. Пользователи могут доверять системе, так как они могут понимать, как и почему были приняты определенные решения. Это повышает эффективность коммуникации и позволяет избежать недоверия к системе. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный фреймворк является важным шагом вперед в области управления коммуникациями в крупных организациях. Он сочетает в себе гибкость естественного языка и точность графовых моделей, что позволяет обеспечить эффективное и прозрачное решение задач коммуникации. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности системы и ее адаптации для различных сфер применения.

Annotation:

In large-scale maintenance organizations, identifying subject matter experts and managing communications across complex entities relationships poses significant challenges -- including information overload and longer response times -- that traditional communication approaches fail to address effectively. We propose a novel framework that combines RDF graph databases with LLMs to process natural language queries for precise audience targeting, while providing transparent reasoning through a plann...

ID: 2508.05267v1 cs.AI

arXiv PDF

📄 FlowState: Sampling Rate Invariant Time Series Forecasting

2025-08-09

Авторы:

Lars Graf, Thomas Ortner, Stanisław Woźniak, Angeliki Pantazi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Time series forecasting является ключевой областью в машинном обучении, применяемой в различных сферах, таких как экономика, промышленность, здравоохранение и многие другие. Однако, несмотря на успех фаундэйшн моделей (FMs) в области естественного языка, их применение к задачам прогнозирования временных рядов остается проблематичным. Традиционные модели, основанные на вариантах трансформеров, сталкиваются с несколькими критичными ограничениями, включая сложности при адаптации к различным темпоральным разрешениям (sampling rates), неэффективность вычислений и ограниченную способность к обобщению на различных промежутках времени. Существующие time series foundation models (TSFMs) требуют больших вычислительных ресурсов для обучения на разных темпоральных разрешениях, что снижает их практическую применимость. Более того, их невозможность эффективно адаптироваться к входным данным разной частоты делает их менее гибкими на практике. Также, многие существующие модели требуют предварительного обучения на данных с различными частотами выборки, что усложняет процесс разработки и применения. В связи с этим, необходимо разработать модель, которая могла бы эффективно работать с временными рядами разной частоты выборки, не требуя для этого значительных компьютерных ресурсов, и обеспечивала бы высокую точность прогнозов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается новая архитектура **FlowState**, которая решает проблемы существующих моделей за счет двух ключевых инноваций: **state space model (SSM) based encoder** и **functional basis decoder**. SSM-based encoder позволяет модели работать в непрерывном временном пространстве, что обеспечивает возможность динамической адаптации к различным темпоральным разрешениям. Функциональный декодер, в свою очередь, позволяет модели формировать прогнозы на основе базисных функций, что дает ей возможность гибко регулировать прогнозируемые горизонты. FlowState отличается от других TSFMs тем, что не требует данных с разными частотами выборки для обучения, а вместо этого адаптирует свои внутренние динамические процессы к заданному темпоральному разрешению. Это уменьшает необходимость в больших объемах данных и повышает эффективность модели. Кроме того, авторы предлагают **эффективную стратегию предварительного обучения**, которая улучшает устойчивость модели и ускоряет процесс обучения. Несмотря на то, что FlowState является одной из самых маленьких моделей по количеству параметров, она достигает высокой точности прогнозов и превзойдет все другие модели на задачах GIFT-ZS и Chronos-ZS. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на двух задачах: GIFT-ZS и Chronos-ZS. Эти данные представляют собой временные ряды с различными частотами выборки. Модель FlowState была протестирована на различных конфигурациях, включая различные частоты выборки и прогнозируемые горизонты. Результаты показали, что FlowState не только превзошла все другие модели в терминах точности прогнозов, но и показала высокую эффективность в терминах вычислительных затрат. Благодаря своей способности адаптироваться к разным частотам выборки, FlowState показала стабильно хорошие результаты даже при изменении входных данных в режиме реального времени. Были также проведены **абляционные исследования**, которые подтвердили эффективность каждого компонента модели, включая SSM-based encoder и functional basis decoder. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FlowState имеет широкое применение в различных областях, где необходимо прогнозирование временных рядов с разными частотами выборки. Например, в области финансов, модель может быть использована для прогнозирования цен на фондовом рынке с различными интервалами времени. В промышленности, она может помочь в мониторинге и прогнозировании работы оборудования. Одним из ключевых преимуществ FlowState является её эффективность и малая размерность модели, что делает её пригодной для развертывания на устройствах с ограниченными вычислительными ресурсами. Кроме того, модель подходит для онлайн-адаптации, что делает её подходящей для приложений, требующих динамического изменения частоты выборки. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FlowState представляет собой значительный шаг вперед в области time series forecasting. Благодаря своей способности адаптироваться к разным частотам выборки и эффективному предварительному обучению, она предлагает новый подход к решению задач прогнозирования. В будущем, модель может быть дальше улучшена путем исследования более сложных декодеров или интеграции дополнительных функций для обработки многомерных временных рядов. Также, можно рассмотреть возможность применения FlowState в реальном времени для задач, требующих быстрого реагирования на изменения в данных.

Annotation:

Foundation models (FMs) have transformed natural language processing, but their success has not yet translated to time series forecasting. Existing time series foundation models (TSFMs), often based on transformer variants, struggle with generalization across varying context and target lengths, lack adaptability to different sampling rates, and are computationally inefficient. We introduce FlowState, a novel TSFM architecture that addresses these challenges through two key innovations: a state s...

ID: 2508.05287v1 cs.LG, cs.AI

arXiv PDF

📄 Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction

2025-08-09

Авторы:

Sahar Salimpour, Lei Fu, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge Peña Queralta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено новой парадигме создания автономных робототехнических систем, в которой роль центрального интеллекта играют фундаментальные модели — большие языковые модели (LLM) и зрительно-языковые модели (VLM). Традиционные подходы к построению поведения роботов опирались на жёстко заданные правила, конечные автоматы или узкоспециализированные нейросети, способные решать лишь заранее предопределённые задачи в ограниченных средах. Однако стремительное развитие фундаментальных моделей, обученных на масштабных интернет-данных, открыло возможность перенести универсальные способности к обобщению, рассуждению и пониманию естественного языка в физический мир. Появление моделей типа GPT-4, PaLM-E или Flamingo позволяет роботу интерпретировать человеческие инструкции в свободной форме, формировать высокоуровневые планы, запрашивать дополнительную информацию и даже самостоятельно исправлять ошибки. Однако интеграция этих моделей в реальные робототехнические системы сталкивается с рядом фундаментальных проблем. Во-первых, LLM/VLM демонстрируют «галлюцинации» и могут выдавать небезопасные или невыполнимые команды. Во-вторых, языковые модели оперируют токенами, тогда как роботам необходимы низкоуровневые сигналы управления (торques, joint angles, end-effector poses). В-третьих, отсутствует единая методология классификации и сравнения подходов: одни работы используют LLM как высокоуровневого планировщика, другие — как генератора кода, третьи — как унифицированный интерфейс к набору специализированных API. Наконец, поле развивается столь стремительно (еженедельно появляются новые open-source проекты, ROS-пакеты и промышленные фреймворки), что традиционные обзоры быстро устаревают. В статье предпринята попытка систематизировать как академические публикации, так и практические наработки сообщества, выделив архитектурные паттерны и предложив таксономию, способную вместить даже экспериментальные прототипы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию. На первом уровне формулируется таксономия, разделяющая все существующие решения по четырём осям: (1) «роль агента», (2) «глубина интеграции модели», (3) «уровень абстракции действий» и (4) «механизм обратной связи». Роль агента охватывает категории «планировщик» (LLM формирует последовательность подзадач), «координатор» (модель выбирает, какой из доступных модулей вызвать), «перцептор» (VLM извлекает семантику из сенсорных данных) и «универсальный интерфейс» (единая точка взаимодействия оператора и системы). Глубина интеграции варьируется от лёгкого «prompt-only» (LLM вызывается как внешняя API без дообучения) до «deep fine-tuning», где модель полностью переобучается на робототехнических датасетах. Уровень абстракции действий разделяет высокоуровневые символьные команды (например, «открой дверь»), среднеуровневые примитивы («схватить ручку») и низкоуровневые сигналы управления (joint torques). Обратная связь может быть лингвистической (успешность задачи описывается текстом), визуальной (сравнение «до/после» кадров) или цифровой (метрики измеряются скалярно). На втором уровне строится сравнительная таблица из 100+ проектов: от ранних работ 2022 года (PaLM-SayCan) до свежих open-source решений вроде ROS 2 GPT Integration или NVIDIA Isaac LLM Agent. Для каждого проекта фиксируется стек ПО (ROS 2, MoveIt, custom simulators), используемые модели (OpenAI GPT-4, Google PaLM-E, open-source LLaVA), типы сенсоров, пространство действий и репортированные метрики. Кроме того, авторы выделяют три архитектурных паттерна: (A) «LLM as Code Generator» (модель пишет Python-скрипты, которые затем исполняются средой), (B) «LLM as Policy Prior» (языковая модель задаёт распределение вероятностей над примитивами, которые уточняются RL или MPC), (C) «LLM as World-Model» (модель имитирует последствия действий и выбирает оптимальные). Предложенная таксономия динамическая: каждый новый проект может быть классифицирован по четырём признакам за

Annotation:

Foundation models, including large language models (LLMs) and vision-language models (VLMs), have recently enabled novel approaches to robot autonomy and human-robot interfaces. In parallel, vision-language-action models (VLAs) or large behavior models (BLMs) are increasing the dexterity and capabilities of robotic systems. This survey paper focuses on those words advancing towards agentic applications and architectures. This includes initial efforts exploring GPT-style interfaces to tooling, as...

ID: 2508.05294v1 cs.RO, cs.AI, cs.LG

arXiv PDF

1
2
1425
1426
1427
1428
1429
1442
1443

Показано 14261 - 14270 из 14425 записей