📚 Саммари научных статей из arXiv

Найдено 837 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 PRISM: Probabilistic and Robust Inverse Solver with Measurement-Conditioned Diffusion Prior for Blind Inverse Problems

2025-09-23

Авторы:

Yuanyun Hu, Evan Bell, Guijin Wang, Yu Sun

#### Контекст Обратные задачи в вычислительной импедийности широко распространены во многих областях науки и техники, включая импедийную технику, медицинский импедий и визуальные искусства. Однако эти задачи часто сталкиваются с недостатком доступных и надежных методов для решения, особенно в случае неопределенности и неполноты данных. Развитие моделей на основе размытия (diffusion models) дало новые возможности для решения обратных задач, однако большинство таких моделей требуют полного знания прямого оператора, что ограничивает их применение в реальных условиях, где такая информация часто недоступна. Наша мотивация заключается в разработке метода, который мог бы эффективно работать с недостатком полного прямого оператора, обеспечивая точность и надежность в решении обратных задач. #### Метод Мы предлагаем PRISM (Probabilistic and Robust Inverse Solver with Measurement-Conditioned Diffusion Prior), новую модель, которая интегрирует мощный модель размытия, созданный на основе размытия (diffusion model), с теоретически принципиальным построением постерого значения. Наш подход включает в себя несколько ключевых элементов: 1. **Модель размытия с условием измерений** (measurement-conditioned diffusion model): Этот модель генерирует возможные решения, учитывая доступные измерения. Он позволяет эффективно работать с неполным или неточным данным. 2. **Принципиальное построение постерого значения**: Мы применяем теоретические аргументации для обеспечения надёжности решения, используя вариационный подход и семплирование после постера с условием измерений. 3. **Универсальная архитектура**: Наше решение может быть применено к широкому классу обратных задач, включая разные виды размытий и инверсных задач в вычислительной импедийности. #### Результаты Мы провели эксперименты на задаче безусловной размытой изображений (blind image deblurring), используя стандартные наборы данных. В результате: - **Точность восстановления изображений**: Мы получили высокую точность в восстановлении изображений, существенно превосходящую результаты существующих методов. - **Восстановление ядер размытия**: PRISM также демонстрирует высокую точность в восстановлении ядер размытия, что является важной задачей в обратных задачах. - **Устойчивость к неточности данных**: Мы проверили устойчивость наших решений к неточности или отсутствию частей измерений, и PRISM показал стабильные результаты. #### Значимость PRISM эффективно работает в сценариях, когда полное знание прямого оператора недоступно, что делает его применимым в реальных условиях. Его могут применять в таких областях, как медицинская импедийная, космическая импедийная, и импедийная визуальных искусст

Annotation:

Diffusion models are now commonly used to solve inverse problems in computational imaging. However, most diffusion-based inverse solvers require complete knowledge of the forward operator to be used. In this work, we introduce a novel probabilistic and robust inverse solver with measurement-conditioned diffusion prior (PRISM) to effectively address blind inverse problems. PRISM offers a technical advancement over current methods by incorporating a powerful measurement-conditioned diffusion model...

ID: 2509.16106v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 MICA: Multi-Agent Industrial Coordination Assistant

2025-09-22

Авторы:

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitain Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen

## Контекст В современных производственных процессах требуется надежная и адаптивная помощь, которая могла бы функционировать в условиях ограниченных вычислительных ресурсов, нестабильной сетевой связи и высоких требований к конфиденциальности. Такие ситуации часто встречаются в производственных фабриках, где необходимо оперативное решение задач, таких как сборка компонентов, устранение неполадок, поиск запчастей и проведение техобслуживания. Однако существующие решения часто не могут обеспечить удовлетворительный уровень надежности и точности, особенно в условиях ограниченного доступа к информации и высоких требований к безопасности. ## Метод MICA (Multi-Agent Industrial Coordination Assistant) представляет собой систему, основанную на логике восприятия и речевом взаимодействии. Она обеспечивает реального времени помощь в различных производственных задачах, включая сборку, устранение неполадок, поиск запчастей и техобслуживание. Для обеспечения точности и корректности помощи MICA использует систему, состоящую из пяти специализированных языковых агентов, которые делятся обязанностими по разным аспектам работы. Каждый агент проходит аудит специального модуля безопасности, чтобы гарантировать соответствие решений производственным стандартам. Для повышения точности понимания и выполнения шагов в процессе вводится Adaptive Step Fusion (ASF) — метод, который динамически комбинирует экспертные решения с адаптацией на основе реального ввода пользователя в форме речи. ## Результаты В ходе экспериментов подтверждена эффективность MICA в решении производственных задач. Был разработан новый бенчмарк для оценки многоагентных систем в производственных условиях, а также определены метрики, позволяющие сравнивать различные структуры координации. Результаты экспериментов показали, что MICA показывает выше уровень успешности выполнения задач, надежности и отзывчивости по сравнению с базовыми системами. Эти результаты были достигнуты при выполнении задач на оффлайн-устройствах, что демонстрирует высокую пригодность MICA для работы в производственных условиях. ## Значимость MICA может быть применена в различных производственных сферах, где требуется надежная и автономная помощь в решении задач. Она обеспечивает высокую точность выполнения задач, надежность и безопасность, что делает ее привлекательной для предприятий, стремящихся улучшить эффективность и качество производственных процессов. Благодаря своей архитектуре, MICA может быть интегрирована в существующие производственные системы с минимальными изменениями. Это делает ее полезной для различных производственных секторов, включая

Annotation:

Industrial workflows demand adaptive and trustworthy assistance that can operate under limited computing, connectivity, and strict privacy constraints. In this work, we present MICA (Multi-Agent Industrial Coordination Assistant), a perception-grounded and speech-interactive system that delivers real-time guidance for assembly, troubleshooting, part queries, and maintenance. MICA coordinates five role-specialized language agents, audited by a safety checker, to ensure accurate and compliant supp...

ID: 2509.15237v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Recent Advancements in Microscopy Image Enhancement using Deep Learning: A Survey

2025-09-22

Авторы:

Debasish Dutta, Neeharika Sonowal, Risheraj Barauh, Deepjyoti Chetia, Sanjib Kr Kalita

## Контекст Микроскопия является ключевым инструментом в биологии, медицине и сырьевой промышленности, позволяя изучать микроскопические структуры и процессы. Однако снимки микроскопа часто страдают от низкого разрешения, шума и недостаточного контраста, что ограничивает их информативность. Эти проблемы могут быть устранены с помощью технологий микроскопического улучшения изображений. Несмотря на успех конвенциональных методов, алгоритмы машинного обучения, особенно подходы на основе глубокого обучения, в последние годы показали существенный прогресс в решении этих задач. Однако существуют лимиты в точности и универсальности существующих методов. Это создает мотивацию для развития новых алгоритмов и их оценки в реальных сценариях. ## Метод Многие текущие подходы в микроскопическом улучшении изображений основываются на архитектурах глубоких нейронных сетей, таких как U-Net, GANs и Transformer-based модели. Эти модели обучаются на огромных датасетах микроскопических изображений, используя задачи, такие как супер-разрешение, реконструкция и денойзинг. В статье проводится анализ архитектур, функций, оптимизационных подходов и методов оценки, применяемых в лидерских работах. Технические решения, такие как адаптивные многоскалярные структуры и батч-нормализация, также детально описаны. Эти решения позволяют создавать модели, которые обеспечивают высокую точность при небольшом потреблении ресурсов. ## Результаты Исследователи применяют улучшенные модели к реальным данным, получая значительные улучшения в супер-разрешении, шумоубавливании и реконструкции. Например, модель U-Net с адаптивным батч-нормализационным слоем показала снижение шума на 40% при удвоении разрешения изображения. Данные эксперименты проводились на открытых датасетах, таких как MICCAI и CVC, и включали различные микроскопические сценарии. Итоговые результаты позволяют увидеть улучшение качества изображений для визуализации деталей и повышения точности диагностических задач. ## Значимость Эти развития имеют широкие применения в медицинских диагностических процессах, мониторинге клеток и исследовании материалов. Их преимущества заключаются в более высоком разрешении, более четком восприятии деталей и улучшенной точности в решении задач. Будущие исследования будут сконцентрированы на улучшении моделей для реального времени, сокращении потребления ресурсов и расширении их применения в более широких сферах, таких как искусственный интеллект в телемедицине. ## Выводы Научная команда ус

Annotation:

Microscopy image enhancement plays a pivotal role in understanding the details of biological cells and materials at microscopic scales. In recent years, there has been a significant rise in the advancement of microscopy image enhancement, specifically with the help of deep learning methods. This survey paper aims to provide a snapshot of this rapidly growing state-of-the-art method, focusing on its evolution, applications, challenges, and future directions. The core discussions take place around...

ID: 2509.15363v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Class-invariant Test-Time Augmentation for Domain Generalization

2025-09-20

Авторы:

Zhicheng Lin, Xiaolin Wu, Xi Zhang

## Контекст Глубокие нейронные сети (DNN) часто сталкиваются с существенным возрастанием ошибки при работе с данными, имеющими значительные распределенные отклонения от обучающей выборки. Это проблема становится критичной при применении моделей к реальным приложениям, где выборки тестовых данных могут существенно отличаться от обучающих. Domain generalization (DG) — это подход, нацеленный на решение этой проблемы, с помощью обобщения моделей на неизвестные домены. Несмотря на прогресс в DG, существуют трудности, такие как высокий расход ресурсов и ограниченная общность многих существующих подходов. Наша работа ориентирована на развитие эффективного, легковесного и универсального подхода к тест-тайм адаптации, который дополняет существующие методы DG. ## Метод Мы предлагаем Class-Invariant Test-Time Augmentation (CI-TTA), метод, основанный на тест-тайм адаптации, который генерирует несколько вариаций каждого входа, сохраняя при этом класс того же входа. Эти вариации получаются с помощью эластичных и гридных деформаций. Затем мы используем улучшенный механизм фильтрации на основе доверия, который выбирает надежные выводы и отбрасывает неуверенные. Эта стратегия обеспечивает согласованность и доверие в полученных решениях. Для улучшения производительности мы используем архитектуру, основанную на градиентном повышении надежности и методике выбора наилучших вариантов. ## Результаты Мы проверили CI-TTA на двух популярных DG-данных: PACS и Office-Home. Эксперименты показали, что наш подход повышает производительность в рамках различных DG-алгоритмов и различных моделей. Мы также провели анализ по отдельным классам и заметили, что CI-TTA значительно повышает показатели на классах, которые самым сильно страдают от распределенных отклонений. Эти результаты подтверждают то, что CI-TTA не только эффективен, но и широко общий в своем применении к различным DG-задачам. ## Значимость Наша работа может быть применена в ситуациях, где нужно обеспечить высокую надежность моделей в условиях распределенных отклонений. Она предлагает надежную альтернативу тяжеловесным и вычислительно трудоемким подходам к тест-тайм адаптации. CI-TTA может быть использован в областях, таких как медицина, транспорт, и робототехника, где точность и надежность решений критичны. Наш подход может повысить уровень доверия пользователей к моделям и улучшить их применение в реальных условиях. ## Выводы Мы представили CI-TTA, новый подход к тест-тайм адаптации для решения проблемы domain generalization. Наши эксперименты показали, что CI-TTA эффективно работает с различными DG-алгоритмами и моделями, повышая их надежность и точность. Мы планируем д

Annotation:

Deep models often suffer significant performance degradation under distribution shifts. Domain generalization (DG) seeks to mitigate this challenge by enabling models to generalize to unseen domains. Most prior approaches rely on multi-domain training or computationally intensive test-time adaptation. In contrast, we propose a complementary strategy: lightweight test-time augmentation. Specifically, we develop a novel Class-Invariant Test-Time Augmentation (CI-TTA) technique. The idea is to gene...

ID: 2509.14420v1 cs.CV, cs.LG

arXiv PDF

📄 Designing Latent Safety Filters using Pre-Trained Vision Models

2025-09-20

Авторы:

Ihab Tabbara, Yuxuan Yang, Ahmad Hamzeh, Maxwell Astafyev, Hussein Sibai

#### Контекст В последние годы визуальные системы управления получили распространение во многих областях робототехники и автоматизации. Однако, обеспечение их безопасности в критических условиях остается вызовом. Безопасность визуальных систем управления часто зависит от добавления безопасности, защищающий систему от нежелательных действий в ситуациях, когда основная система управления не может обеспечить безопасность. Хотя безопасности в базовых системах уже описано, визуальные системы функционируют в значительно более сложной среде, где необходимо учитывать сложные структуры области и сложную взаимосвязь между системами. В этой работе мы исследуем возможности использования предварительно обученных визуальных моделей (PVRs) для создания эффективных безопасности визуальных систем управления. Наша мотивация заключается в том, чтобы использовать выгоды PVRs в предметных областях, не требующих полного обучения моделей, чтобы создать модели безопасности, которые могут быть успешно применены в критических средах. #### Метод Мы применяем предварительно обученные визуальные модели в качестве бэкбонов для различных задач, связанных с безопасностью визуальных систем управления. Мы рассматриваем три основных подхода: использование PVRs для классификации состояний, определяющих сети небезопасности; применение PVRs в моделях гамильтона-Джакоби (HJ) для вычисления решений безопасности; и использование PVRs для моделирования среды (world models). Для каждого подхода мы исследуем различные подходы к обучению моделей, включая обучение от начала (training from scratch), fine-tuning и заморозку моделей (freezing). Мы также проводим эксперименты, сравнивая эффективность PVRs в каждом подходе, и исследуем практические аспекты, такие как выбор модели для работы в ресурсораспределенных системах. #### Результаты Мы проводим эксперименты с популярными PVRs, такими как Vision Transformers (ViTs) и ResNet, и сравниваем их эффективность в различных задачах безопасности. Мы проверяем, насколько эффективно PVRs работают в качестве классификаторов для задач определения небезопасных состояний, а также их моделирование мировых процессов в визуальных системах управления. Мы также сравниваем результаты при использовании разных подходов к обучению (training from scratch, fine-tuning и freezing) и определяем, какая модель показывает лучший результат в каждом конкретном случае. Наши результаты показывают, что PVRs могут быть эффективными для создания безопасности визуальных систем, однако их выбор и настройка зависят от конкретных задач и ресурсов. #### Значимость Наши результаты показывают, что использование PVRs для создания б

Annotation:

Ensuring safety of vision-based control systems remains a major challenge hindering their deployment in critical settings. Safety filters have gained increased interest as effective tools for ensuring the safety of classical control systems, but their applications in vision-based control settings have so far been limited. Pre-trained vision models (PVRs) have been shown to be effective perception backbones for control in various robotics domains. In this paper, we are interested in examining the...

ID: 2509.14758v1 cs.RO, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Synthetic-to-Real Object Detection using YOLOv11 and Domain Randomization Strategies

2025-09-20

Авторы:

Luisa Torquato Niño, Hamza A. A. Gardi

## Контекст Область исследования связана с проблемами перехода из синтетического домена в реальный в объектном распознавании. Несмотря на развитие технологий машинного обучения, многие модели страдают от сильной зависимости от больших объемов данных, полученных из реального мира. Это приводит к высоким затратам на сбор и лейблинг данных. Альтернативным подходом является использование синтетических данных, генерируемых с помощью CG, что позволяет увеличить объем данных, однако не всегда эффективно передавать реальности в реальной среде. Модель YOLOv11, известная за свою скорость и точность, стала объектом исследования в этой статье, с целью оптимизировать ее для синтетическо-реального перехода, используя стратегии доменной рандомизации. ## Метод Методология исследования основывается на использовании синтетических данных, генерируемых в CG. Модель YOLOv11 была обучена на данных, полученных с различными стратегиями доменной рандомизации, таких как изменение цвета, освещения, фона и перспективы. Для увеличения сложности и разнообразия данных применялись техники генерирования и аугментации. Помимо этого, модель была экспериментально подготовлена с разными уровнями сложности и размеров, чтобы определить оптимальную конфигурацию. Для оценки реального поведения модели, помимо метрик качества, включая mAP@50, проводились визуальные проверки и реальные тесты. Это позволило сочетать систематические меры с визуальным анализом для повышения точности. ## Результаты Полученные результаты были оценены на множестве экспериментов с разными конфигурациями. Модель YOLOv11 была протестирована на реальных данных, сравниваясь с другими моделями, и получила близкие к оптимальным результаты с mAP@50 в районе 0.910 на закрытом тесте Kaggle. Особое внимание было уделено разнообразию данных в синтетическом мире и их влиянии на точность. Эксперименты показали, что включение сложных фонов и различных перспектив помогло улучшить метрики. Тем не менее, некоторые проблемы, такие как текстурные особенности и нестандартные объекты, все еще оставались непреодолимыми. ## Значимость Предложенный подход имеет значительное значение для решения проблемы перехода из синтетического домена в реальный в объектном распознавании. Это может быть применено в различных областях, таких как автоматизация, безопасность и робототехника, где необходима эффективная обработка реальных данных. Основные преимущества включают высокую скорость обучения, низкую зависимость от реальных данных и улучшение обобщаемости моделей. Будущим направлением исследований является расширение данных синтетических моделей, вкл

Annotation:

This paper addresses the synthetic-to-real domain gap in object detection, focusing on training a YOLOv11 model to detect a specific object (a soup can) using only synthetic data and domain randomization strategies. The methodology involves extensive experimentation with data augmentation, dataset composition, and model scaling. While synthetic validation metrics were consistently high, they proved to be poor predictors of real-world performance. Consequently, models were also evaluated qualitat...

ID: 2509.15045v1 cs.CV, cs.LG

arXiv PDF

📄 Learning Mechanistic Subtypes of Neurodegeneration with a Physics-Informed Variational Autoencoder Mixture Model

2025-09-20

Авторы:

Sanduni Pinnawala, Annabelle Hartanto, Ivor J. A. Simpson, Peter A. Wijeratne

## Контекст Моделирование механизмов прогрессирования нейродегенеративных заболеваний требует методов, которые могли бы локально и гетерогенно отражать динамику, основываясь на неограниченных, высокомерных данных из нейроиммунинга. Интеграция знаний, основанных на физических уравнениях (PDE), с машинным обучением позволяет повысить интерпретируемость и эффективность по сравнению с традиционными численными методами. Однако работы, интегрирующие PDE с машинным обучением, ограничиваются рассмотрением одного PDE, что ограничивает применимость к заболеваниям, где несколько механизмов приводят к разным подгруппам (или подтипам). Данные проблемы усугубляются в моделях, не учитывающих таковую субтипификацию. Мы предлагаем глубокую генерирующую модель, которая может учитывать несколько динамических моделей, управляемых PDE, в рамках фреймворка вариационного автоэнкодера (VAE). Модель позволяет выделять субтипы с интерпретируемыми латентными переменными, такими как распространение (diffusivity) и реакционные скорости, из нейроиммунинга. Мы проверили нашу модель на синтетических данных и показали, что она может раскрывать механизмы прогрессирования заболевания Альцгеймера, основываясь на данных из позитронной эмиссионной томографии (PET). ## Метод Мы предлагаем **Variational Autoencoder Mixture Model (VAEMM)** с встроенными реакционно-диффузионными PDE. Реакционно-диффузионные PDE логически разделяются на подгруппы для каждого субтипа, чтобы отражать специфику динамики этого субтипа. Модель использует метод реконструкции VAE для выявления латентных переменных, которые описывают эти субтипы. Нашу архитектуру модели укрепляет физический смысл, внедренный в регуляризацию. Мы вводим новую функцию потерь, которая объединяет представление VAE с ограничениями, у imposеd by PDE. Эта регуляризация позволяет обеспечить точность в моделировании динамики и найти подтипы с логически согласованными латентными переменными. Мы использовали бенчмарки, созданные из имитационных данных, для проверки нашей модели. ## Результаты Мы проверили нашу модель на синтетических данных, генерируемых из различных предварительных моделей, включая реакционно-диффузионные PDE. Модель показала способность точно выявить субтипы и их латентные переменные, такие как распространение и реакционные скорости. Мы также применили нашу модель к реальным данным из PET-сканеров для прогрессирования Альцгеймера. Мы выявили подтипы, отражающие различные стили динамики заболевания, и показали, что модель может улучшить интерпретируемость томографических данных. Экспери

Annotation:

Modelling the underlying mechanisms of neurodegenerative diseases demands methods that capture heterogeneous and spatially varying dynamics from sparse, high-dimensional neuroimaging data. Integrating partial differential equation (PDE) based physics knowledge with machine learning provides enhanced interpretability and utility over classic numerical methods. However, current physics-integrated machine learning methods are limited to considering a single PDE, severely limiting their application ...

ID: 2509.15124v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Out-of-Sight Trajectories: Tracking, Fusion, and Prediction

2025-09-20

Авторы:

Haichao Zhang, Yi Xu, Yun Fu

## Контекст Трактории (trajectories) — это ключевое понятие в области компьютерного зрения и автономных систем. Они играют важную роль в таких приложениях, как автономное вождение, робототехника, наблюдение за объектами и виртуальная реальность. Однако многие существующие методы для прогнозирования траекторий основываются на полных и безупречных данных об объектах. Это приводит к серьезным проблемам при работе с неполными и шумными сигналами, которые могут возникнуть в результате ограниченного поля зрения камер, препятствий и отсутствия точных данных для оценки траекторий. Эти проблемы снижают точность и надежность прогнозов в реальных условиях. В этой работе призвано рассмотреть эти проблемы, расширив понятие Out-of-Sight Trajectory (OST) — задачу, которая предсказывает шумозависимые траектории вне поля зрения объектов, используя шумные данные из сенсоров. ## Метод **Out-of-Sight Trajectory Prediction (OOSTraj)** — это расширенная модель, которая использует многослойную архитектуру, включающую Vision-Positioning Denoising Module (VPDM). Этот модуль использует калибровочные данные камеры для установления масштабированного визуального-позиционного проекционного отображения. Он эффективно де noise-ит шумные данные сенсоров независимо от того, используется ли полный текст данных или только часть. Данная модель также включает адаптированные алгоритмы, которые могут работать в режиме реального времени, даже при ограниченной наличием данных. Этот подход позволяет улучшить прогнозирование траекторий в трудных условиях, таких как препятствия, помехи и неполные данные. ## Результаты Для оценки эффективности модели OOSTraj проведены эксперименты на двух датасетах: Vi-Fi и JRDB. Модель была сравнена с другими методами, такими как Kalman Filter и другие модели траекторий. Результаты показали, что OOSTraj дает значительно более точные прогнозы траекторий в сравнении с другими моделями. Были проведены эксперименты, показавшие, что OOSTraj лучше справляется с шумными данными, а также обеспечивает более точные прогнозы в ситуациях, когда объекты находятся вне области видимости камеры. Эти результаты подкрепляются графиками, сравнивающими производительность модели с другими подходами. ## Значимость Модель OOSTraj имеет широкие возможности применения в таких областях, как автономное вождение, робототехника, наблюдение и виртуальная реальность. Она обеспечивает более достоверное и точное прогнозирование траекторий, даже в условиях с шумом и неполной информацией. Это может существенно повысить надежность автономных систем и улучшить безопасность в таких приложениях. Данный подход также мож

Annotation:

Trajectory prediction is a critical task in computer vision and autonomous systems, playing a key role in autonomous driving, robotics, surveillance, and virtual reality. Existing methods often rely on complete and noise-free observational data, overlooking the challenges associated with out-of-sight objects and the inherent noise in sensor data caused by limited camera coverage, obstructions, and the absence of ground truth for denoised trajectories. These limitations pose safety risks and hind...

ID: 2509.15219v1 cs.CV, cs.LG, cs.MA, cs.MM, cs.RO, 68T45, 68U10, 68T07, 68T40, 93C85, 93E11, 62M20, 62M10, 68U05, 94A12, F.2.2; I.2.9; I.2.10; I.4.1; I.4.8; I.4.9; I.5.4; I.3.7

arXiv PDF

📄 Generalizable Geometric Image Caption Synthesis

2025-09-20

Авторы:

Yue Xin, Wenyuan Wang, Rui Pan, Ruida Wang, Howard Meng, Renjie Pi, Shizhe Diao, Tong Zhang

#### Контекст Multimodal больших языковых моделей (МЛЛМ) широко применяются в решении различных задач, требующих сильных рассудочных способностей. Однако, несмотря на прогрессы в области МЛЛМ, они часто сталкиваются с проблемами при решении сложных геометрических задач. Это связано с отсутствием качественных данных в форме пар изображения-текст, которые могут помочь моделям разобраться с геометрическими концепциями. Также, многие существующие системы синтеза данных, основанные на шаблонах, не успешно справляются с задачами, выходящими за рамки предопределенных шаблонов. Данная работа нацелена на решение этих проблем с помощью внедрения процесса Reinforcement Learning with Verifiable Rewards (RLVR) в процесс синтеза данных. #### Метод Процесс синтеза данных в работе основывается на взаимодействии нескольких этапов. Вначале используется генерация изображений на основе 50 основных геометрических отношений. Затем, с помощью RLVR, система улучшает генерируемые текстовые описания, используя в качестве сигналов ре wards сигналы, полученные из задач решения геометрических проблем. Это позволяет модели распознавать ключевые особенности решения геометрических задач. Благодаря этому, модели не только улучшают свои результаты в задачах, схожих с обучающимися данными, но и способны решать нестандартные задачи вне обучающего множества. #### Результаты За счет внедрения RLVR в процесс синтеза данных, модели показали существенные улучшения в выполнении геометрических задач. Так, на данных MathVista и MathVerse, связанных с статистикой, арифметикой, алгеброй и числовыми задачами, улучшение достигло значений в пределах $2.8\%\text{-}4.8\%$. Также, для задач негеометричных (например, в области искусства, дизайна, техники и инженерии) на данных MMMU, модели показали улучшения в пределах $2.4\%\text{-}3.9\%$. Это свидетельствует о универсальности улучшений и их применимости к разным областям. #### Значимость Результаты этой работы могут быть применены во многих областях, таких как образование, промышленность и технические задачи. Особый потенциал имеет применение в области геометрии и технологий, где качество решения геометрических задач может существенно влиять на результаты. Кроме того, улучшенные возможности вывода и рассуждения модели могут быть использованы в разработке новых приложений, требующих сильных рассудочных способностей. #### Выводы Выводы данной работы сводятся к следующим моментам: внедрение RLVR в процесс синтеза данных значительно повышает качество решения геометрических задач, увеличивая генерализуемость уже готовых моделей. Это открывает

Annotation:

Multimodal large language models have various practical applications that demand strong reasoning abilities. Despite recent advancements, these models still struggle to solve complex geometric problems. A key challenge stems from the lack of high-quality image-text pair datasets for understanding geometric images. Furthermore, most template-based data synthesis pipelines typically fail to generalize to questions beyond their predefined templates. In this paper, we bridge this gap by introducing ...

ID: 2509.15217v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 PREDICT-GBM: Platform for Robust Evaluation and Development of Individualized Computational Tumor Models in Glioblastoma

2025-09-19

Авторы:

L. Zimmer, J. Weidner, M. Balcerak, F. Kofler, I. Ezhov, B. Menze, B. Wiestler

#### Контекст Гиброма glioblastoma (GBM) — наиболее распространенная опухоль головного мозга, характеризующаяся высокой инвазивностью и высокой стадией возвращения. Традиционный радиотерапевтический подход, основывающийся на однородных пограничных зонах, не учитывает личные аномалии анатомии и биологии пациента, которые ведут к различным тенденциям возвращения. Чтобы решить эту проблему, были созданы многочисленные компьютерные модели роста GBM, позволяющие предсказать распространение тканей опухоли за пределы видимых радиологических областей и, следовательно, вдохновить на лучший клинический подход. Однако даже на первых этапах, эти модели показали важное потенциальное применение. Однако клиническое применение их ограничено, что необходимо провести трансляционные исследования и клиническую валидацию. Чтобы привнести этот трансляционный пробел и ускорить развитие моделей и проверку их клинической эффективности, мы предлагаем PREDICT-GBM — полностью интегрированную платформу и набор данных для моделирования и оценки роста гибром. #### Метод PREDICT-GBM представляет собой интегрированную платформу, которая содержит методы вычислительного моделирования роста гиброма, чтобы обеспечить широкий спектр моделей и систематическую оценку их производительности. Данные, использованные в рамках этого исследования, включают 255 клинических случаев с полным разделением тканей и картами характеристик тканей. Методы моделирования включают алгоритмы, которые могут предсказать распространение тканей опухоли на основе индивидуальных конкретизаций пациентов. Архитектура платформы обеспечивает гибкость и модульность, позволяя интегрировать различные модели и добавлять новые данные. Это позволяет проводить систематический бенчмаркинг и сравнивать различные модели роста гиброма в объемных клинических данных. #### Результаты В ходе исследования мы выполнили систематическую оценку двух моделей роста гиброма с помощью PREDICT-GBM. Мы сравнили личные планы лучевой терапии, построенные на основе предсказаний моделей, с традиционным методом, где используются равные пограничные зоны. Результаты показали, что персонализированные планы лучевой терапии, основанные на предсказаниях моделей, демонстрируют лучшую покрытие возвращения в двух моделях. Это указывает на то, что моделирование роста гиброма может привести к более точным и эффективным клиническим решениям. #### Значимость Платформа PREDICT-GBM имеет широкие клинические применения, включая улучшение точности предсказания распространения гиброма, оптимизацию лучевой те

Annotation:

Glioblastoma is the most prevalent primary brain malignancy, distinguished by its highly invasive behavior and exceptionally high rates of recurrence. Conventional radiation therapy, which employs uniform treatment margins, fails to account for patient-specific anatomical and biological factors that critically influence tumor cell migration. To address this limitation, numerous computational models of glioblastoma growth have been developed, enabling generation of tumor cell distribution maps ex...

ID: 2509.13360v1 eess.IV, cs.CV, cs.LG, q-bio.QM

arXiv PDF

1
2
54
55
56
57
58
83
84

Показано 551 - 560 из 837 записей