📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Calibrating Biophysical Models for Grape Phenology Prediction via Multi-Task Learning

2025-08-09

Авторы:

William Solow, Sandhya Saisubramanian

## КОНТЕКСТ И ПРОБЛЕМАТИКА Точное прогнозирование фенологических этапов винограда является ключевым фактором для эффективного управления виноградниками. Это позволяет своевременно планировать полив, удобрение и другие критические мероприятия, чтобы максимизировать урожайность и качество урожая. Традиционные биофизические модели, калиброванные на исторических полевых данных, широко используются для прогнозирования на протяжении всего вегетационного сезона. Однако они не обеспечивают достаточной точности для тонкой детализации управления виноградниками на уровне отдельных сортов. В последнее время глубокие нейронные сети представляют собой перспективную альтернативу, однако их эффективность существенно ограничивается редкостью и разреженностью данных о фенологии винограда, особенно на уровне сортов. Это создает серьезные трудности для разработки надежных и точных моделей. Кроме того, традиционные биофизические модели не могут эффективно использовать большие наборы данных, полученные из разных источников, что ограничивает их гибкость и масштабируемость. Мотивацией для данного исследования стало необходимость создания более точного и гибкого подхода к прогнозированию фенологических этапов винограда, который сочетал бы преимущества биофизических моделей и глубокого обучения. Требовалось разработать метод, способный улучшить точность прогнозов, опираясь на ограниченные данные, и при этом сохранить биологическую интерпретируемость модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается гибридный подход, который сочетает методы многозадачного обучения (multi-task learning) и рекуррентные нейронные сети (Recurrent Neural Networks, RNN) для калибровки биофизических моделей. Основная идея заключается в том, чтобы использовать многозадачное обучение для прогнозирования параметров биофизической модели, что позволяет обеспечить совместное обучение по разным сортам винограда, сохраняя при этом биологическую структуру модели. Рекуррентная нейронная сеть используется для обработки временных рядов данных, таких как температура и влажность почвы, которые важны для прогнозирования фенологических этапов. Многозадачное обучение позволяет модели обучаться на данных из разных сортов винограда одновременно, что повышает общую робастность и точность прогнозов. Дифференцируемая биофизическая модель интегрируется в этот подход, что позволяет оптимизировать параметры модели в процессе обучения. Это обеспечивает более точное выравнивание модели на реальных данных, а также позволяет адаптироваться к различиям между сортами винограда. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены эксперименты на реальных и синтетических наборах данных. Эти данные включали информацию о фенологических этапах винограда, а также другие переменные, такие как холодоустойчивость и урожайность пшеницы. Результаты показали, что предлагаемый метод значительно превосходит как традиционные биофизические модели, так и базовые подходы глубокого обучения в прогнозировании фенологических этапов. Точность прогнозов улучшилась на значительной величине, особенно в случае работы с небольшими и разреженными данными. Кроме того, метод показал хорошие результаты в прогнозировании других переменных, таких как холодоустойчивость винограда и урожайность пшеницы, что подтверждает его широкую применимость в различных областях сельского хозяйства. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для сельского хозяйства, особенно в виноградарстве. Точные прогнозы фенологических этапов позволяют оптимизировать процессы управления виноградниками, такие как полив, удобрение и защита растений от вредителей и болезней. Кроме того, метод может быть применен для прогнозирования других критических показателей, таких как холодоустойчивость растений и урожайность, что делает его универсальным инструментом для более широкого круга задач в сельском хозяйстве. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе был предложен новый подход к прогнозированию фенологических этапов винограда, который сочетает биофизические модели с глубоким обучением. Это позволяет достичь высокой точности прогнозов, даже при ограниченном объеме данных. В будущем можно рассмотреть возможность расширения этого подхода на другие культуры и регионы, а также исследование дополнительных факторов, влияющих на фенологические процессы. Также важно исследовать возможности интеграции этого метода с другими технологиями, такими как дистанционное зондирование и ионно-селективная электродиагностика, для еще более точного управления сельским хозяйством.

Annotation:

Accurate prediction of grape phenology is essential for timely vineyard management decisions, such as scheduling irrigation and fertilization, to maximize crop yield and quality. While traditional biophysical models calibrated on historical field data can be used for season-long predictions, they lack the precision required for fine-grained vineyard management. Deep learning methods are a compelling alternative but their performance is hindered by sparse phenology datasets, particularly at the c...

ID: 2508.03898v1 cs.LG, cs.AI

arXiv PDF

📄 Fast and Accurate Explanations of Distance-Based Classifiers by Uncovering Latent Explanatory Structures

2025-08-09

Авторы:

Florian Bley, Jacob Kauffmann, Simon León Krug, Klaus-Robert Müller, Grégoire Montavon

Distance-based classifiers, такие как k-ближайших соседей и support vector machines, широко применяются в машинном обучении, но часто скрываются за непрозрачным темной коробочной технологией. Методы Explainable AI позволяют выявить полезные структуры в таких моделях, но их применение к distance-based classifiers было неочевидным. В статье предлагается новый подход, который выявляет неявную скрытую структуру в distance-based classifiers, аналогичную тем, что присутствует в нейронных сетях. Эта скрытая структура состоит из линейных детекторов и нелинейных слоёв агрегирования, которые могут быть легко обработаны методами LRP. Эксперименты показывают, что новый подход превосходит существующие методы по точности и скорости построения объяснений, а также приводятся две практические проблемы, где этот подход доказал свою эффективность. Таким образом, статья демонстрирует, что distance-based classifiers могут быть вполне объяснимыми, если использовать правильный подход.

Annotation:

Distance-based classifiers, such as k-nearest neighbors and support vector machines, continue to be a workhorse of machine learning, widely used in science and industry. In practice, to derive insights from these models, it is also important to ensure that their predictions are explainable. While the field of Explainable AI has supplied methods that are in principle applicable to any model, it has also emphasized the usefulness of latent structures (e.g. the sequence of layers in a neural networ...

ID: 2508.03913v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Cross-Domain Image Synthesis: Generating H&E from Multiplex Biomarker Imaging

2025-08-09

Авторы:

Jillur Rahman Saurav, Mohammad Sadegh Nasr, Jacob M. Luber

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие медицинских исследований в области патологии и онкологии требует интеграции различных типов данных для более полного понимания биологических процессов в тканях. Мультиплексная иммунофлюоресцентная (Multiplex Immunofluorescence, mIF) имиджинг является мощным инstrumentом, позволяющим получать детальные, пространственно-резолюционные молекулярные данные о тканях. Однако, для комплексного анализа необходимо сочетание этих данных с традиционным гематоксилино-эозиновым (Hematoxylin & Eosin, H&E) стейном, который является стандартом для оценки морфологических особенностей тканей. Существует значительная проблема в интеграции этих двух типов данных. mIF-данные обеспечивают молекулярную информацию, но не всегда дают достаточного контекста для морфологического анализа, который критически важен для диагностики и исследований. Напротив, H&E-стейн предоставляет высококачественную морфологическую информацию, но не содержит молекулярные детали. Интеграция этих двух подходов может позволить создать более широкий контекст для анализа, что особенно важно для разработки компьютеризированных систем диагностики (Computer-Aided Diagnosis, CAD). В данной статье авторы предлагают решение этой проблемы путем генерации виртуального H&E-стейна из mIF-данных с помощью генеративных нейронных сетей. Такой подход может предоставить не только визуально правдоподобные изображения, но и функционально полезные для последующих аналитических задач, таких как сегментация ядер и классификация тканей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы используют мульти-уровневую Vector-Quantized Generative Adversarial Network (VQGAN) для генерации виртуальных H&E-стейнов. VQGAN является развитием традиционных GAN, которые используют векторную квантованную представление (Vector Quantization) для повышения качества генерации изображений. Эта модель состоит из двух основных компонентов: генератора и дискриминатора. Генератор пытается создать изображения, максимально близкие к реальным H&E-стейнам, в то время как дискриминатор оценивает их качество. Архитектура VQGAN включает в себя несколько уровней квантования, которые позволяют модели лучше захватывать сложные текстуры и структурные особенности тканей. Это позволяет достигнуть более высокого качества генерации изображений по сравнению с традиционными cGAN. В качестве базы для сравнения авторы использовали стандартную cGAN, которая является одной из наиболее распространенных моделей для синтеза изображений. Однако, как показали исследования, VQGAN превосходит cGAN как в визуальной точности, так и в функциональной ценности генерируемых изображений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на двух общедоступных датасетах колоректального рака, которые включали как mIF, так и H&E-изображения. Для оценки качества генерации изображений использовались два критерия: визуальная схожесть с реальными H&E-стейнами и эффективность для последующих задач, таких как сегментация ядер и классификация тканей. Результаты показали, что VQGAN значительно превосходит cGAN в обоих критериях. Виртуальные H&E-стейны, сгенерированные VQGAN, были более точными в визуальном плане и позволяли достичь лучших результатов в задачах сегментации ядер и классификации тканей по сравнению с изображениями, сгенерированными cGAN. Кроме того, авторы провели анализ согласованности с грунд-трютховыми данными (ground-truth) и показали, что VQGAN-изображения более точно отражают морфологические особенности тканей и сохраняют семантическую информацию, необходимую для диагностических задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод генерации виртуальных H&E-стейнов имеет широкое применение в клинической практике и медицинских исследованиях. Он позволяет интегрировать молекулярные данные из mIF-изображений с морфологическим контекстом H&E-стейнов, что может улучшить диагностическую точность и эффективность анализа. Кроме того, этот подход открывает новые возможности для использования существующих CAD-инструметов, которые были разработаны для работы с H&E-изображениями, для анализа более широкого спектра данных, включая молекулярные данные из mIF. Это может способствовать развитию более интегрированных и точных систем для диагностики и прогнозирования заболеваний. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе было показано, что мульти-уровневая VQGAN является эффективной архитектурой для генерации виртуальных H&E-стейнов из mIF-данных. Этот метод не только обеспечивает высокое качество генерации изображений, но также позволяет использовать их в последующих аналитических задачах, таких как сегментация ядер и классификация тканей. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры VQGAN, а также на исследовании его применения в других областях медицинских исследований, где интеграция молекулярных и морфологических данных имеет критическое значение.

Annotation:

While multiplex immunofluorescence (mIF) imaging provides deep, spatially-resolved molecular data, integrating this information with the morphological standard of Hematoxylin & Eosin (H&E) can be very important for obtaining complementary information about the underlying tissue. Generating a virtual H&E stain from mIF data offers a powerful solution, providing immediate morphological context. Crucially, this approach enables the application of the vast ecosystem of H&E-based computer-aided diagn...

ID: 2508.04734v1 q-bio.QM, cs.AI, eess.IV

arXiv PDF

📄 Deep learning framework for crater detection and identification on the Moon and Mars

2025-08-09

Авторы:

Yihan Ma, Zeyang Yu, Rohitash Chandra

## КОНТЕКСТ И ПРОБЛЕМАТИКА Импактные кратеры являются одними из наиболее заметных геоморфологических объектов на поверхности планет и спутников солнечной системы. Их распределение по пространству и морфологические характеристики несут важную информацию о композиции поверхности, геологической истории и процессах, вызванных внешним воздействием. Изучение кратеров играет ключевую роль в планетарной науке, поскольку они служат индикаторами временных рамков и интенсивности космических ударов, а также показателями эволюции поверхности. Традиционные методы детектирования кратеров основывались на ручной идентифицировании по изображениям, что требовало больших временных и трудовых затрат, особенно при анализе больших объемов данных с планетарных орбитальных миссий. В последние годы развитие искусственного интеллекта и глубоких нейронных сетей открыло новые возможности для автоматизированного детектирования кратеров. Однако существующие модели часто сталкиваются с проблемами, такими как недостаточная точность распознавания, ограниченность обучения на конкретных типах поверхностей и неоптимальное балансирование между скоростью и точностью. Эта проблематика ставит вопрос о создании эффективного и универсального фреймворка для автоматического детектирования и идентификации кратеров, способного работать на различных планетарных поверхностях с высокой точностью. В данной статье авторы предлагают решение на основе глубокого обучения, ориентированное на детектирование и идентификацию кратеров на Луне и Марсе, используя данные дистанционного зондирования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют фреймворк для детектирования кратеров, основанный на глубоком обучении, который включает два этапа. На первом этапе используются классические модели, такие как Convolutional Neural Networks (CNNs), ResNet-50 и YOLO (You Only Look Once), для идентификации кратеров. ResNet-50 представляет собой глубокую архитектуру с 50 слоями, известную своей способностью к эффективному обучению на больших данных. YOLO, в свою очередь, является одной из самых быстрых моделей для детектирования объектов в режиме реального времени. На втором этапе фреймворк использует YOLO-базированный подход для точной локализации кратеров. Этот подход позволяет обеспечить высокую точность распознавания различных типов кратеров, включая крупные и мелкие формы. Архитектура фреймворка оптимизирована для работы с данными дистанционного зондирования, полученными с Луны и Марса, что позволяет анализировать различные типы поверхностей и геологических условий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности фреймворка проведены эксперименты на данных дистанционного зондирования с Луны и Марса. Использовались высокоразрешенные изображения, позволяющие распознать мелкие детали кратеров. Результаты показали, что YOLO демонстрирует наиболее сбалансированную производительность в детектировании кратеров, обеспечивая высокую скорость и точность. ResNet-50, с другой стороны, показал лучшие результаты в идентификации крупных кратеров с высокой точностью. Эксперименты также подтвердили, что фреймворк способен обрабатывать разнообразные типы поверхностей, обнаруживая кратеры различных размеров и форм. Отчеты, сгенерированные фреймворком, включали детальную информацию о расположении и характеристиках кратеров, что демонстрирует практическую применимость метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет широкие возможности применения в планетарной науке и космических исследованиях. Он позволяет быстро и точно обрабатывать большие объемы данных, что значительно ускоряет процессы исследования поверхностей Луны и Марса. Это может быть использовано для изучения геологической истории планет, оценки возраста поверхностных форм и анализа динамики космических ударов. Кроме того, фреймворк может быть интегрирован в космические миссии для реального времени анализа данных, что повышает эффективность миссий и позволяет быстрее принимать научные решения. Его универсальность и высокая точность делают его полезным инструментом для будущих космических проектов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен фреймворк для автоматического детектирования и идентификации кратеров на Луне и Марсе, который демонстрирует высокую эффективность и точность. Основными достижениями являются балансированное детектирование YOLO и высокая точность ResNet-50 в распознавании крупных кратеров. В будущем можно рассмотреть расширение фреймворка для работы с другими планетарными поверхностями, а также интеграцию дополнительных моделей для улучшения точности и скорости. Также возможно исследование возможностей фреймворка в реальном времени для применения в будущих космических миссиях.

Annotation:

Impact craters are among the most prominent geomorphological features on planetary surfaces and are of substantial significance in planetary science research. Their spatial distribution and morphological characteristics provide critical information on planetary surface composition, geological history, and impact processes. In recent years, the rapid advancement of deep learning models has fostered significant interest in automated crater detection. In this paper, we apply advancements in deep le...

ID: 2508.03920v1 cs.CV, cs.AI

arXiv PDF

📄 Active Learning and Transfer Learning for Anomaly Detection in Time-Series Data

2025-08-09

Авторы:

John D. Kelleher, Matthew Nicholson, Rahul Agrahari, Clare Conran

**Резюме** В статье рассматривается эффективность сочетания активного обучения (active learning) и трансферного обучения (transfer learning) для обнаружения аномалий в временных рядах. Авторы исследовали, в какой степени эти подходы могут улучшить модели детектирования аномалий при работе с кросс-доменными данными. Основные находки указывают на то, что сочетание активного и трансферного обучения может улучшить производительность моделей, однако производительность лучше всего достигается при использовании одного кластера, то есть без применения кластеризации. Также было обнаружено, что добавление новых выборок с помощью активного обучения повышает качество модели, хотя темп улучшения менее заметен, чем в предыдущих работах, возможно из-за более точного экспериментального дизайна. Наконец, авторы оценили потенциальную высокую производительность трансферного обучения в сочетании с активным обучением и заметили, что хотя модель показывает исходное улучшение, эффект затухает, когда менее полезные образцы включаются в обучение. Это подтверждает эффективность активного обучения, но также показывает, что его польза ограничена и следует оценивать с учетом этих особенностей.

Annotation:

This paper examines the effectiveness of combining active learning and transfer learning for anomaly detection in cross-domain time-series data. Our results indicate that there is an interaction between clustering and active learning and in general the best performance is achieved using a single cluster (in other words when clustering is not applied). Also, we find that adding new samples to the training set using active learning does improve model performance but that in general, the rate of im...

ID: 2508.03921v1 cs.LG, cs.AI

arXiv PDF

📄 MOTIF: Multi-strategy Optimization via Turn-based Interactive Framework

2025-08-09

Авторы:

Nguyen Viet Tuan Kiet, Dao Van Tung, Tran Cong Dao, Huynh Thi Thanh Binh

## КОНТЕКСТ И ПРОБЛЕМАТИКА Решение NP-трудных комбинаторных оптимизационных задач (COPs) представляет собой значительную проблему в области вычислительной оптимизации. Эти задачи, такие как задача коммивояжера и задача кластеризованного покрытия множества, отличаются высокой сложностью и отсутствием эффективных полиномиальных решений. Традиционные подходы к решению таких задач зависят от тщательно созданных стратегий, включающих ручное проектирование эвристик, оценочных функций и других компонентов. Несмотря на значительные успехи в области автоматизации проектирования решателей с помощью моделей естественного языка (LLMs), большинство современных методов ограничены поиском оптимальных решений в пределах отдельного элемента, например, оценочной функции. Такая ограниченность не позволяет использовать потенциал широкого поиска и взаимодействия между несколькими компонентами решателя, что могло бы привести к новым, инновационным решениям. Основной проблемой является то, что существующие подходы не позволяют эффективно оптимизировать несколько взаимосвязанных компонентов решателя одновременно. Это ограничивает возможности поиска лучших решений, так как улучшение отдельного элемента может негативно сказываться на других компонентах. Таким образом, необходим новый подход, который позволит одновременно оптимизировать несколько компонентов решателя в рамках единого объективного функционала, обеспечивая более глубокий и комплексный поиск. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается новый метод под названием **MOTIF (Multi-strategy Optimization via Turn-based Interactive Framework)**, который решает задачу оптимизации нескольких компонентов решателя путем взаимодействия двух агентов на основе моделей естественного языка (LLMs). MOTIF использует алгоритм **Monte Carlo Tree Search (MCTS)** для организации ходов взаимодействия между агентами, где каждый агент работает над улучшением одного компонента решателя. В каждом ходе, один агент оптимизирует один компонент, используя историю изменений, внесенных им самим и его "соперником". Этот процесс поочередного улучшения позволяет агентам соревноваться и сотрудничать одновременно, что стимулирует появление новых, разнообразных и высокопроизводительных решений. Такая структура взаимодействия позволяет расширить пространство поиска и обеспечить более глубокую оптимизацию всех компонентов решателя. Основная идея MOTIF заключается в том, чтобы поощрять кооперацию и конкуренцию между агентами, чтобы достичь лучшего результата. Агенты, основанные на LLMs, используют историю изменений для построения более информированных решений, что позволяет им адаптироваться к изменениям, внесенным другим агентом. Такой подход позволяет не только улучшить каждый компонент, но и обеспечить лучшую интеграцию между ними. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности MOTIF проведены широкие эксперименты на нескольких доменах комбинаторных оптимизационных задач (COPs). Использовались различные наборы данных, включая задачи коммивояжера, задачи кластеризации и другие типичные задачи NP-трудности. Результаты экспериментов демонстрируют, что MOTIF показывает значительно лучшие результаты по сравнению со стандартными методами, основанными на ручном проектировании или одностратегических подходах. В частности, MOTIF показал лучшую производительность в задачах, где необходимо оптимизировать несколько компонентов решателя одновременно. Благодаря своей способности расширять пространство поиска и использовать историю изменений, MOTIF успешно находит более разнообразные и высокопроизводительные решения. Кроме того, эксперименты показали, что MOTIF не только улучшает качество решений, но и уменьшает время, необходимое для поиска оптимальных решений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MOTIF имеет широкое применение в областях, где необходимо решать сложные комбинаторные задачи, такие как логистика, планирование производства, оптимизация сетей и многие другие. Благодаря своей способности автоматически оптимизировать несколько компонентов решателя, MOTIF может быть использован для создания более эффективных и адаптивных решателей. Одним из ключевых преимуществ MOTIF является его способность обеспечить более широкий поиск решений, что может привести к разработке новых, инновационных стратегий для решения сложных задач. Это может быть особенно полезно в областях, где традиционные методы оказываются недостаточно эффективными. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В статье представлен новый подход к автоматизации проектирования решателей для комбинаторных оптимизационных задач с помощью MOTIF. Этот метод позволяет оптимизировать несколько компонентов решателя одновременно, используя взаимодействие между двумя агентами на основе моделей естественного языка. Результаты экспериментов показывают, что MOTIF является эффективным средством для поиска высокопроизводительных решений в различных доменах. В будущем, MOTIF может быть расширен для решения еще более сложных задач, включая многокритериальную оптимизацию и задачи с нечеткими критериями. Также, могут быть исследованы возможности использования MOTIF в сочетании с другими методами оптимизации, чтобы достичь еще более широкого спектра применений.

Annotation:

Designing effective algorithmic components remains a fundamental obstacle in tackling NP-hard combinatorial optimization problems (COPs), where solvers often rely on carefully hand-crafted strategies. Despite recent advances in using large language models (LLMs) to synthesize high-quality components, most approaches restrict the search to a single element - commonly a heuristic scoring function - thus missing broader opportunities for innovation. In this paper, we introduce a broader formulation...

ID: 2508.03929v1 cs.AI

arXiv PDF

📄 ERDES: A Benchmark Video Dataset for Retinal Detachment and Macular Status Classification in Ocular Ultrasound

2025-08-09

Авторы:

Pouyan Navard, Yasemin Ozkut, Srikar Adhikari, Elaine Situ-LaCasse, Josie Acuña, Adrienne Yarnish, Alper Yilmaz

## КОНТЕКСТ И ПРОБЛЕМАТИКА Ретинальный детачмент (РД) является одной из серьезных угроз зрения, требующей немедленного вмешательства для сохранения зрительной функции. Ключевым фактором, определяющим визуальные показатели и срочность лечения, является состояние макулы — ее сохранность (макула-интакт) или отсутствие (макула-детачд). Диагностика РД часто осуществляется с помощью точки-обслуживания ультразвукового сканирования (POCUS), который является быстрым, неинвасивным, доступным и экономически эффективным методом. Однако его эффективность зависит от квалификации медицинских работников, что часто является проблемой, особенно в ресурсно-ограниченных условиях. В последнее время глубокое обучение (Deep Learning) открыло новые возможности для автоматизации оценки ультразвуковых изображений. Однако, несмотря на широкий потенциал, в настоящее время не существует медицинских приложений на основе машинного обучения (ML) для диагностики РД на основе ультразвука, а также для оценки состояния макулы в случае РД. Это ограничение является критичным, поскольку оценка состояния макулы является важным фактором для определения приоритетов в хирургическом лечении. Кроме того, по сей день не существует открытого датасета, позволяющего классифицировать РД на основе ультразвуковых видеоклипов с учетом состояния макулы. В связи с этим был разработан Eye Retinal DEtachment ultraSound (ERDES) — первый открытый датасет ультразвуковых клипов, отмеченных для диагностики РД и определения состояния макулы (макула-интакт или макула-детачд). Этот датасет предназначен для разработки и оценки моделей машинного обучения, позволяющих автоматизировать процесс диагностики РД. Для обеспечения начальных результатов, авторы также предоставили бенчмарки на основе нескольких спатио-временных конволюционных нейронных сетей (CNN). Весь датасет, включая видеоклипов, отмеченные данные и код для тренировки, доступен на сайте https://osupcvlab.github.io/ERDES/. ## ПРЕДЛОЖЕННЫЙ МЕТОД Методология, предложенная в статье, основывается на использовании спатио-временных конволюционных нейронных сетей (CNN) для классификации ультразвуковых видеоклипов по наличию ретинального детачмента и состоянию макулы. Для этого был создан датасет ERDES, содержащий ультразвуковые видеоклипов, аннотированных по двум категориям: наличие ретинального детачмента и состояние макулы (макула-интакт или макула-детачд). Архитектура CNN использует спатио-временные свертки для анализа пространственных и временных признаков в ультразвуковых видеоклипов. Это позволяет модели обнаруживать и классифицировать характеристики, связанные с ретинальным детачментом и состоянием макулы. Авторы также предоставили базовые бенчмарки, используя различные архитектуры CNN, чтобы демонстрировать возможности датасета и показать его потенциал для дальнейшего исследования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены эксперименты для оценки эффективности датасета ERDES и базовых моделей CNN. Для экспериментов использовались ультразвуковые клипов из датасета, которые были размечены по наличию ретинального детачмента и состоянию макулы. Результаты показали, что использование спатио-временных CNN позволяет достичь высокой точности в классификации РД и определении состояния макулы. Кроме того, были проанализированы различные CNN-архитектуры, чтобы определить лучшую модель для данной задачи. Результаты экспериментов показали, что некоторые модели демонстрируют высокую точность и надежность в классификации, что демонстрирует потенциал датасета ERDES для разработки эффективных моделей машинного обучения в этой области. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный датасет ERDES имеет значительное практическое значение для медицинского сообщества. Он позволяет разработать и опробовать модели машинного обучения для автоматической диагностики ретинального детачмента и определения состояния макулы, что может существенно улучшить качество и скорость диагностики в клинической практике. Это особенно важно в ресурсно-ограниченных условиях, где квалифицированных специалистов часто не хватает для точной интерпретации ультразвуковых изображений. Датасет также открывает новые возможности для исследования и разработки новых методов диагностики на основе ультразвука, что может привести к новым технологическим решениям в области офтальмологии. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования был представлен первый открытый датасет ERDES для диагностики ретинального детачмента и оценки состояния макулы на основе ультразвуковых видеоклипов. Результаты показали высокий потенциал этого датасета для разработки моделей машинного обучения, которые могут автоматизировать процесс диагностики. В будущем предлагается продолжить исследования в этой области, включая разработку более точных моделей CNN, адаптированных к ультразвуковым данным, а также исследование других моделей машинного обучения, которые могут быть использованы для этой задачи. Также важно продолжить работу над расширением датасета ERDES и его применением в реальных клинических условиях для дальнейшего улучшения диагностики и лечения ретинального детачмента.

Annotation:

Retinal detachment (RD) is a vision-threatening condition that requires timely intervention to preserve vision. Macular involvement -- whether the macula is still intact (macula-intact) or detached (macula-detached) -- is the key determinant of visual outcomes and treatment urgency. Point-of-care ultrasound (POCUS) offers a fast, non-invasive, cost-effective, and accessible imaging modality widely used in diverse clinical settings to detect RD. However, ultrasound image interpretation is limited...

ID: 2508.04735v1 q-bio.QM, cs.AI

arXiv PDF

📄 FairPOT: Balancing AUC Performance and Fairness with Proportional Optimal Transport

2025-08-09

Авторы:

Pengxi Liu, Yi Shen, Matthew M. Engelhard, Benjamin A. Goldstein, Michael J. Pencina, Nicoleta J. Economou-Zavlanos, Michael M. Zavlanos

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время файрнесс (справедливость) алгоритмов прогнозирования стала ключевой проблемой в областях с высоким риском, таких как здравоохранение, финансы и правоохранительная система. Традиционно файрнесс оценивается на основе метрик, связанных с площадью под кривой характеристики (AUC), особенно когда речь идет̆ о рисковых оценках, а не о бинарных результатах. Однако существует значительный конфликт между достижением высокой AUC и обеспечением файрнесса между различными группами. Часто принудительное обеспечение справедливости приводит к значительному ухудшению качества модели, что ограничивает еӗ практическую применимость. Одним из ключевых вызовов является необходимость выравнивания распределений рисковых оценок между различными группами без существенного потерй в AUC. Эта проблема особенно остра в сферах, где решения имеют прямое влияние на жизнь людей, такие как диагностика заболеваний или определение кредитных рисков. Таким образом, необходим метод, который может балансировать эти две цели: сохранение высокой производительности модели и обеспечение справедливости распределений рисков. В свете этих вызовов, авторы предлагают метод Fair Proportional Optimal Transport (FairPOT), который предназначен для выравнивания распределений рисков между группами с помощью стратегического использования оптимального транспорта. Этот метод позволяет контролировать долю рисковых оценок, которые будут изменены, чтобы достичь оптимального баланса между файрнессом и производительностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД FairPOT представляет собой модельно-независимый пост-процессинговый фреймворк, который выравнивает распределения рисковых оценок между различными группами. Основная идея заключается в использовании оптимального транспорта для выравнивания распределений, но только для определенной доли (top-lambda квантиль) рисковых оценок в рамках неблагоприятной группы. Этот подход позволяет контролировать степень изменения распределений, что дает̆ возможность настроить баланс между файрнессом и AUC. Алгоритм FairPOT работает путем переназначения рисковых оценок в рамках неблагоприятной группы с помощью оптимального транспорта. Это позволяет достичь более справедливого распределения, при этом сохраняя высокую производительность модели. Метод также расширяется на partial AUC, что позволяет концентрировать файрнесс-интервенции на самых высоких рисках, что особенно важно в приложениях, где критично точно определять высокие риски. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследования на синтетических, публичных и клинических данных. Результаты показали, что FairPOT показывает лучшие результаты по сравнению с существующими пост-процессинговыми методами в обоих сценариях: глобальном AUC и partial AUC. Метод достигает значительного улучшения файрнесса с минимальным ухудшением AUC или даже с улучшением утилиты в некоторых случаях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FairPOT может быть применен в различных областях, где необходимо балансировать производительность и справедливость, таких как здравоохранение, финансы и правоохранительная система. Его высокая вычислительная эффективность и адаптивность делают его практически применимым в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FairPOT представляет собой значительный шаг вперёд в области файрнесс-оптимизации. Будущие исследования могут расширить этот подход на более сложные модели и дополнительные метрики файрнесса.

Annotation:

Fairness metrics utilizing the area under the receiver operator characteristic curve (AUC) have gained increasing attention in high-stakes domains such as healthcare, finance, and criminal justice. In these domains, fairness is often evaluated over risk scores rather than binary outcomes, and a common challenge is that enforcing strict fairness can significantly degrade AUC performance. To address this challenge, we propose Fair Proportional Optimal Transport (FairPOT), a novel, model-agnostic p...

ID: 2508.03940v1 cs.LG, cs.AI, cs.CY, stat.ML

arXiv PDF

📄 Constraint-Preserving Data Generation for Visuomotor Policy Learning

2025-08-09

Авторы:

Kevin Lin, Varun Ragunath, Andrew McAlinden, Aaditya Prasad, Jimmy Wu, Yuke Zhu, Jeannette Bohg

## КОНТЕКСТ И ПРОБЛЕМАТИКА Роботизированные манипуляции требуют высокого уровня точности и адаптивности, особенно в задачах, требующих взаимодействия с разнообразными объектами. Одной из ключевых проблем в этой области является сложность и высокая стоимость сбора демонстрационных данных для обучения политик визуомоторного управления (visuomotor policies). Традиционные подходы требуют многократного взаимодействия с реальными объектами, что затрудняет масштабирование и адаптацию к различным конфигурациям объектов. Одним из перспективных направлений решения этой проблемы является генерация демонстрационных данных в симуляции, которая позволяет создавать разнообразные сцены без необходимости физического взаимодействия. Однако существующие методы часто не учитывают геометрические особенности объектов или не обеспечивают сохранение ключевых констрантов (constraints), необходимых для успешного выполнения задачи. Это значительно ограничивает эффективность обучения политик и их генерализацию на реальные ситуации. Настоящая статья предлагает Constraint-Preserving Data Generation (CP-Gen) – инновационный подход, который решает эту проблему, создавая демонстрации, соответствующие геометрическим и позиционным особенностям объектов. CP-Gen основывается на использовании единственной экспертной траектории, из которой могут быть порождены множество новых демонстраций, сохраняющих ключевые констранты задачи. Такой подход позволяет обучать политики, которые эффективно работают в реальных условиях, не требуя дополнительных данных для каждой новой конфигурации. ## ПРЕДЛОЖЕННЫЙ МЕТОД CP-Gen основывается на декомпозиции экспертных траекторий на два компонента: свободные движения (free-space motions) и роботизированные навыки (robot skills). Основной новизной метода является формулировка роботизированных навыков как ограничений в виде траекторий киппоинтов (keypoints), которые должны соответствовать заданным справочным траекториям относительно задачи. Для генерации новых демонстраций CP-Gen выполняет следующие шаги: 1. **Преобразование позиций и геометрий объектов**: Алгоритм выбирает случайные преобразования для позиций и геометрий объектов, связанных с задачей. 2. **Применение преобразований к киппоинтам**: Киппоинты, связанные с роботом или объектом, адаптируются к новой геометрии и позиции. 3. **Оптимизация конфигураций**: Алгоритм оптимизирует конфигурации суставов робота таким образом, чтобы киппоинты робота или объекта соответствовали траекториям, полученным после преобразования. 4. **Планирование движения**: После оптимизации выполняется коллизионно-свободное планирование движения к первой оптимизированной конфигурации. Такой подход позволяет создавать разнообразные демонстрации, сохраняющие ключевые констранты задачи, несмотря на изменения в геометрии и положении объектов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на 16 симуляционных задачах и 4 реальных задачах, включая многоступенчатые, непредварительно захваченные (non-prehensile) и высокоточные (tight-tolerance) манипуляции. Результаты показали, что политики, обученные с помощью CP-Gen, достигают среднего уровня успешности в 77% случаев, превосходящих 50%, достигнутых лучшим базовым методом. Использование CP-Gen показало высокую эффективность в обучении политик, способных общаться в реальных условиях без необходимости дополнительных данных. Адаптивность метода к различным геометриям и позициям объектов демонстрирует его практическую применимость в сложных задачах манипуляции. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CP-Gen открывает новые возможности для эффективного обучения визуомоторных политик в задачах манипуляции. Его способность создавать разнообразные демонстрации на основе единственной экспертной траектории значительно сокращает стоимость и время, необходимые для сбора данных. Практические области применения включают: - **Индустриальные роботы**: Автоматизация сложных манипуляций с разнообразными объектами. - **Медицинские роботы**: Адаптивность к различным анатомическим конфигурациям. - **Домашние роботы**: Улучшение взаимодействия с нестандартными предметами в домашних условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данной работы является разработка CP-Gen – метода, который позволяет генерировать демонстрации, сохраняющие констранты задачи, и обучать политики, эффективные в реальных условиях. Будущие исследования могут фокусироваться на расширении метода для более сложных задач, таких как многоagent сцены, и использовании более сложных моделей для улучшения генерации демонстраций.

Annotation:

Large-scale demonstration data has powered key breakthroughs in robot manipulation, but collecting that data remains costly and time-consuming. We present Constraint-Preserving Data Generation (CP-Gen), a method that uses a single expert trajectory to generate robot demonstrations containing novel object geometries and poses. These generated demonstrations are used to train closed-loop visuomotor policies that transfer zero-shot to the real world and generalize across variations in object geomet...

ID: 2508.03944v1 cs.RO, cs.AI

arXiv PDF

📄 Policy to Assist Iteratively Local Segmentation: Optimising Modality and Location Selection for Prostate Cancer Localisation

2025-08-09

Авторы:

Xiangcen Wu, Shaheer U. Saeed, Yipei Wang, Ester Bonmati Coll, Yipeng Hu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Диагностика рака простаты требует тщательного анализа медицинских изображений, таких как многопараметрическая МРТ (mpMRI). Радиологи часто используют комбинированные стратегии чтения изображений, включая просмотр отдельных модальностей и локальных регионов изображения. Они анализируют информацию из разных изображений и разных регионов как независимо, так и одновременно, чтобы точно определить местоположение опухолей. Тем не менее, эта задача часто является высокосубъективной и трудоемкой, особенно при наличии сложной патологии. Существующие модели машинного обучения для сегментации опухолей часто используют всю доступную информацию из всех модальностей одновременно, что может привести к неэффективному использованию данных. Требуется более интеллектуальный подход, который мог бы оптимизировать процесс выбора модальностей и локализации регионов для анализа. Такой подход мог бы повысить эффективность аннотации и улучшить точность сегментации, особенно в случаях сложной патологии. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается система политик (policy network), которая помогает сегментационным моделям машинного обучения путем рекомендации наиболее подходящих изображений и регионов для анализа. Эта система обучается выбора оптимальной модальности и конкретных сегментов изображений, которые должны быть проанализированы для максимизации точности сегментации рака простаты. При обучении используется предварительно обученная модель сегментации, которая имитирует действия радиологов, просматривая отдельные модальности или их комбинации, выбранные политикой. На основе выбранных регионов выполняется локальная сегментация, и результаты используются в качестве входа для следующего цикла рекомендаций. Этот итеративный процесс продолжается до тех пор, пока все опухоли не будут точно локализованы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода использовалась база данных из 1325 меткированных mpMRI-изображений пациентов с раком простаты. Эксперименты показали, что предлагаемый подход может значительно улучшить качество сегментации и эффективность аннотации, особенно при сложной патологии. Результаты демонстрируют, что система политик может превосходить стандартные сегментационные модели, особенно в случаях, когда существуют труднодиагностируемые опухоли. Интересно то, что обученная политика разработала собственную стратегию выбора модальностей и регионов, которая может отличаться от текущих клинических рекомендаций, таких как PI-RADS. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в клинической практике. Он может повысить эффективность работы радиологов, помогая им сосредоточиться на наиболее релевантных регионах и модальностях. Это может существенно сократить время, необходимое для аннотации и диагностики. Кроме того, предложенная система может быть использована в интерактивных приложениях, где она будет помогать радиологам в реальном времени, оптимизируя процесс диагностики. Это может способствовать улучшению качества медицинского обследования и уменьшению вероятности пропуска опухолей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Представленный метод демонстрирует высокую эффективность в оптимизации процесса локализации рака простаты. Он не только улучшает точность сегментации, но и позволяет разрабатывать новые стратегии анализа, которые могут быть интегрированы в клиническую практику. В будущем могут быть исследованы возможности дальнейшей интеграции таких политик в клинические рабочие процессы, а также исследования того, как они могут сотрудничать с радиологами в интерактивном режиме для улучшения диагностики.

Annotation:

Radiologists often mix medical image reading strategies, including inspection of individual modalities and local image regions, using information at different locations from different images independently as well as concurrently. In this paper, we propose a recommend system to assist machine learning-based segmentation models, by suggesting appropriate image portions along with the best modality, such that prostate cancer segmentation performance can be maximised. Our approach trains a policy ne...

ID: 2508.03953v1 cs.CV, cs.AI

arXiv PDF

1
2
3366
3367
3368
3369
3370
3402
3403

Показано 33671 - 33680 из 34022 записей