📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Hyungjin Chung, Hyelin Nam, Jiyeon Kim, Hyojun Go, Byeongjun Park, Junho Kim, Joonseok Lee, Seongsu Ha, Byung-Hoon Kim

#### Контекст Видео Large Language Models (VideoLLMs) широко применяются для обработки видео, но сталкиваются с ограничениями в хранении контекста и вычислительной сложностью при работе с большим числом кадров. Обычный подход — увеличить контекстную ширину — приводит к высоким затратам ресурсов и ухудшению качества распознавания. Это приводит к ситуации, когда модели не могут надежно обрабатывать тесно связанные сценарии, что ограничивает их эффективность в реальном мире. В этом контексте возникает необходимость развития методов, позволяющих улучшить временную разрешаемость VideoLLMs без увеличения объема контекста. #### Метод Мы предлагаем Video Parallel Scaling (VPS) — метод, который расширяет полость визуального понимания VideoLLMs без увеличения контекста. VPS работает путем выполнения нескольких параллельных потоков инференса, каждый из которых обрабатывает отдельный, непересекающийся набор кадров видео. Эти потоки взаимодействуют в процессе вывода, агрегируя вероятностные репрезентации всех потоков. Это позволяет модели обрабатывать больший объем визуальных сигналов. Теоретически, мы доказали, что VPS эффективно уменьшает требования к ресурсам, справляясь с проблемами, связанными с длинным контекстом. Метод может быть легко интегрирован с разными моделями и декодинговыми стратегиями. #### Результаты Мы проводили эксперименты на нескольких моделях VideoLLMs различных размеров (от 2 миллиардов до 32 миллиардов параметров) на таких бенчмарках, как Video-MME и EventHallusion. Результаты показывают, что VPS постоянно улучшает вычислительные показатели и качество распознавания, сравниваясь с другими методами, такими как Self-consistency. Он демонстрирует повышенную эффективность в распознавании сложных сценариев, демонстрируя лучшую стабильность и обработку данных. Кроме того, VPS является выгодным дополнением к другим методам, таким как шифтинг и самоконспиративные стратегии. #### Значимость VPS имеет широкие перспективы применения в области видеоанализа, включая мониторинг, сегментацию и синтез видео. Он обеспечивает более точное распознавание длинных и сложных видео, а также значительно экономит ресурсы. Избегая дорогостоящих вычислений при увеличении контекста, VPS позволяет моделям быть более удобными для использования в реальном времени. Этот подход может улучшить возможности видеомоделей для видеомониторинга, синтеза анимации и других важных задач. #### Выводы VPS доказал свою эффективность в различных видеомоделях, повысив способность обработки видео. Наши результаты открывают новые возможности для улучшения темпоральных моделей и интеллектуального видеопроцессинга. Мы планируем
Annotation:
Video Large Language Models (VideoLLMs) face a critical bottleneck: increasing the number of input frames to capture fine-grained temporal detail leads to prohibitive computational costs and performance degradation from long context lengths. We introduce Video Parallel Scaling (VPS), an inference-time method that expands a model's perceptual bandwidth without increasing its context window. VPS operates by running multiple parallel inference streams, each processing a unique, disjoint subset of t...
ID: 2509.08016v1 cs.CV, cs.LG
Авторы:

Avais Jan, Qasim Zia, Murray Patterson

## Контекст В последние годы технология Digital Twin (DT) набирает всё большую популярность в медицине, особенно в области диагностики на основе изображений. Одним из ключевых приложений является анализ компьютерно-томографических (CT) сканов. Однако эта область сталкивается с рядом проблем, такими как высокий порог приватности данных, нехватка вычислительных ресурсов и разнообразие данных. Дополнительно, традиционные методы машинного обучения часто сталкиваются с проблемами, связанными с независимостью и идентичностью распределения данных (IID). Эти ограничения приводят к низкой точности моделей, предсказаниям, нежелательному влиянию на решения в области медицины и, в конечном итоге, к неэффективности в медицинской практике. Необходимо развитие методов, которые могут улучшить точность, защищать конфиденциальность и эффективно использовать ресурсы. Federated Transfer Learning (FTL) предлагается как новая модель для решения этих проблем в контексте DT-based CT scan analysis. ## Метод Federated Transfer Learning (FTL) — это новая архитектура, которая использует предварительно обученные модели и знания, передаваемые между узлами в федеративной сети. В этой работе, мы применяем FTL к анализу CT-сканов в контексте Digital Twin-enabled systems. Методология FTL включает в себя несколько этапов: 1. **Начальная обученная модель**: Мы используем предварительно обученные модели, которые способны эффективно обрабатывать разные типы данных. 2. **Федеративное обучение**: Узлы (например, Digital Twin-enabled CT scanners) обмениваются знаниями, чтобы улучшить модели, не раскрывая личные данные. 3. **Трансфер знаний**: Модели, обученные на одном узле, могут быть переданы другим узлам для улучшения общей точности. 4. **Приватность и безопасность**: Мы используем технологии хэширования и анонимности, чтобы защитить идентичность пациентов и сделать процесс безопасным. Технически, FTL использует алгоритмы, подобные Federated Averaging, но с дополнительными механизмами для улучшения точности и эффективности. ## Результаты Мы проводили эксперименты на независимой нейрологической CT-данных, чтобы оценить точность, трансфер знаний и время вывода. Мы сравнили FTL с традиционными методами, такими как Federated Learning (FL) и Clustered Federated Learning (CFL). Наши результаты показали, что FTL показывает лучшую точность, при этом уменьшая время обучения и улучшая понимание данных. Мы использовали метрики, такие как precision, recall, F1-score и confusion matrix. Также, мы оценили время вывода, что позволило нам понять, как FTL решает проблему реального времени в медицинской практике. ## Значимость FTL предлагает ряд преимуществ в различных сферах. В первую очередь, он обеспе
Annotation:
The application of Digital Twin (DT) technology and Federated Learning (FL) has great potential to change the field of biomedical image analysis, particularly for Computed Tomography (CT) scans. This paper presents Federated Transfer Learning (FTL) as a new Digital Twin-based CT scan analysis paradigm. FTL uses pre-trained models and knowledge transfer between peer nodes to solve problems such as data privacy, limited computing resources, and data heterogeneity. The proposed framework allows rea...
ID: 2509.08018v1 eess.IV, cs.CV, cs.LG
Авторы:

Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn

## Контекст Диагностическая радиология становится все более зависимость от искусственного интеллекта (ИИ), но существуют значительные проблемы с интерпретируемостью нейронных сетей. Особенно это актуально в области классификации больничных пластин (Chest X-rays), где необходимо определять и выявлять различные заболевания. Несоответствие между высокой точностью и надежной интерпретаторностью традиционных моделей препятствует их клиническому применению. Мотивацией для разработки MedicalPatchNet является необходимость в модели, которая не только будет доступна в клинической практике, но и обеспечит транспарентные и доступные для понимания выводы в реальном времени. ## Метод MedicalPatchNet — это архитектура, основанная на патчах, с самообъясняемым подходом к классификации больничных пластин. Она разбивает изображение на непересекающиеся патчи и использует отдельные нейронные сети для классификации каждого отдельного патча. Затем модель агрегирует выводы отдельных патчей в общий вывод. Это позволяет транспарентно визуализировать вклад каждого патча в общий диагностический процесс. Модель обучается на CheXpert — большом датасете, содержащем 223,414 изображений. Она использует архитектуру EfficientNet-B0 для решения задачи классификации и добавляет возможность самообъяснения в базовую модель. ## Результаты В тестировании, проведенном на CheXpert, MedicalPatchNet показала точность, аналогичную EfficientNet-B0 (AUROC 0.907 vs. 0.908), но обеспечила значительно лучшую интерпретируемость. Модель достигла высокой точности локализации заболеваний (mean hit-rate 0.485) на CheXlocalize, что значительно превосходит Grad-CAM (0.376). Эта улучшенная интерпретаторность позволяет достичь четкого понимания, как каждый патч вкладывается в классификацию изображения. ## Значимость MedicalPatchNet может применяться в различных областях медицинских изображений, где необходимо обеспечить высокую точность, но также требуется прозрачность в диагностических выводах. Особенно она может снизить риски, связанные с shortcut learning, улучшив доверие к нейронным сетям в клинической практике. Это модель с открытым кодом, полностью доступна для обучения и проверки в реальном времени, что делает ее привлекательной для разработчиков и клинических практиков. ## Выводы MedicalPatchNet представляет собой перспективную модель для самообъясняемого ИИ в диагностике, обеспечивая визуально понятные и достоверные выводы для клинического применения. Будущие исследования будут направлены на дальнейшее улучшение точности и применение модели к другим медицинским изображениям, чтобы расширить ее возможности и помочь в
Annotation:
Deep neural networks excel in radiological image classification but frequently suffer from poor interpretability, limiting clinical acceptance. We present MedicalPatchNet, an inherently self-explainable architecture for chest X-ray classification that transparently attributes decisions to distinct image regions. MedicalPatchNet splits images into non-overlapping patches, independently classifies each patch, and aggregates predictions, enabling intuitive visualization of each patch's diagnostic c...
ID: 2509.07477v1 cs.CV, cs.LG
Авторы:

Himanshu Singh, A. V. Subramanyam, Shivank Rajput, Mohan Kankanhalli

#### Контекст Deep neural networks (DNNs) показали выдающуюся производительность в задачах классификации изображений, однако остаются уязвимы к адверсарному машинному обучению. Традиционные методы укрепления обучения, такие как standard adversarial training, увеличивают общую устойчивость сетей к атакам, но часто игнорируют важный фактор — интер-классовые зависимости в пространстве признаков. Эти зависимости значительно снижают устойчивость сетей к адверсарным примерам. Наша работа посвящена исследованию этих зависимостей и использованию эффективных методов для их устранения в процессе обучения. Мы предлагаем новую архитектуру, которая активно решает проблему интер-классовой приближенности в многоклассовых классификационных задачах. #### Метод В нашей работе мы предлагаем процедуру, которая сначала определяет ближайших интер-классовых соседей для каждого примера в адверсарном и чистном пространстве признаков. Затем мы исключаем проекции примеров на эти соседние признаки, чтобы улучшить разделение классов. Для того чтобы уменьшить влияние интер-классовой приближенности, мы применяем логитс-коррекцию. Это позволяет уменьшить липшицев константу нейронных сетей и, как следствие, снизить Rademacher-сложность, что улучшает общее качество и устойчивость модели. Мы используем алгоритмы, которые могут быть интегрированы в существующие архитектуры DNN без существенных изменений. #### Результаты Мы провели эксперименты на стандартных датасетах CIFAR-10, CIFAR-100 и SVHN. Наши результаты показали, что предложенная модель демонстрирует высокую точность как в Attack-проверочных, так и в чистых условиях. Мы сравнили нашу модель с другими методами укрепления обучения, такими как TRADES и FreeAdversarialTraining. Наше решение показало себя сильно, стабильно превосходя многие конкурирующие элементы. Мы также проанализировали свойства обученных моделей, такие как Rademacher и Lipschitz-сложность, и показали, что наше решение выгодно влияет на небольшой Rademacher-сложность, что повышает устойчивость к адверсарным примерам. #### Значимость Предлагаемый подход может быть применен во многих областях, где необходима высокая устойчивость к адверсарным примерам, таких как безопасность в системах по отделению изображений в полевых условиях, системы распознавания образов в медицине, а также в системах автоматической диагностики. Наш подход имеет несколько преимуществ перед существующими методами: он не только повышает устойчивость к адверсарным примерам, но и сохраняет высокую точность в чистых условиях. Это может существенно влиять на будущие развития в области машинного обучения, по
Annotation:
Deep neural networks have exhibited impressive performance in image classification tasks but remain vulnerable to adversarial examples. Standard adversarial training enhances robustness but typically fails to explicitly address inter-class feature overlap, a significant contributor to adversarial susceptibility. In this work, we introduce a novel adversarial training framework that actively mitigates inter-class proximity by projecting out inter-class dependencies from adversarial and clean samp...
ID: 2509.07673v2 cs.CV, cs.LG, 68T45 (Primary), 68T10 (Secondary), I.5.4
Авторы:

Rafał Osadnik, Pablo Gómez, Eleni Bohacek, Rickbir Bahia

## Контекст Марс является целью многочисленных исследований, в том числе в области геодезии и геологии, которые стремятся понять структуру и формирование его поверхности. Одним из ключевых задач в этой области является построение цифровых моделей высот (DEM), которые представляют визуальную и физическую структуру ландшафта. Однако, удаленное просмотром Земли недостаточно для полного понимания Марса. Более того, процессы построения DEM часто связаны с проблемами, такими как недостаточная детализация, артефакты данных и пропуски в данных. Эти ограничения влияют на качество исследований. Мы предлагаем MCTED — новую машино-обучаемую выборку, готовую к применению в задачах построения DEM на Марсе. Она создана с помощью сложной конвейерной обработки, основанной на высококачественных данных от Mars Reconnaissance Orbiter (MRO). MCTED предлагает решение для обнаружения и устранения проблем, которые часто возникают при построении DEM. ## Метод MCTED была построена с использованием высококачественного набора данных от MRO, содержащий изображения и DEM-модели. Мы разработали уникальный конвейер, который позволяет обрабатывать эти данные, устраняя артефакты и заполняя пропуски. Данные были разбиты на разделы для обучения и валидации, чтобы избежать зашумления данных и поддержать обучение точных моделей. Каждая выборка в MCTED состоит из изображения, DEM-модели и масок, указывающих на пропуски и изменения. Мы оптимизировали процесс обработки и подготовки данных, чтобы обеспечить их готовность для машинного обучения. ## Результаты Мы проводили эксперименты с целью оценки качества MCTED. Наши эксперименты показали, что даже небольшая модель, обученная на этом наборе, выдает лучшие результаты по сравнению с более сложным базовым моделью DepthAnythingV2. Мы также проверили распределение высот, значения склонности и другие статистические характеристики, чтобы продемонстрировать широту областей применения данных. Результаты подтвердили, что MCTED является эффективным инструментом для обучения моделей DEM на Марсе с минимальными ограничениями. ## Значимость Мы видим применение MCTED в различных областях, включая геологические исследования, моделирование климата и планирование миссий на Марсе. Этот набор данных предоставляет уникальные возможности для повышения точности и скорости построения DEM. Мы также отмечаем, что открытый доступ к данным и коду позволит сообществу работать над развитием новых моделей и методов. ## Выводы MCTED является новым ресурсом для построения DEM на Марсе, который решает многие проблемы, связанные с обработкой данных. Мы нашли, что даже небольшие модели, обученные на этом наборе, превосходят более сложные модели, таки
Annotation:
This work presents a new dataset for the Martian digital elevation model prediction task, ready for machine learning applications called MCTED. The dataset has been generated using a comprehensive pipeline designed to process high-resolution Mars orthoimage and DEM pairs from Day et al., yielding a dataset consisting of 80,898 data samples. The source images are data gathered by the Mars Reconnaissance Orbiter using the CTX instrument, providing a very diverse and comprehensive coverage of the M...
ID: 2509.08027v1 cs.CV, cs.LG
Авторы:

Sachit Menon, Ahmet Iscen, Arsha Nagrani, Tobias Weyand, Carl Vondrick, Cordelia Schmid

#### Контекст Видеопонимание получило значительный прорыв в последние годы, с улучшением производительности моделей в задачах восприятия коротких видеоклипов. Однако недавние бенчмарки, такие как LVBench, Neptune и ActivityNet-RTL, показывают, что производительность снижается при обработке задач, требующих сложного рассуждения над видео. Это происходит в силу усложнения запросов и увеличения длины видео. В данной работе мы задаем следующий вопрос: могут ли существующие возможности видеопонимания быть эффективно использованы для решения более сложных задач видеорассуждения? Мы предлагаем развить агента, основывающегося на большом языковом модели, и использующего модули видео-понимания в качестве подагентов или инструментов. Наш агент определяет последовательность действий не по фиксированной схеме, как в таких работах, как Visual Programming, ViperGPT и MoReVQA, а исходя из результатов каждого вызова модуля. Мы вдохновились подходом, используемым в текстовом рассуждении, и внедрили критика, который отличает успешные от неудачных последовательностей действий. Мы продемонстрировали, что комбинация агента и критика показывает высокую производительность на упомянутых данных. #### Метод Мы предлагаем **CAViAR (Critic-Augmented Video Agentic Reasoning)**, который состоит из двух компонентов: **агента** и **критика**. Агент использует модули видео-понимания для выполнения задач по рассуждению над видео. Он работает по принципу рекурсивного вызова модулей, определяя последовательности действий на основе результатов каждого вызова. Критик, в свою очередь, анализирует результаты каждого шага и выявляет, насколько соответствуют они успешному завершению задачи. Мы реализовали несколько моделей, включая **CLIP** и **ViT** в качестве модулей видео-понимания, и использовали **LLM-based agent** для управления последовательностью. Также мы разработали новую архитектуру, которая позволяет связать сложные задачи видеопонимания с моделями текстового понимания. #### Результаты Мы провести эксперименты на трех популярных датасетах: LVBench, Neptune и ActivityNet-RTL. Наш агент с критиком показал значительное улучшение в сравнении с предыдущими подходами. Мы оценили производительность по следующим метрикам: **F1-score**, **accuracy** и **recall**. В результате CAViAR был в состоянии решать задачи сложного рассуждения, в том числе над длинными видео, с более высокой точностью. Мы также провёл эксперименты с разными конфигурациями модулей видео-понимания и показали, что наша архитектура гибко адаптируется к различным ситуациям. #### Значимость Результаты CAViAR открывают новые возможности для сложного видео-рассуждения. Мы показали, что
Annotation:
Video understanding has seen significant progress in recent years, with models' performance on perception from short clips continuing to rise. Yet, multiple recent benchmarks, such as LVBench, Neptune, and ActivityNet-RTL, show performance wanes for tasks requiring complex reasoning on videos as queries grow more complex and videos grow longer. In this work, we ask: can existing perception capabilities be leveraged to successfully perform more complex video reasoning? In particular, we develop a...
ID: 2509.07680v1 cs.CV, cs.LG
Авторы:

Faisal Ahmed

#### Контекст Обработка зрительных снимков, таких как рентгеновские снимки (CXR), является ключевым инструментом в диагностике многих заболеваний, в том числе туберкулеза (TB) и нозокомиальной пневмонии. Несмотря на то, что традиционные методы машинного обучения, такие как действующие поля (CNN), достигли значительных успехов в этой области, последние развития в области трансформеров (ViT) показали свое потенциал для автоматизированного анализа медицинских изображений. Однако, существующие ViTs, предназначенные для трех-канальных изображений (RGB), не могут напрямую обрабатывать отдельные (grayscale) CXR снимки без дополнительных модификаций. Это ограничение может привести к неэффективному использованию моделей. Данное исследование направлено на решение этой проблемы, предлагая стратегию репликации каналов (RepViT-CXR), которая позволяет адаптировать CXR к требованиям ViTs без потери информации. #### Метод RepViT-CXR предлагает простую, но эффективную стратегию для адаптации CXR к ViT-моделям. Основная идея заключается в репликации сигнала канала (сглаживание значений пикселей) для создания имитированного трех-канального формата, который может быть просто вставлен в стандартную архитектуру ViT. Эта стратегия позволяет использовать существующие ViTs, не требуя изменений в их основной иерархии или предварительной обработке. Для оценки модели использованы данные из трех открытых баз данных: TB-CXR, Pediatric Pneumonia и Shenzhen TB. Методы оценки включали различные метрики, такие как точность, перенос, значимость и AUC. #### Результаты На TB-CXR датасете, RepViT-CXR достигла ошибки в диагностике 0.1% (accuracy 99.9%) и AUC 99.9%, превосходя лучшие результаты предыдущих работ (Topo-CXR, 99.3% accuracy, 99.8% AUC). На Pediatric Pneumonia данные показали accuracy 99.0%, recall 99.2%, precision 99.3% и AUC 99.0%, намного превосходя DCNN и VGG16. На Shenzhen TB датасете, RepViT-CXR показала accuracy 91.1% и AUC 91.2%, значительно улучшив результаты выдачи предыдущих CNN-based моделей. Эти результаты подтверждают высокую эффективность RepViT-CXR в классификации туберкулеза и пневмонии на основе CXR. #### Значимость RepViT-CXR может быть применена в области диагностики TB и пневмонии, существенно повысив точность и скорость таких процессов. Также, модель доказала свою эффективность на разных датасетах, что делает её универсальным инструментом для медицинского анализа. Помимо этого, RepViT-CXR может быть использована в разработке более широкого класса моделей для других медицинских изображений, требующих адаптации ViT к градациям с
Annotation:
Chest X-ray (CXR) imaging remains one of the most widely used diagnostic tools for detecting pulmonary diseases such as tuberculosis (TB) and pneumonia. Recent advances in deep learning, particularly Vision Transformers (ViTs), have shown strong potential for automated medical image analysis. However, most ViT architectures are pretrained on natural images and require three-channel inputs, while CXR scans are inherently grayscale. To address this gap, we propose RepViT-CXR, a channel replication...
ID: 2509.08234v1 cs.CV, cs.LG, F.2.2; I.2.7
Авторы:

Payal Varshney, Adriano Lucieri, Christoph Balada, Sheraz Ahmed, Andreas Dengel

## Контекст Видео-базированные AI-системы находят применение в критически важных областях, таких как автономное вождение и медицина. Однако понимание их решений остается сложной задачей из-за сложности спектрально-временных характеристик видеоданных и непрозрачности глубоких нейронных сетей. Текущие методы объяснения решений часто страдают от недостатка временной когерентности, низкой устойчивости и отсутствия действительно каузальных здравых смыслов. Методы объяснения контрафактными примерами обычно не используют подсказки от целевой сети, что приводит к понижению точности и практической ценности. Мы предлагаем LD-ViCE — новую систему, основанную на Latent Diffusion Model, для генерации контрафактных объяснений видео. Наш подход уменьшает затраты вычислительных ресурсов за счет работы в латентном пространстве и обеспечивает реалистичные и понятные контрафактные объяснения с помощью дополнительного шага рефинейма. ## Метод LD-ViCE использует стандартный Diffusion Model (DDPM) для создания контрафактных видео, но работает в латентном пространстве для эффективности. Он принимает как вход видео-сценарий и выход модели, а также дополнительные параметры, такие как временная длительность и целевые значения. LD-ViCE проводит итеративное изменение кадров видео, чтобы получить контрафактные сценарии, которые не только реалистичны, но и полностью вызваны моделью. Основные этапы: 1. Изменение латентных представлений на основе сценария. 2. Оптимизация целевых значений с помощью градиентного поиска. 3. Шаг рефинейма для повышения качества и реалистичности выхода. Этот подход оптимизирует сбалансированность между точностью и реалистичностью, позволяя генерировать целые видео-объяснения с низкими затратами. ## Результаты LD-ViCE протестирован на трех различных наборах данных: EchoNet-Dynamic (ультразвуковые снимки сердца), FERV39k (лицевые выражения) и Something-Something V2 (распознавание действий). Он показал значительные преимущества по сравнению с современными методами: - **R2-score**: +68% по сравнению с состоянием искусства. - **Inference Time**: -50%. Квалитативные анализы показали, что LD-ViCE генерирует видео-объяснения, которые не только реалистичны, но и обладают высокой семантической когерентностью. Этот подход демонстрирует высокую ценность для развития надежных AI-систем в критически важных областях. ## Значимость LD-ViCE может использоваться во многих критически важных областях, таких как медицина, движение и видео-аналитика. Его преимущества заключаются в том, что он обеспечивает более точные, реалистичные и понятные объяснения, что повышает доверие к AI-системам.
Annotation:
Video-based AI systems are increasingly adopted in safety-critical domains such as autonomous driving and healthcare. However, interpreting their decisions remains challenging due to the inherent spatiotemporal complexity of video data and the opacity of deep learning models. Existing explanation techniques often suffer from limited temporal coherence, insufficient robustness, and a lack of actionable causal insights. Current counterfactual explanation methods typically do not incorporate guidan...
ID: 2509.08422v1 cs.CV, cs.LG
Авторы:

Mathilde Monvoisin, Louise Piecuch, Blanche Texier, Cédric Hémon, Anaïs Barateau, Jérémie Huet, Antoine Nordez, Anne-Sophie Boureau, Jean-Claude Nunes, Diana Mateus

## Контекст Одним из актуальных направлений в развитии медицинской информатики является автоматизация трудоемких медицинских процессов, таких как 3D-сегментация объектов на медицинских сканах. Эти задачи, такие как определение органов на смертельных рисках или измерение мышечной массы при саркопении, требуют особых навыков и времени, что чревато высокой нагрузкой для медицинских работников. Несмотря на прогрессы в автоматизации, комплексные задачи в силу своей сложности до сих пор требуют значительного вмешательства человека. Это приводит к увеличению времени обработки и повышению риска ошибок. Наша мотивация заключается в создании метода, который сможет значительно уменьшить трудоёмкость ручного сегментирования, оптимизировав процесс и уменьшив его влияние на медицинских специалистов. ## Метод Метод предлагает использовать **implicit shape prior** для сегментации 3D-объектов, основываясь на спарсе мануальными интерактивными аннотациями. Мы разработали алгоритм, который автоматически выбирает самые информативные срезы для сегментации, уменьшая необходимость вручную выбирать сегментируемые срезы. Это позволяет значительно сократить время, затрачиваемое на сегментацию, и ослабить необходимость в ручной работе. Метод может быть применен как к органам угрожающим жизни, так и к новым базам данных для медицинских исследований. ## Результаты Мы проверили эффективность нашего метода на двух медицинских случаях: 1) сегментации органов угрожающих жизни в контексте раку головного мозга и 2) создании нового базы данных для исследования мышечной массы у пациентов с саркопенией. В первом случае визуальная оценка показала, что метод значительно улучшает точность сегментации. Во втором — он ускорил процесс создания базы данных, позволив медики сосредоточиться на других задачах. ## Значимость Наш метод может быть применен в разных областях, включая мониторинг саркопении, сегментацию органов в тяжелых случаях, и статистическое исследование медицинских данных. Он уменьшает скорость обработки и повышает точность, что может существенно повысить качество медицинского знания и снизить нагрузку на специалистов. ## Выводы Мы представили метод, который значительно сокращает время и усилия, необходимые для 3D-сегментации в медицине. Необходимо дальнейшие исследования, чтобы расширить применение наших решений и протестировать их на более широком спектре медицинских задач.
Annotation:
The objective of this paper is to significantly reduce the manual workload required from medical professionals in complex 3D segmentation tasks that cannot be yet fully automated. For instance, in radiotherapy planning, organs at risk must be accurately identified in computed tomography (CT) or magnetic resonance imaging (MRI) scans to ensure they are spared from harmful radiation. Similarly, diagnosing age-related degenerative diseases such as sarcopenia, which involve progressive muscle volume...
ID: 2509.08580v1 cs.CV, cs.LG
Авторы:

Stefan Podgorski, Sourav Garg, Mehdi Hosseinzadeh, Lachlan Mares, Feras Dayoub, Ian Reid

## Контекст Визуальная навигация в робототехнике традиционно основывается на глобально консистентных 3D-картах или обученных контроллерах, что часто требует высоких вычислительных ресурсов и сложности при общей пригодности для различных сред. Однако, существуют ситуации, когда использование 3D-карт или предварительно обученных контроллеров невозможно или неэффективно. Например, в новых и неизвестных окружениях, где недостаточно данных для обучения, или при работе с ограниченными вычислительными ресурсами. Было протестировано множество подходов, ориентированных на решение этих проблем, но они либо требуют доступа к 3D-картам, либо зависят от уже обученных моделей. Данная работа предлагает новую модель, которая объединяет локальный метрический контроль и глобальный топологический планирование, предлагая новый подход к визуальной навигации в открытых средах. ## Метод Метод TANGO (Traversability-Aware Navigation with Local Metric Control for Topological Goals) объединяет глобальное топологическое планирование с локальным метрическим контролем траектории. Глобальный планировщик определяет оптимальный топологический путь к цели, а локальный контроллер управляет метрической траекторией в реальном времени, используя распознавание объектов и оценку траверсабильности. Для снижения вычислительных затрат и повышения универсальности метод использует монокулярное глубинообнаружение и траверсабильность с использованием технологии фундаментальных моделей, что позволяет адаптироваться к новым средам без дополнительного обучения. Также внедрена механика автоматического переключения на базовый контроллер при выявлении нехватки данных или ошибках в планировании. ## Результаты Метод был протестирован в симуляционных и реальных окружениях. Были проведены эксперименты с различными средами, в том числе домашними помещениями и открытыми пространствами. Результаты показали, что TANGO эффективно решает задачи визуальной навигации в открытых средах, превосходя существующие методы по точности, универсальности и реальному развертыванию. Измерения показали, что TANGO обеспечивает высокую точность в достижении топологических целей, даже при неоднородных условиях видимости и объектной среды. ## Значимость Метод TANGO имеет широкое применение в различных областях робототехники, включая домашнюю автоматизацию, поиск и спасение, а также промышленную робототехнику. Его преимущества заключаются в том, что он не требует дополнительного обучения для каждой среды, имеет высокую универсальность и может работать в реальном времени с минимальными вычислительными ресурсами. Этот подход может существенно расширить
Annotation:
Visual navigation in robotics traditionally relies on globally-consistent 3D maps or learned controllers, which can be computationally expensive and difficult to generalize across diverse environments. In this work, we present a novel RGB-only, object-level topometric navigation pipeline that enables zero-shot, long-horizon robot navigation without requiring 3D maps or pre-trained controllers. Our approach integrates global topological path planning with local metric trajectory control, allowing...
ID: 2509.08699v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY
Показано 611 - 620 из 835 записей