📚 Саммари научных статей из arXiv

Найдено 837 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Tailored Transformation Invariance for Industrial Anomaly Detection

2025-09-24

Авторы:

Mariette Schönfeld, Wannes Meert, Hendrik Blockeel

## Контекст Индустриальное обнаружение аномалий (Industrial Anomaly Detection, IAD) является подпроблемой в области компьютерного зрения и анализа данных, которая привлекает все больше уважения благодаря своей применимости в реальных сценариях. Несмотря на то, что аномалии могут оказаться критичными для производственных процессов, существуют значительные проблемы в удачном их обнаружении, в том числе в технической сложности и высокой стоимости вычислительных ресурсов. Достоверные методы обнаружения аномалий требуют больших объемов данных и высокой точности, но часто требуют излишне сложных моделей. Недавние исследования показали, что многие методы, основанные на трансформациях преобразований, оказываются слишком дорогими для реального применения. Таким образом, возникает потребность в создании более эффективных моделей, которые могут обеспечить баланс между производительностью и точностью. ## Метод Мы предлагаем **LWinNN** (Local Window-based Neural Network), новую архитектуру, которая сочетает мощь локальных оконных методов с трансформациями преобразований. Основная идея заключается в том, чтобы создать гибридные модели, которые обеспечивают трансформацию поверхности с использованием ограниченного количества данных. Мы используем специальную архитектуру нейронных сетей, которая может учитывать локальные паттерны в изображениях, при этом учитывая только малые трансформации. Эта модель позволяет нам достигнуть высокой точности при обнаружении аномалий, при этом сократив время обучения и тестирования. Мы используем данные из открытых источников, таких как CIFAR-10 и MNIST, для тренировки и тестирования нашей модели. Модель состоит из нескольких слоев, включая сверточные слои, полносвязные слои и активационные функции, чтобы обеспечить трансформацию в пределах ограниченного пространства. ## Результаты Мы провести комплексный эксперимент, который включает в себя сравнение нашей модели с двумя современными подходами: kNN и State-of-the-art. Мы проводили эксперименты на двух разных наборах данных: CIFAR-10 и MNIST. Результаты показали, что наша модель **LWinNN** показала значительное увеличение точности во всех наборах данных, сократив время обучения и тестирования в 2 раза по сравнению с классическими kNN-методами. Это означает, что наш подход не требует такого большого объема данных и вычислительных ресурсов, что делает его более эффективным для реального применения. Кроме того, наша модель обеспечивает значительное улучшение качества обнаружения аномалий в сравнении с другими подходами, которые, в свою очередь, показывают менее эффективные результаты. ## Значимость Наш подход может быть применен в раз

Annotation:

Industrial Anomaly Detection (IAD) is a subproblem within Computer Vision Anomaly Detection that has been receiving increasing amounts of attention due to its applicability to real-life scenarios. Recent research has focused on how to extract the most informative features, contrasting older kNN-based methods that use only pretrained features. These recent methods are much more expensive to train however and could complicate real-life application. Careful study of related work with regards to tra...

ID: 2509.17670v1 cs.CV, cs.LG

arXiv PDF

📄 Automated Labeling of Intracranial Arteries with Uncertainty Quantification Using Deep Learning

2025-09-24

Авторы:

Javier Bisbal, Patrick Winter, Sebastian Jofre, Aaron Ponce, Sameer A. Ansari, Ramez Abdalla, Michael Markl, Oliver Welin Odeback, Sergio Uribe, Cristian Tejos, Julio Sotelo, Susanne Schnell, David Marlevi

#### Контекст Анатомическая меткинга интракраниальных артерий является важной задачей в рамках разработки методов диагностики, мониторинга и терапии кардиоваскулярных заболеваний. Однако данная задача требует значительных временных затрат и подвержена значительной интерпертаторной вариативности. Недостаток универсальных автоматизированных систем, обеспечивающих высокую точность и надежность меткинга, ставит под угрозу качество полученных результатов. Данные проблемы мотивируют развитие новых методов, которые были бы широко применимы в клинической практике. #### Метод Для решения данной задачи предложена автоматизированная система, основанная на нейронных сетях. Методология включает три основных компонента: (1) сверточные нейронные сети (UNet) с резидентными блоками, (2) CS-Net с аугментацией канала и пространственной атенции для повышения чувствительности к кривизненным структурам, и (3) nnUNet, адаптивная система, которая автоматизирует обработку данных и архитектуру сети на основе характеристик данных. Для оценки точности работы системы использовались метрики Dice и surface distance. Для оценки неуверенности в системе внедрена тест-тайм аугментация (TTA) и разработана новая методика, снижающая ошибки интерполяции. #### Результаты Исследование проводилось на 35 сегментированных трехмерных томограммах 3D Time-of-Flight Magnetic Resonance Angiography (3D ToF-MRA). Архитектура nnUNet показала наилучшие результаты среди всех исследуемых моделей, с Dice-score в 0.922 и average surface distance в 0.387 мм. Был продемонстрирован улучшенный показатель точности в анатомически сложной вариативной среде. Оценка неуверенности в результатах проводилась с помощью TTA, которая показала способность системы определять области амбигуности, патологических изменений и несоответствий в ручных метках. Кроме того, система была проверена на валидационных данных 4D Flow MRI, показав близкий соответствие с ручными метками в расчетах потока крови. #### Значимость Предложенная система представляет собой простой и эффективный инструмент для автоматического меткинга интракраниальных артерий, который может существенно снизить время на ручную работу врачей. Данная технология может быть использована в различных областях, включая диагностику заболеваний, планирование хирургических вмешательств и мониторинг состояния здоровья. Основное преимущество системы заключается в ее надежности и возможности оценивать неуверенность в результатах, обеспечивая более точную клиническую интеграцию. #### Выводы Разработанная система демонстрирует высокую точность и надежность в автоматичес

Annotation:

Accurate anatomical labeling of intracranial arteries is essential for cerebrovascular diagnosis and hemodynamic analysis but remains time-consuming and subject to interoperator variability. We present a deep learning-based framework for automated artery labeling from 3D Time-of-Flight Magnetic Resonance Angiography (3D ToF-MRA) segmentations (n=35), incorporating uncertainty quantification to enhance interpretability and reliability. We evaluated three convolutional neural network architectures...

ID: 2509.17726v1 cs.CV, cs.LG, I.4.0

arXiv PDF

📄 Can multimodal representation learning by alignment preserve modality-specific information?

2025-09-24

Авторы:

Romain Thoreau, Jessie Levillain, Dawa Derksen

## Контекст Объединение многомодальных данных является ключевым аспектом решения многих задач машинного обучения, в том числе различных проблем удаленного сенсоринга. В области наблюдения за Землей ранние методы слияния многомодальных данных были основаны на конкретных архитектурах нейронных сетей и супервизированном обучении. Однако нехватка меток данных побудила развитие самостоятельных методов обучения. Современные методы обучения многомодальных представлений используют пространственное выравнивание между данными спутниковых систем разных модальностей, чтобы достичь семантического выравнивания в латентном пространстве. Эта работа фокусируется на исследовании возможности таких методов сохранять задачу-специфическую информацию, не делимую между модальностями. Мы покажем, что при определенных обстоятельствах подобные подходы могут приводить к потере такой информации. Для подтверждения наших выводов мы используем численные эксперименты в более реалистичных условиях. Наши результаты и код доступны на GitHub. ## Метод Мы используем модели многомодального обучения, включающие пространственное выравнивание между спутниковыми данными разных модальностей (например, визуальных и микроволновых). Методы включают пространственное выравнивание слоёв данных с помощью контрастного обучения, где цель состоит в том, чтобы уменьшить разницу между выдачей сети и трuth-label-данных. Мы также проводим численные эксперименты с многоуровневым анализом данных, чтобы проверить, насколько эффективно сохраняется задачу-специфическая информация в результатах. Для проверки гипотезы намеренно мы добавляем в данные дополнительные задачи, которые не связаны с главной задачей. ## Результаты В результате ряда экспериментов мы установили, что пространственное выравнивание может уменьшить потерю информации во время обучения, но при этом в некоторых случаях может привести к нежелательной потере модально-специфичных характеристик. Наши эксперименты показали, что при использовании многоуровневого подхода в некоторых случаях могут возникнуть проблемы с выделением важной информации, которая не связана с главной задачей. На самом деле, при использовании контрастного способа обучения в некоторых случаях возникают проблемы с потерей информации, которая не сильно отличается между модальностями. Это свидетельствует о том, что пространственное выравнивание не всегда эффективно в сохранении модально-специфической информации. ## Значимость Наши результаты имеют важное значение для развития многомодальных систем обучения, в том числе для задач удаленного сенсоринга. Мы показываем, что пространственное

Annotation:

Combining multimodal data is a key issue in a wide range of machine learning tasks, including many remote sensing problems. In Earth observation, early multimodal data fusion methods were based on specific neural network architectures and supervised learning. Ever since, the scarcity of labeled data has motivated self-supervised learning techniques. State-of-the-art multimodal representation learning techniques leverage the spatial alignment between satellite data from different modalities acqui...

ID: 2509.17943v1 cs.CV, cs.LG

arXiv PDF

📄 PhysHDR: When Lighting Meets Materials and Scene Geometry in HDR Reconstruction

2025-09-24

Авторы:

Hrishav Bakul Barua, Kalin Stefanov, Ganesh Krishnasamy, KokSheik Wong, Abhinav Dhall

#### Контекст Область исследования включает в себя задачу перевода Low Dynamic Range (LDR) в High Dynamic Range (HDR), которая является фундаментальной для многих приложений в области вычислительной графики и компьютерного зрения. Существующие методы, основанные на глубоких нейронных сетях, сталкиваются с ограничениями, так как не полностью учитывают взаимодействие световых характеристик, материалов и геометрии сцены. Эти факторы существенно влияют на точность и качество полученных HDR-изображений. В статье предлагается исследовать новый подход, который призван улучшить точность HDR-реконструкции, учитывая эти составляющие. #### Метод В ходе работы предложен метод под названием **PhysHDR**, основанный на технологии латентной диффузии. Он использует сверточные модели для денойсинга LDR-изображений с учетом информации о свете, глубине и материалах. Модель включает оригинальный генеративный процесс, который учитывает не только яркость и цвет, но и отражение и рассеяние света на различных материалах. Архитектура модели включает слои для учитывания материальных свойств и интеграции информации о глубине и отражении света. Это позволяет создавать более точные и физически достоверные HDR-изображения. #### Результаты В экспериментах использовались широкие данные LDR-HDR с различными материалами и световыми условиями. Метод PhysHDR был сравнен с несколькими современными методами, включая GAN-оптимизированные модели и синтетические методы. Результаты показали, что PhysHDR превосходит другие методы по метрикам качества и точности HDR-реконструкции. Особое внимание было уделено измерению визуального качества интерполированных HDR-изображений, где PhysHDR показал существенное преимущество. #### Значимость Предложенный подход может быть применен в различных областях, таких как виртуальная реальность, игровая индустрия, а также в приложениях для смартфонов и дронов. Одним из ключевых преимуществ является увеличение точности HDR-реконструкции за счет учета материальных свойств. Это может привести к более реалистичным изображениям в приложениях, где HDR-технологии играют ключевую роль. В будущем можно предположить расширение применения этой модели в автоматизированные системы, включающие в себя технологии распознавания и визуализации. #### Выводы PhysHDR доказал свою эффективность в HDR-реконструкции, обеспечивая более точные и физически достоверные результаты по сравнению с современными методами. Он подчеркнул важность учета материальных свойств и световых характеристик при реконструкции HDR-изображений. Будущими направлениями иссле

Annotation:

Low Dynamic Range (LDR) to High Dynamic Range (HDR) image translation is a fundamental task in many computational vision problems. Numerous data-driven methods have been proposed to address this problem; however, they lack explicit modeling of illumination, lighting, and scene geometry in images. This limits the quality of the reconstructed HDR images. Since lighting and shadows interact differently with different materials, (e.g., specular surfaces such as glass and metal, and lambertian or dif...

ID: 2509.16869v1 cs.GR, cs.AI, cs.CV, cs.LG, cs.MM, eess.IV, Artificial intelligence, Computer vision, Machine learning, Deep learning, I.3.3; I.4.5

arXiv PDF

📄 Is It Certainly a Deepfake? Reliability Analysis in Detection & Generation Ecosystem

2025-09-24

Авторы:

Neslihan Kose, Anthony Rhodes, Umur Aybars Ciftci, Ilke Demir

## Контекст Глубокие подделки (deepfakes) — это синтезированные медиа-контент, создаваемый с помощью развитых генерирующих моделей. Они могут использоваться для подделки лиц, голосов или действий, что приводит к ухудшению доверия в онлайн-содержимое. Deepfake-детекторы были предложены для борьбы с этим явлением. Однако некоторые детекторы могут неправильно классифицировать поддельные материалы как реальные или наоборот, что делает их недостоверными. Это влечет за собой проблемы в понимании источника синтезированного медиа-контента. В настоящей работе предлагается новая методология для оценки неопределенности в системах deepfake-детекторов и их потенциальном применении для определения источника синтезированных материалов. ## Метод Для изучения неопределенности в системах deepfake-детекторов и генерирующих моделей использовалась современная архитектура сетей бейзеновских нейронных сетей (Bayesian Neural Networks). Для оценки неопределенности в моделях рассматривались две части: **алетрическая неопределенность** (связанная с разнообразием данных) и **эпистемическая неопределенность** (связанная с недостатком знаний в модели). Для моделирования этих неопределенностей использовался метод Monte Carlo Dropout, который позволяет получить распределение весов и предсказаний, а не однозначные оценки. Методы экспериментов включали традиционную классификацию (реальные vs поддельные материалы), многоклассовую классификацию (источник генерирующей модели), а также анализ уверенности в пикселях и регионах. Эти методы были применены к двум разным наборам данных с девятью разными генерирующими моделями. ## Результаты На основе проведенных экспериментов было получено несколько выводов. Во-первых, полученные уверенности от разных моделей варьировались в зависимости от того, какая генерирующая модель была использована для создания материала. В-вторых, некоторые модели проявляли высокую уверенность в классификации, которая оказалась не верна. Например, на одном наборе данных одна модель детектора выдавала сильно неверные предсказания, в то время как другая модель детектора показывала более точные результаты. Это отражалось в различных метриках неопределенности. Кроме того, анализ уверенности на уровне пикселей показал, что некоторые генерирующие модели оставляют очевидные "артефакты", которые могут быть использованы для определения источника. Также были проведены абляционные исследования, показавшие, что некоторые элементы моделей играют ключевую роль в точности классификации. ## Значимость Результаты этого исследования имеют большое з

Annotation:

As generative models are advancing in quality and quantity for creating synthetic content, deepfakes begin to cause online mistrust. Deepfake detectors are proposed to counter this effect, however, misuse of detectors claiming fake content as real or vice versa further fuels this misinformation problem. We present the first comprehensive uncertainty analysis of deepfake detectors, systematically investigating how generative artifacts influence prediction confidence. As reflected in detectors' re...

ID: 2509.17550v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 ComposableNav: Instruction-Following Navigation in Dynamic Environments via Composable Diffusion

2025-09-24

Авторы:

Zichao Hu, Chen Tang, Michael J. Munje, Yifeng Zhu, Alex Liu, Shuijing Liu, Garrett Warnell, Peter Stone, Joydeep Biswas

## Контекст Это исследование ориентируется на задачу позволить роботам эффективно руководствоваться инструкциями в динамичных средах. Роботы, отвечающие на инструкции, должны уметь интерпретировать и выполнять сложные комбинации заданий, такие как "переспать пешехода, оставаясь на правой стороне дороги." Такие задачи характеризуются высокой сложностью из-за возможных комбинаций инструкций, возрастающих экспоненциально вместе с расширением набора роботских способностей. Традиционные подходы, такие как визуальные модели, либо не способны обрабатывать такие комбинации, либо требуют ненагруженных демонстраций для каждого отдельного движения. Это ограничение громоздко и неэффективно. Мотивируя надеждой на продвижение в области робототехники, авторы предлагают решение, которое обеспечивает более гибкое и эффективное следование инструкциям. ## Метод Методология ComposableNav основывается на понятии "диффузионных моделей", которые позволяют разделить сложные задачи на отдельные движения — "мотививные примитивы." Каждый примитив обучается отдельно с помощью супервизованного предварительного обучения. Затем эти мотививные примитивы объединяются в различные комбинации во время работы, чтобы удовлетворить новые и непредсказуемые задачи. Для обучения используется два этапа: предварительное супервизованное обучение для обучения основного шаблона диффузии, а затем рефинтренирование через расширенное подкрепление, чтобы приспособить модель к отдельным примитивам. Это позволяет роботу вырабатывать комбинации движений, не имея предварительных демонстраций для каждого примитива. ## Результаты Исследования проводились как в симуляционной, так и в реальной среде. Запуском робота были использованы набор инструкций, включающих разные комбинации, невиденные во время обучения. Результаты показали, что ComposableNav не только успешно удовлетворяет комбинации, но и превосходит другие подходы, такие как нетрадиционные политики на основе визуальных моделей и стохастические базисы составления карт. Результаты показывают, что робот способен регулярно принимать правильные решения в разных ситуациях, таких как переспать пешехода и оставаться на предустановленной стороне дороги. Особенно выделяется высокая гибкость ComposableNav при обработке непредсказуемых задач. ## Значимость ComposableNav имеет широкие возможности применения в робототехнике, включая водительские системы, новые технологии в здравоохранении, домашние роботы и системы автоматизации на производстве. Это решение обеспечивает более эффективный и гибкий принцип действия в сложных и динамических средах. В отличие от других подходов, ComposableNav

Annotation:

This paper considers the problem of enabling robots to navigate dynamic environments while following instructions. The challenge lies in the combinatorial nature of instruction specifications: each instruction can include multiple specifications, and the number of possible specification combinations grows exponentially as the robot's skill set expands. For example, "overtake the pedestrian while staying on the right side of the road" consists of two specifications: "overtake the pedestrian" and ...

ID: 2509.17941v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 RespoDiff: Dual-Module Bottleneck Transformation for Responsible & Faithful T2I Generation

2025-09-23

Авторы:

Silpa Vadakkeeveetil Sreelatha, Sauradip Nag, Muhammad Awais, Serge Belongie, Anjan Dutta

## Контекст Текстово-изобразительные модели, основанные на диффузионных моделях, позволили достичь высокого качества генерирования изображений. Однако вопросы справедливости и безопасности таких моделей остаются открытыми. Например, существующие подходы часто приходят на компромисс между справедливостью и точностью воспроизведения смысла. В этом работе мы адресуем эти проблемы, предлагая RespoDiff — разумный подход к генерированию в области текстов-в-изображения. Наша модель стремится обеспечить равенство и безопасность без потери качества изображений. ## Метод Модель RespoDiff основывается на двух модулях, работающих над буфером представления в модели диффузионной. Первый модуль акцентирует внимание на вопросах справедливости и безопасности, тогда как второй сохраняет корректность изображений в отношении нейтральных генерируемых объектов. Мы предлагаем уникальный метод обучения, основанный на новом критерии оптимизации, позволяющий модулям совместно работать. Этот подход позволяет модели генерировать образы, которые бывальны в смысле, справедливы и безопасны. ## Результаты Мы использовали широкий набор экспериментов для проверки модели. Наши результаты показали, что RespoDiff превосходит текущие лучшие решения в области справедливого текстово-изобразительного генерирования. Модель повысила соотношение справедливости и верности генерируемых изображений на 20% за счет эффективного решения конфликта между этими целями. Также, наши результаты показали, что модель может применяться в сложных сценариях с большим набором генерируемых элементов, без потери качества. ## Значимость Области применения RespoDiff включают разработку безопасных и справедливых моделей текстового генерирования. Этот подход имеет решающее значение для приложений, где необходимо сбалансированное соотношение справедливости и качества. Мы также показали, что RespoDiff может быть интегрирована с существующими моделями, такими как SDXL, для улучшения их безопасности и равенства. Это делает нашу модель широко применяемой в различных условиях. ## Выводы Мы представили RespoDiff — новую модель для генерирования текстов-в-изображения, которая гармонично объединяет справедливость, безопасность и качество. Наши эксперименты подтвердили эффективность модели в широком круге сценариев. Мы планируем продолжить исследования в области улучшения справедливости и безопасности моделей генерирования изображений.

Annotation:

The rapid advancement of diffusion models has enabled high-fidelity and semantically rich text-to-image generation; however, ensuring fairness and safety remains an open challenge. Existing methods typically improve fairness and safety at the expense of semantic fidelity and image quality. In this work, we propose RespoDiff, a novel framework for responsible text-to-image generation that incorporates a dual-module transformation on the intermediate bottleneck representations of diffusion models....

ID: 2509.15257v1 cs.CV, cs.LG

arXiv PDF

📄 MaskAttn-SDXL: Controllable Region-Level Text-To-Image Generation

2025-09-23

Авторы:

Yu Chang, Jiahao Chen, Anzhe Cheng, Paul Bogdan

## Контекст Основная цель текстово-изображечной генерации заключается в создании реалистичных изображений на основе текстового описания. Текущие модели, такие как Stable Diffusion XL (SDXL), достигли высокого уровня реализма, но сталкиваются с проблемами при генерации сложных сцен с множеством объектов, атрибутов и пространственных связей. Эти проблемы, такие как смешивание атрибутов между объектами и несоответствие пространственных отношений, вызваны тем, что модели не могут контролировать взаимодействия между токенами на уровне регионов. Это приводит к заметным ошибкам в итоговых изображениях. Данная статья предлагает MaskAttn-SDXL, метод, который устраняет эти недостатки, обеспечивая более точный контроль над пространственными и атрибутивными свойствами в текстово-изображечной генерации. ## Метод Метод MaskAttn-SDXL применяет региональный механизм гейтинга к cross-attention logits SDXL's UNet. Он учит бинарный маск на каждом слое, вводя его в каждый cross-attention logit map до softmax. Это позволяет спарсить токен-to-latent интерактивности, чтобы только семантически относительные связи оставались активными. Метод не требует дополнительных позиционных кодирований, вспомогательных токенов или внешних региональных масок. Он сохраняет существующий путь инференса с минимальным дополнительным накладным объемом. Это делает его эффективным и удобным для реализации. ## Результаты Эксперименты проводились на различных текстовых задачах с множеством объектов и атрибутов. Данные для тренировки включали сцены с различными объектами, атрибутами и пространственными отношениями. Метод MaskAttn-SDXL показал значительное улучшение в пространственной согласованности и привязке атрибутов по сравнению с оригинальной SDXL. Это достигнуто без потери общего качества изображений и их разнообразия. Метрики качества, такие как FID и CLIP, также указали на значительный прогресс в реалистичности и соответствии текстовому описанию. ## Значимость Предложенный метод MaskAttn-SDXL может быть применен в различных областях, таких как графический дизайн, генерация имиджа, и арт-интеллектуальные системы. Он предлагает значительные преимущества перед существующими методами, включая более точный контроль пространственных и атрибутивных свойств. Потенциальное влияние заключается в том, что данный подход может повысить эффективность и точность в текстово-изображечной генерации, в том числе для задач, требующих высокой композиционной контрольности. ## Выводы Данная работа представляет собой значительный прогресс в области текстово-изображечной генерации. На осно

Annotation:

Text-to-image diffusion models achieve impressive realism but often suffer from compositional failures on prompts with multiple objects, attributes, and spatial relations, resulting in cross-token interference where entities entangle, attributes mix across objects, and spatial cues are violated. To address these failures, we propose MaskAttn-SDXL,a region-level gating mechanism applied to the cross-attention logits of Stable Diffusion XL(SDXL)'s UNet. MaskAttn-SDXL learns a binary mask per layer...

ID: 2509.15357v1 cs.CV, cs.LG

arXiv PDF

📄 ORIC: Benchmarking Object Recognition in Incongruous Context for Large Vision-Language Models

2025-09-23

Авторы:

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Hao Su

```## Контекст Ло Lо Lо Large Vision-Language Models (LVLMs) подвержены ошибкам при работе с несогласованными контекстами, где объекты присутствуют неожиданно или отсутствуют, где ожидается их присутствие. Такие ситуации приводят к двум основным сбоям в распознавании: неверной идентификации объектов и "визуальному разумству" (hallucination). Эти ошибки являются ключевым мотивом для создания новых методов и бенчмаров, чтобы улучшить работу LVLMs в таких условиях. ``` ```## Метод Объект распознавания в несогласованном контексте (ORIC) бенчмарк предлагается для оценки LVLMs в таких ситуациях. Методология основывается на двух основных подходах: (1) **LLM-guided sampling**, который идентифицирует объекты, присутствующие в контексте, но несоответствующие ему смысловому контексту, и (2) **CLIP-guided sampling**, который выявляет объекты, выглядящие реальными, но на самом деле отсутствующие в реальности, создавая несогласованный контекст. Эти подходы позволяют систематически оценивать уязвимости LVLMs в реальных сценариях. ``` ```## Результаты Используя ORIC, проведены эксперименты с 18 LVLMs и двумя моделями open-vocabulary detection. Результаты показали существенные разрывы в уровне распознавания, особенно в сценариях несогласованных контекстов. Модели становятся чувствительнее к ошибкам предсказания в ситуациях, где контекст не соответствует реальности. Эти результаты подчеркивают важность развития методов, которые учитывают контекст при работе с текстово-визуальными моделями. ``` ```## Значимость Организованный ORIC бенчмарк может быть применен в разработке моделей, которые способны работать в сложных и неожиданных обстановках. Это может иметь значительное применение в областях, таких как визуальное понимание роботов, системы помощи в работе и визуальные системы безопасности. ORIC помогает выявлять недостатки LVLMs и способствует развитию новых подходов, которые улучшают точность распознавания в разнообразных условиях. ``` ```## Выводы ORIC бенчмарк демонстрирует существующие проблемы в LVLMs при работе с несогласованными контекстами. Он подкрепляет теоретические и практические находки, позволяя развивать новые модели, которые будут более устойчивы к таким ситуациям. Будущие исследования могут сосредоточиться на развитии контекст-конспектных моделей, которые будут учитывать смысловую связь между объектами и их окружением. ```

Annotation:

Large Vision-Language Models (LVLMs) have made significant strides in image caption, visual question answering, and robotics by integrating visual and textual information. However, they remain prone to errors in incongruous contexts, where objects appear unexpectedly or are absent when contextually expected. This leads to two key recognition failures: object misidentification and hallucination. To systematically examine this issue, we introduce the Object Recognition in Incongruous Context Bench...

ID: 2509.15695v1 cs.CV, cs.LG

arXiv PDF

📄 The Missing Piece: A Case for Pre-Training in 3D Medical Object Detection

2025-09-23

Авторы:

Katharina Eckstein, Constantin Ulrich, Michael Baumgartner, Jessica Kächele, Dimitrios Bounias, Tassilo Wald, Ralf Floca, Klaus H. Maier-Hein

## Контекст 3D медицинская объектная детекция является ключевым компонентом точного компьютерно-помогаемого диагностирования. Однако полноценное использование 3D-информации в обучении моделей остается недостаточно исследовано. Использование 2D медицинских данных или изображений натуры в качестве примеров предварительного обучения не позволяет достичь полного потенциала 3D-технологий. Это вызывает проблемы в получении точных и универсальных моделей для детекции 3D-объектов в медицине. Наша мотивация заключается в изучении методов предварительного обучения, которые могут способствовать улучшению точности 3D-детекторов. ## Метод Мы используем предварительно обученные сети, ориентированные на задачу 3D-детекции, для сравнения различных методов предварительного обучения. Методы включают в себя изображения натуры, 2D медицинские изображения и 3D-реконструкцию. Работа охватывает архитектуры на основе сверток (CNNs) и трансформеров (Transformers). Данные для обучения были получены из различных больших медицинских баз данных. Наша методология включает эксперименты с различными типами 3D-детекторов, чтобы оценить эффективность каждого метода предварительного обучения. ## Результаты Мы провели эксперименты с несколькими детекторами и датасетом, такими как LIDC-IDRI и 3D-CT-сканирования. Результаты показали, что предварительное обучение на 3D-реконструкции показало самые высокие результаты, превосходя обучение на изображениях натуры и 2D медицинских данных. Также мы обнаружили, что трансформеры показали более высокую универсальность по сравнению с CNN-архитектурами. Однако предварительное обучение на основе контрастирования не дало существенных выигрышей. Эти находки подтверждают, что предварительное 3D-обучение может улучшить точность детекции в различных сценариях клинического применения. ## Значимость Наши результаты имеют решающее значение для медицинских областей, где точность детекции 3D-объектов критична, таких как диагностика рака и оперативная планировка. Использование предварительного обучения позволяет значительно сократить время обучения и улучшить точность детекторов. Кроме того, наш подход может быть применен к разным архитектурам, включая трансформеры, что делает его универсальным и применимым в различных медицинских задачах. ## Выводы Мы установили, что предварительное обучение на 3D-реконструкции является наиболее эффективным методом для улучшения 3D-детекторов. Данные находки открывают путь к будущим исследованиям в области предварительного обучения для 3D-меди

Annotation:

Large-scale pre-training holds the promise to advance 3D medical object detection, a crucial component of accurate computer-aided diagnosis. Yet, it remains underexplored compared to segmentation, where pre-training has already demonstrated significant benefits. Existing pre-training approaches for 3D object detection rely on 2D medical data or natural image pre-training, failing to fully leverage 3D volumetric information. In this work, we present the first systematic study of how existing pre-...

ID: 2509.15947v1 eess.IV, cs.CV, cs.LG

arXiv PDF

1
2
53
54
55
56
57
83
84

Показано 541 - 550 из 837 записей