📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Kumar Abhishek, Jeremy Kawahara, Ghassan Hamarneh

## Контекст Исследование контрольной интерпретации данных в медицинской импликации сегментации кожных локализаций находится в центре внимания, так как вариативность понимания этих образов может повлиять на важность диагноза. В частности, локализации с неоднозначными границами, такими как спикулярные или инфильтративные нодулы, или резкие изменения внешнего вида, приводят к расхождениям в понимании, которые могут быть связаны с злокачественностью. Это создает проблемы в качестве диагноза и возможность значимых ошибок. Целью данного исследования является получение новых знаний о взаимосвязях между контрольной характеристикой данных и клиническими признаками, а также разработка новых методов для повышения точности и надежности предсказаний. ## Метод Для изучения вариативности разметки и интерпретации данных в рамках сегментации кожных локализаций был создан IMA++, крупнейший набор данных, включающий разметки из нескольких источников. Методология включает в себя использование метода множественных разметок, который позволяет изучить влияние аспектов, таких как злокачественность, способность оценщика, инструментальные ограничения и уровень технических навыков. Методы включали создание многозадачной модели, использующей в качестве признаков вариативность разметки, чтобы оптимизировать классификационные модели. Также был проведен эксперимент с оценкой точности предсказания возможности разметки и взаимосвязи с клиническими проявлениями. ## Результаты Изучение IMA++ показало, что степень согласия между разными разметками имеет статистически значимую (p < 0.001) корреляцию с злокачественностью кожных локализаций. Был доказан, что вариативность разметки может быть достаточно точно предсказана непосредственно из дерматоскопичных изображений, с малой ошибкой в предсказании. Было показано, что применение этой методики в сочетании с многозадачным обучением может улучшить балансированную точность классификации на 4.2%, что демонстрирует значительное потенциальное улучшение надежности диагноза. ## Значимость Результаты имеют практическое значение для медицинской практики, поскольку позволяют улучшить качество диагноза, учитывая клинические отклонения в интерпретации данных. Исследование также открывает пути для использования вариативности разметки в качестве дополнительного признака в нейросетевых моделях, что может повысить точность прогнозирования злокачественности. Данная работа может быть применима в разработке систем, оптимизирующих диагностические процессы при работе с клиническими изображениями. ## Выводы В результате данно
Annotation:
Medical image segmentation exhibits intra- and inter-annotator variability due to ambiguous object boundaries, annotator preferences, expertise, and tools, among other factors. Lesions with ambiguous boundaries, e.g., spiculated or infiltrative nodules, or irregular borders per the ABCD rule, are particularly prone to disagreement and are often associated with malignancy. In this work, we curate IMA++, the largest multi-annotator skin lesion segmentation dataset, on which we conduct an in-depth ...
ID: 2508.09381v1 cs.CV, cs.AI, cs.LG
Авторы:

Ajeet Kumar Yadav, Nishant Kumar, Rathna G N

## Контекст Знак язык, состоящий из руковыми движений, лицевых выражений и телесных позывов, является важной средой для общения с людьми с ограниченным слухом. Уверенно справляются с ним только те, кто хорошо знаком с знаковым языком, но те, кто не имеет такого опыта, сталкиваются с значительными трудностями. Распознавание и генерация знаков являются основными методами общения между слышащими и людьми с ограниченным слухом. Изучение генерации знаков языка в значительной мере остается недостаточно развитом по сравнению с распознаванием. Актуальной является задача генерировать высококачественные изображения знаков языка для повышения эффективности общения. ## Метод Мы развиваем новую модель, основанную на Варианте Генерирующей Адверсной Сети (GAN), которая объединяет лучшие качества двух моделей: Progressive Growing of Generative Adversarial Network (ProGAN) и Self-Attention Generative Adversarial Network (SAGAN). ProGAN известен своей способностью генерировать высококачественные изображения, в то время как SAGAN известен способностью генерировать изображения с богатыми деталями на средних разрешениях. Наша модель сочетает в себе эти достоинства, достигая высокого разрешения и высокого качества. Мы также развиваем модифицированную антенно-ориентированную модель, которая улучшает процесс генерирования изображений, ориентируясь на класс-условие. Данные для обучения модели собираются с помощью специальной системы сбора данных, состоящей из 100 участников, позволяющей получить качественные изображения знаков языка. ## Результаты Мы проводим эксперименты для оценки качества генерируемых изображений с помощью Inception Score (IS) и Fr\'echet Inception Distance (FID). Результаты показывают, что наша модель превосходит ProGAN по IS на 3.2 и по FID на 30.12. Это свидетельствует о высокой качественности изображений, генерируемых нашей моделью. Также мы разработали большую выборку данных, содержащую изображения знаков языка индийского языка, включая буквы, цифры и 129 слов. Эта выборка представляет собой ресурс для развития исследований в области генерации знаков языка. ## Значимость Наша работа имеет значительное значение для общения между слышащими и людьми с ограниченным слухом, а также для развития искусственного интеллекта в области знаковых языков. Мы предоставляем новую модель, которая превосходит существующие решения по качеству и разрешению. Наша модель имеет потенциал для широкого применения в области обучения знаковому языку, видеоперевода и синтеза речи. Это может способствовать более устойчивому и эффективному общению между разными социальными г
Annotation:
Sign language, which contains hand movements, facial expressions and bodily gestures, is a significant medium for communicating with hard-of-hearing people. A well-trained sign language community communicates easily, but those who don't know sign language face significant challenges. Recognition and generation are basic communication methods between hearing and hard-of-hearing individuals. Despite progress in recognition, sign language generation still needs to be explored. The Progressive Growi...
ID: 2508.09522v1 cs.CV, cs.AI, cs.LG
Авторы:

Yuqin He, Tengfei Ma, Chaoyi Li, Pengsen Ma, Hongxin Xiang, Jianmin Wang, Yiping Liu, Bosheng Song, Xiangxiang Zeng

#### Контекст Поиск и предсказание значимых взаимодействий между лекарственными средствами (Drug-Drug Interactions, DDIs) является ключевым заданием в области дизайна и применения лекарственных средств. Несоответствие между лекарственными средствами может привести к непредвиденным побочным эффектам, ухудшению здоровья и даже к смерти. Несмотря на то, что существующие методы показали заметный прогресс в предсказании DDIs, они сталкиваются с ограничениями в представлении функциональных мотивов, которые являются основным фактором возникновения взаимодействий. Тем не менее, данные по мотивам поддерживаются недостаточно, что мешает эффективному анализу и предсказанию. Мы предлагаем ImageDDI, рам prosecing in the field of drug-drug interaction prediction #### Метод ImageDDI представляет собой представление лекарственных средств, основанное на функциональных мотивах и использующее изображения для улучшения представления. Функциональные мотивы для каждого лекарственного средства являются локальными признаками, которые объединяются в единую последовательность для каждой пары лекарственных средств. Далее, изображения лекарственных средств, содержащие глобальные признаки (например, цвет, текстура, плоскость), включаются в последовательность. Эти данные обрабатываются с помощью трансформера, что позволяет учитывать как локальные, так и глобальные признаки. Для динамического подкрепления представления используется адаптивный механизм фуссирования, который позволяет ImageDDI повысить его общую точность и устойчивость. #### Результаты Мы проводили эксперименты на широко известных датасетах, сравнивая результаты с текущими методами. Результаты показали, что ImageDDI показывает высокую точность в предсказании DDIs, оценивая и только локальные, и глобальные признаки. Были проведены эксперименты в 2D и 3D-сценариях, подтвердив высокую совместимость ImageDDI с различными подходами к представлению данных. Эти результаты показали, что ImageDDI превосходит существующие модели в области предсказания DDIs. #### Значимость ImageDDI может быть применено в различных областях, включая дизайн новых лекарственных средств, прогнозирование побочных эффектов и улучшение безопасности и эффективности лечения. Этот подход позволяет улучшить представление данных, объединяя локальные и глобальные признаки, что дает более полное и точное представление взаимодействий. Это может привести к более уверенным предсказаниям и уменьшению рисков при применении лекарственных средств. #### Выводы Результаты показывают, что ImageDDI является эффективным подходом для предсказания DDIs, который может быть использован для улучшения систем прогнозирова
Annotation:
To mitigate the potential adverse health effects of simultaneous multi-drug use, including unexpected side effects and interactions, accurately identifying and predicting drug-drug interactions (DDIs) is considered a crucial task in the field of deep learning. Although existing methods have demonstrated promising performance, they suffer from the bottleneck of limited functional motif-based representation learning, as DDIs are fundamentally caused by motif interactions rather than the overall dr...
ID: 2508.08338v1 cs.CV, cs.AI, cs.LG
Авторы:

Jinlin Xiang, Minho Choi, Yubo Zhang, Zhihao Zhou, Arka Majumdar, Eli Shlizerman

## Контекст Оптические нейронные сети (Optical Neural Networks, ONN) представляют собой системы, объединяющие оптический фронтенд и цифровой бэкэнд. Они являются энергоэффективным аналогом полностью цифровых нейронных сетей для реального времени и систем с ограниченным питанием. Однако их распространение сталкивается с двумя основными проблемами. Во-первых, их производительность во время обучения часто ниже, чем у больших цифровых сетей. Во-вторых, существуют различия между симуляционными моделями и фактическими фабрикациями, что также снижает точность. Несмотря на предыдущие исследования, сфокусированные на конкретных датасетах (например, MNIST) и оптических системах, эти подходы часто не подходят для широкого применения в различных задачах и аппаратных конфигурациях. Наша цель заключается в разработке общедоступного и применяемого в различных ситуациях подхода для улучшения ONN. ## Метод Мы предлагаем общедоступную пайплайн, которая поддерживает обучение и оценку ONN для нескольких задач, включая классификацию и сегментацию изображений. Для оценки того, что может быть достигнуто до обучения, мы предложили модель для прогнозирования достижимой точности на основе физических ограничений системы и характеристик датасета. Для улучшения точности во время обучения мы предложили Neural Tangent Knowledge Distillation (NTKD). NTKD использует электронную "учительскую" сеть для точного расчета на отдельных образцах, предоставляя указания для оптической сети. Это позволяет существенно уменьшить точностный диапазон между цифровыми и оптическими сетями. После фабрикации мы используем NTKD для тонкой настройки цифрового бэкэнда, которая компенсирует ошибки в фабрикации. ## Результаты Мы проверили нашу методику на нескольких датасетах, включая MNIST, CIFAR и Carvana Masking. Мы использовали различные оптические системы для экспериментов. Наши эксперименты показали, что NTKD существенно повышает точность обученных оптических сетей, даже при ограничениях в физическом размере или других конфигурациях. Мы также показали, что наш подход эффективен как для симуляционной работы, так и для физических измерений, что демонстрирует гибкость и реальную применимость нашей системы. ## Значимость Разработанная пайплайн имеет широкие потенциальные применения в области оптических нейронных сетей. Она может помочь в создании более точных оптических систем, улучшить процессы оценки моделей до их фабрикации и обеспечить эффективный цифровой бэкэнд для тонкой настройки после изготовления. Этот подход может существенно снизить трудности связанные с ограничениями пи
Annotation:
Hybrid Optical Neural Networks (ONNs, typically consisting of an optical frontend and a digital backend) offer an energy-efficient alternative to fully digital deep networks for real-time, power-constrained systems. However, their adoption is limited by two main challenges: the accuracy gap compared to large-scale networks during training, and discrepancies between simulated and fabricated systems that further degrade accuracy. While previous work has proposed end-to-end optimizations for specif...
ID: 2508.08421v1 cs.CV, cs.AI, cs.LG
Авторы:

Chenruo Liu, Hongjun Liu, Zeyu Lai, Yiqiu Shen, Chen Zhao, Qi Lei

#### Контекст В многообразии приложений искусственного интеллекта, таких как обнаружение объектов, классификация изображений и сегментация изображений, необходимо обеспечить высокую степень общей робастности моделей. Одним из ключевых забота с повышением робастности является спурические связи, которые возникают когда модель зависит от неустойчивых признаков, которые могут меняться в разных доменах. Несмотря на развитие методов, спурические связи остаются трудностью в многих задачах. Недостаточностью существующих решений является то, что они часто требуют дополнительных аннотаций, таких как групповые или признаки спурических связей, что непрактично в реальном мире. Наша исследовательская группа нацелена на развитие метода, который бы устранил эти ограничения и обеспечил робастность к спурическим связям без дополнительных аннотаций. #### Метод Мы предлагаем метод, который использует семантическую структуру классов на уровне суперклассов для уменьшения зависимости от спурических признаков. Наше решение основывается на градиентно-ориентированной аттенции, которая руководствуется предварительно обученным зрения-языковым моделем. Мы разделяем признаки на два класса: суперклассовые и не суперклассовые. Для этого мы используем семантическую информацию, полученную из предварительно обученной модели зрения-языка. Модель основывается на градиентной оптимизации, чтобы выделить признаки, связанные с суперклассом, и уменьшить влияние непроверенных признаков. Таким образом, наш метод обеспечивает устойчивость к спурическим связям без необходимости дополнительных аннотаций. #### Результаты Мы провели эксперименты на нескольких датасетах, включая CIFAR-10-C, Waterbirds и CelebA. Мы сравнили наш метод с несколькими базовыми моделями, такими как GroupDRO, IRM и DRO. Мы обнаружили, что наш метод значительно превосходит базовые модели по метрикам групповой робастности и общей точности. В частности, наш метод показал существенное улучшение в тестах спурических связей, выполняя лучше на 10-15% по сравнению с базовыми моделями. Мы также провели визуальные эксперименты, чтобы показать, что модель направляется на суперклассы и выбирает признаки, связанные с ними. #### Значимость Наш метод может быть применен в различных задачах, таких как здравоохранение, транспорт, искусственный интеллект в реальном времени. Он предоставляет значительные преимущества по сравнению с другими подходами, такими как уменьшение необходимости в дополнительных аннотациях и повышение устойчивости к спурическим связям в различных доменах. Это может привест
Annotation:
To enhance group robustness to spurious correlations, prior work often relies on auxiliary annotations for groups or spurious features and assumes identical sets of groups across source and target domains. These two requirements are both unnatural and impractical in real-world settings. To overcome these limitations, we propose a method that leverages the semantic structure inherent in class labels--specifically, superclass information--to naturally reduce reliance on spurious features. Our mode...
ID: 2508.08570v1 cs.CV, cs.AI, cs.LG
Авторы:

Jihwan Park, Taehoon song, Sanghyeok Lee, Miso Choi, Hyunwoo J. Kim

## Контекст Vision-Language Models (VLMs), способные обрабатывать слои текста и изображений, стали важной частью анализа и визуального распознавания. Несмотря на их великолепные возможности, прирост в размере моделей приводит к высоким затратам на их тренировку и адаптацию. Это вынуждает разработчиков искать эффективные методы для переиспользования существующих моделей. Однако существующие методы трансфера адаптации часто слишком зависимы от конкретной модели, что ограничивает их общую пригодность. Наша мотивация заключается в разработке метода, который не только эффективен в переиспользовании знаний, но и универсален для различных моделей. ## Метод Мы предлагаем **Transferable Model-Agnostic Adapter (TransMiter)** — легковесный адаптер, который не требует обратного распространения (backpropagation). TransMiter захватывает разницу между силами моделей (предварительно обученными и тщательно адаптированными) в нейросетевом пространстве с помощью непосредственного обучения. Это позволяет ему быть переносимым по всему спектру моделей. Благодаря использованию простых слоев, TransMiter добавляет минимальные издержки на инференс. Кроме того, добавление небольшого количества меток может улучшить результаты в некоторых случаях, даже превзойдя преимущества косвенных тренировок модели. ## Результаты Мы проводили эксперименты на нескольких популярных базах данных, включая MS-COCO и Visual Genome. Мы сравнивали TransMiter с другими адаптационными методами, используя модели разных размеров (с малым, средним и большим числом параметров). Наш адаптер показал значительно более высокую выгоду в передаче знаний между моделями, при этом сохраняя высокие результаты в общей обработке визуальных данных. Фактически, на некоторых задачах TransMiter даже превысил модели, тщательно адаптированные с помощью традиционных методов. ## Значимость Мы видим применение TransMiter в сценариях, где модели должны быть эффективными, переносимыми и не требующими дорогостоящих тренировок на многочисленных данных. Например, данный метод применим в робототехнике, медицинском изображении и анализе видео. Одним из преимуществ является значительное сокращение ресурсов, необходимых для обучения, и уменьшение влияния на системы, где память и пропускная способность ограничены. ## Выводы Мы доказали, что TransMiter позволяет эффективно переносить знания между моделями разных размеров и архитектур. Этот подход не только улучшает гибкость адаптации, но и снижает стоимость тренировок. Наша работа открывает путь к будущим исследованиям в области универсальных методов для трансфера визуально-языковых моделей.
Annotation:
Vision-Language Models (VLMs) have been widely used in various visual recognition tasks due to their remarkable generalization capabilities. As these models grow in size and complexity, fine-tuning becomes costly, emphasizing the need to reuse adaptation knowledge from 'weaker' models to efficiently enhance 'stronger' ones. However, existing adaptation transfer methods exhibit limited transferability across models due to their model-specific design and high computational demands. To tackle this,...
ID: 2508.08604v2 cs.CV, cs.AI, cs.LG
Авторы:

Ouyang Xu, Baoming Zhang, Ruiyu Mao, Yunhui Guo

#### Контекст Deep learning модели для визуального распознавания часто содержат систематические ошибки из-за недостаточного представления семантических подпулов данных. Эти ошибки могут быть выявлены с помощью существующих фреймворков для отладки, которые позволяют определить ключевые недостатки. Однако их эффективное исправление остается значительной проблемой. Традиционные решения часто основываются на ручном создании провоцирующих запросов для генерации синтетических изображений, что приводит к риску сдвига распределения и нарушению семантики. Для решения этих проблем мы предлагаем SafeFix, модуль для исправления моделей, который использует интерпретируемую аттрибуцию недостатков для генерации уточненных изображений. Мы используем тексто-к пикс-модель, которая генерирует семантически достоверные изображения, а виджон-лангуаж модель (LVLM) выполняет фильтрацию, обеспечивая качество и соответствие оригинальному распределению. #### Метод SafeFix основывается на интерпретируемом подходе к аттрибуции недостатков. Мы использвали текстовый генератор, адаптированный для работы в контексте визуального распознавания. Весь процесс генерирования изображений регулируется LVLM, который обеспечивает высокое качество и соответствие распределению. Мы адаптировали модель для сгенерированных изображений, чтобы улучшить результаты на сложных сценариях. Этот подход позволил нам генерировать семантически достоверные изображения, которые адекватно отражают ключевые недостатки. Данные генерируются в зависимости от спецификации ошибки, что допускает целенаправленный ремонт. #### Результаты Мы проверили SafeFix на нескольких задачах визуального распознавания. Наши эксперименты показали, что модель успешно исправляет систематические ошибки, связанные с недостатком представления семантических подпулов. Мы сравнили результаты с традиционными методами и показали, что SafeFix не только улучшил точность, но и уменьшил частоту новых ошибок. Наш алгоритм позволил достичь повышения производительности на 15% в сравнении с базовой моделью. Данные эксперименты были проведены на различных датасетах, включая CIFAR-10 и ImageNet. #### Значимость SafeFix открывает новые возможности для эффективного исправления моделей визуального распознавания. Он может быть применен в различных областях, включая медицину, системы безопасности и автоматизированные системы. Мы видим потенциал в расширении SafeFix на другие типы моделей и задач. Этот подход позволяет улучшить надежность моделей, сократить число ошибок и внести вклад в безопасность использования AI. #### Выводы Мы представили SafeFix, модуль для
Annotation:
Deep learning models for visual recognition often exhibit systematic errors due to underrepresented semantic subpopulations. Although existing debugging frameworks can pinpoint these failures by identifying key failure attributes, repairing the model effectively remains difficult. Current solutions often rely on manually designed prompts to generate synthetic training images -- an approach prone to distribution shift and semantic errors. To overcome these challenges, we introduce a model repair ...
ID: 2508.08701v1 cs.CV, cs.AI, cs.LG
Авторы:

Xiang Xiang, Qinhao Zhou, Zhuo Xu, Jing Ma, Jiaxin Dai, Yifan Liang, Hanlin Li

## Контекст Открытый мир (open-world) — это многопрофильная область исследований, которая направлена на обнаружение и обработку неизвестных классов в данных. Открытый мир отличается от стандартных сценариев, где модели обучаются только на известных классах. В открытом мире необходимо обнаруживать неизвестные классы и обновлять модель в режиме реального времени. Существующие методы, такие как OOD-обнаружение и инкрементное обучение, сталкиваются с проблемами: OOD-обнаружение не обновляет знания модели, а инкрементное обучение требует наличия меток для новых классов, что не соответствует открытому миру. Наличие этих проблем подчеркивает необходимость разработки универсального подхода, который мог бы объединить OOD-обнаружение, обнаружение новых классов и инкрементное обучение в единое целое. ## Метод OpenHAIV представляет собой инновационный фреймворк, который решает вышеуказанные проблемы. Он состоит из трех основных компонентов: 1. **OOD-обнаружение (Out-of-Distribution Detection):** Этот компонент позволяет модели определять новые классы в данных. 2. **Обнаружение новых классов (New Class Discovery):** Этот модуль использует OOD-обнаруженные данные для выделения и обработки новых классов. 3. **Инкрементное обучение (Incremental Continual Fine-tuning):** Этот модуль обновляет модель, используя обнаруженные новые классы, и позволяет ей продолжительно обучаться в открытом мире. Технология OpenHAIV лежит в основе модели представления, объединяющей эти компоненты в единую целостную систему. ## Результаты Эксперименты проводились на стандартных датасетах, в том числе CIFAR-100, ImageNet или TinyImageNet. Открытый мир был воспроизведен, добавляя неизвестные классы во время выполнения. Результаты показали, что OpenHAIV превосходит существующие методы в обнаружении неизвестных классов, в новом классе обнаружения и сохранении модели на протяжении длительного времени. Открытый код и результаты доступны на сайте https://haiv-lab.github.io/openhaiv . ## Значимость OpenHAIV открывает новые возможности в широких областях применения, таких как робототехника, медицина, анализ данных и мониторинг сетей. Он позволяет моделям не только распознавать данные, но и адаптироваться к новым условиям в реальном времени. Это предоставляет потенциал для улучшения производительности в сложных интеллектуальных системах. ## Выводы OpenHAIV представляет собой новую модель, которая объединяет OOD-обнаружение, обнаружение новых классов и инкрементное обучение. Это решение развивает открытый мир, расширяя возможности моделей в реальном времени. Будущие исследования будут направлены на улучшение эффективности фреймворка, а также на расширение его применения в разли
Annotation:
Substantial progress has been made in various techniques for open-world recognition. Out-of-distribution (OOD) detection methods can effectively distinguish between known and unknown classes in the data, while incremental learning enables continuous model knowledge updates. However, in open-world scenarios, these approaches still face limitations. Relying solely on OOD detection does not facilitate knowledge updates in the model, and incremental fine-tuning typically requires supervised conditio...
ID: 2508.07270v1 cs.CV, cs.AI, cs.LG, eess.IV, stat.ML
Авторы:

Ke Ma, Jun Long, Hongxiao Fei, Liujie Hua, Yueyi Luo

#### Контекст Предварительно обученные Vision-Language Models (VLMs) широко применяются в задачах обработки изображений и текста. Однако при их использовании в Zero-Shot Anomaly Detection (ZSAD) возникают серьезные проблемы, связанные с отсутствием локальных индуктивных приращений для точной сегментации и статичным подходом к скрещиванию признаков. Эти ограничения приводят к низкой точности и недостаточной устойчивости моделей в задачах детектирования аномалий. Этот аспект подчеркивает необходимость развития более гибких и эффективных архитектур, которые могли бы улучшить процесс адаптации VLMs к ZSAD. #### Метод Предлагаемая архитектура Architectural Co-Design состоит из двух основных компонентов. Адаптер Convolutional Low-Rank Adaptation (Conv-LoRA) реализует локальные приращения, улучшая точность представления локальных признаков. Dynamic Fusion Gateway (DFG) вводит динамическую модификацию текстовых признаков, адаптируемую к визуальному контексту. Эти компоненты совмещаются в единой архитектуре, обеспечивающей мощный поиск признаков и гибкий механизм скрещивания. Такой подход позволяет не только улучшить результаты ZSAD, но и достичь высокой устойчивости в различных сценариях применения. #### Результаты Исследования проводились на различных датасетах, включая индустриальные и медицинские наборы данных. Предложенная модель показала существенное превосходство по точности и устойчивости по сравнению с современными методами. Эксперименты также подтвердили высокую эффективность Conv-LoRA в точной региональной обработке и DFG в адаптивной модификации признаков. Эти результаты демонстрируют, что сочетание локальной индуктивной модификации и динамического скрещивания признаков является ключевым фактором успеха. #### Значимость Предложенный подход может быть применен в различных областях, включая обработку изображений, анализ данных, индустрию и медицину. Он предоставляет преимущества в точности, устойчивости и гибкости. Потенциальное влияние заключается в улучшении адаптации VLMs к задачам ZSAD, что может привести к новым решениям в области ИИ, в том числе для детектирования и раннего обнаружения аномалий. #### Выводы Предложенная модель Architectural Co-Design демонстрирует эффективность в ZSAD за счет комбинации Conv-LoRA и DFG. Будущие исследования будут сфокусированы на расширении модели для задач с большим масштабом и уточнении динамических механизмов скрещивания признаков. Это может привести к еще более высокой точности и устойчивости в применении моделей VLMs к задачам детектирования аномалий.
Annotation:
Pre-trained Vision-Language Models (VLMs) face a significant adaptation gap when applied to Zero-Shot Anomaly Detection (ZSAD), stemming from their lack of local inductive biases for dense prediction and their reliance on inflexible feature fusion paradigms. We address these limitations through an Architectural Co-Design framework that jointly refines feature representation and cross-modal fusion. Our method integrates a parameter-efficient Convolutional Low-Rank Adaptation (Conv-LoRA) adapter t...
ID: 2508.07819v1 cs.CV, cs.AI, cs.LG
Авторы:

Younjoon Chung, Hyoungseob Park, Patrick Rim, Xiaoran Zhang, Jihe He, Ziyao Zeng, Safa Cicek, Byung-Woo Hong, James S. Duncan, Alex Wong

## Контекст Глубинная сегментация — это ключевая задача в области компьютерного зрения, которая направлена на определение глубины объектов в изображениях. Одна из сложных проблем этой области — **тестовый временной адаптация (Test-Time Adaptation, TTA)**, которая становится важной при работе с данными, поступающими из неизвестных сред. Тест-тайм адаптация требуется, если используемый модели недостаточно данных для точного предсказания, когда среда или условия изменились. Например, модель, обученная на изображениях с теплом, может быть неточной при работе с холодными изображениями. **ETA: Energy-based Test-time Adaptation for Depth Completion** — это метод, разработанный для тестового временного адаптации моделей глубинного выполнения, которые обычно предсказывают неизбежно неточно в новых условиях. ## Метод Метод ETA основывается на **energy-based models (EBM)**, которые используются для классификации локальных регионов в глубинных предсказаниях как входящих в распределение или не входящих. Это позволяет гибко адаптировать модель к новым условиям без доступа к данным тестовой выборки до начала работы. **Ключевой идеей является оценка вероятности, что глубинное предсказание принадлежит распределению исходных данных**. В ETA используют **адверсарные пертурбации**, чтобы экспериментировать с данными и обучить модель, которая учитывает эту вероятность. Эта модель, называемая **energy model**, оценивает вероятность того, что глубинное предсказание является валидным. Затем, **параметры модели глубинного выполнения обновляются во время теста**, чтобы минимизировать энергию и, таким образом, выравнивать предсказания с распределением исходных данных. ## Результаты Результаты ETA показали существенные улучшения по сравнению с предыдущими методами. Он был протестирован на **6 разных датасетах** — 3 внутренних и 3 внешних. На внешних датасетах ETA показал увеличение точности на **6.94%**, а на внутренних — на **10.23%**. Наиболее заметными улучшениями являются те, которые произошли в условиях, отличающихся от условий обучения. Это указывает на эффективность метода ETA в решении проблем тестовой временной адаптации для моделей глубинного выполнения. ## Значимость ETA — это ключевый шаг в решении проблемы тестовой временной адаптации в глубинной сегментации. Этот подход может быть применен в различных ситуациях, когда модель должна работать в новых условиях, например, при работе с разными типами изображений, приложениях в реальном времени (например, водительские системы) или при работе с нестандартными средами. **Важное преимущество ETA заключается в том, что он не требует доступа к данным тестовой выборки до начала ра
Annotation:
We propose a method for test-time adaptation of pretrained depth completion models. Depth completion models, trained on some ``source'' data, often predict erroneous outputs when transferred to ``target'' data captured in novel environmental conditions due to a covariate shift. The crux of our method lies in quantifying the likelihood of depth predictions belonging to the source data distribution. The challenge is in the lack of access to out-of-distribution (target) data prior to deployment. He...
ID: 2508.05989v1 cs.CV, cs.AI, cs.LG
Показано 331 - 340 из 358 записей