📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Одним из ключевых направлений в области компьютерного зрения является оценка глубины сцены на основе монокулярных изображений (monocular depth estimation). Несмотря на значительные успехи в этой области, большинство существующих методов ориентированы на работу с перспективными изображениями (perspective images), которые имеют стандартные параметры камеры и минимальные искажения. Однако в реальных сценариях, таких как автономные транспортные системы или робототехника, часто используются фишей-объективы (fisheye lenses), которые обеспечивают большое зрение поля, но вводят значительные искажения. Это создает проблему, так как фундаментальные модели оценки глубины (foundational monocular depth estimators, FMDEs), обученные на перспективных данных, не могут эффективно работать с фишей-изображениями из-за ковариативного сдвига (covariate shift), вызванного изменениями параметров калибровки камеры (intrinsic, distortion). Традиционные подходы к решению этой проблемы включают переобучение (retraining) или дообучение (finetuning) моделей на данных фишей-камер, что требует больших вычислительных ресурсов и доступа к большим наборам данных. Также, методы калибровки и преобразования изображений в канонический кадр могут вводить артефакты и потерю точности. Это подчеркивает необходимость в новом подходе, который мог бы адаптировать FMDEs для работы с фишей-изображениями без необходимости переобучения или тяжелых модификаций в пространстве изображений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод, названный **Calibration Tokens**, который позволяет адаптировать FMDEs для фишей-изображений без необходимости в повторном обучении или преобразованиях изображений. Основная идея заключается в использовании Calibration Tokens – легковесных адаптационных механизмов, которые модулируют латентные вложения (latent embeddings) FMDEs для выравнивания их распределения с теми, что были обучены на перспективных изображениях. Calibration Tokens работают в латентном пространстве модели, избегая прямых модификаций в пространстве изображений, что позволяет избежать возникновения артефактов. Этот подход выгоден, поскольку латентное пространство FMDEs уже обладает выразительностью, которая может быть эффективно модифицирована для выравнивания распределений. Метод является self-supervised и не требует доступа к реальным фишей-изображениям для обучения. Вместо этого, он использует публично доступные наборы данных перспективных изображений. Для обучения, перспективные изображения перекалибруются в фишей-изображения, и затем происходит принуждение к согласованности (consistency) между оценками глубины для обоих типов изображений. Это позволяет эффективно переносить знания из перспективных моделей на фишей-камеры. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах было продемонстрировано, что метод Calibration Tokens позволяет значительно улучшить точность оценки глубины для фишей-камер по сравнению с состоянием техники. Авторы провели эксперименты на различных FMDEs, включая модели обученные на больших наборах данных перспективных изображений. Результаты показали, что метод не только улучшает точность, но и обеспечивает согласованность оценок глубины между перспективными и фишей-изображениями. Данные для экспериментов были взяты из общедоступных наборов данных, которые включали как внутренние, так и наружные сцены. Метод был протестирован на различных типах сцен, где он показал последовательное улучшение по сравнению с другими подходами. Благодаря единому набору Calibration Tokens, метод демонстрирует высокую эффективность и простоту применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение данного метода заключается в его возможности эффективного использования FMDEs в реальных сценариях, где часто используются фишей-объективы. Это может быть применено в автономных транспортных системах, робототехнике, видеонаблюдении и других областях, где необходима точная оценка глубины с использованием фишей-камер. Преимущества метода включают в себя: - **Быстрая адаптация** без необходимости переобучения модели. - **Снижение затрат вычислительных ресурсов**, так как не требуется фине-тюнинг или создание новых наборов данных. - **Улучшение точности** благодаря эффективной модификации латентных вложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод Calibration Tokens, который позволяет эффективно адаптировать FMDEs для фишей-камер без необходимости в повторном обучении или преобразованиях изображений. Этот метод является self-supervised и использует публично доступные наборы данных перспективных изображений для обучения. В будущем, данный подход может быть расширен для других типов камер или сцен, а также может быть интегрирован в более широкие системы компьютерного зрения. Он также может быть использован для улучшения точности в других задачах, связанных с обработкой изображений и оценкой глубины.
Annotation:
We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cam...
ID: 2508.04928v1 cs.CV, cs.AI, cs.LG
Авторы:

Zhu Xu, Ting Lei, Zhimin Li, Guan Wang, Qingchao Chen, Yuxin Peng, Yang liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Dynamic Scene Graph Generation (DSGG) — это задача, направленная на построение сценовых графов для каждого кадра видео, включая детекцию объектов и прогнозирование их взаимодействий. Данная задача является ключевой для понимания динамических сцен в видео, однако традиционные подходы к DSGG требуют значительных ресурсов на разметку данных, что становится критическим препятствием для практического применения. Для снижения затрат на разметку была предложена Weakly Supervised DSGG (WS-DSGG), которая использует для обучения нелокализованные сценовые графы, полученные из одного кадра на видео. Однако существующие методы WS-DSGG строятся на основе внешних объектных детекторов, обученных на статических изображениях, что приводит к проблемам в динамических, отношениями-ориентированных сценах. Внешние объектные детекторы часто не справляются с задачей точной локализации объектов в динамической области видимости, особенно когда речь идет о сложных сценах с большим количеством взаимодействующих элементов. Такие детекторы часто выдают неточные позиции объектов и низкие уровни достоверности предложений, что существенно снижает качество WS-DSGG. Эта несогласованность между обучением детекторов на статических данных и их применением в динамических сценах является ключевой проблемой, которую необходимо решить для эффективного использования WS-DSGG. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы неточности внешних объектных детекторов в динамических сценах был предложен метод TRKT (Temporal-enhanced Relation-aware Knowledge Transferring). TRKT состоит из двух ключевых компонентов. Первый компонент — **Relation-aware Knowledge Mining**. В этом компоненте используются объектные и отношенческие декодеры для генерации категорийных attention maps, которые подчеркивают области объектов и их взаимодействий. Для улучшения качества attention maps используется стратегия Inter-frame Attention Augmentation, которая использует оптический поток из соседних кадров для создания motion-aware attention maps. Это позволяет улучшить устойчивость к движениям и размытию, обеспечивая более точную локализацию и выделение взаимодействующих областей. Второй компонент — **Dual-stream Fusion Module**. Этот модуль интегрирует категорийные attention maps во внешние детекции, улучшая локализацию объектов и повышая уровень достоверности предложений. Это позволяет добиться более точного выделения объектов и их отношений в динамических сценах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на датасете Action Genome, который представляет собой набор видео с размеченными сценовыми графами. TRKT демонстрирует высокую эффективность по сравнению со существующими методами WS-DSGG. Благодаря интеграции motion-aware attention maps и Dual-stream Fusion Module, TRKT показывает значительное улучшение точности детекции объектов и предсказания отношений в динамических сценах. Метод TRKT достигает лучших результатов по всем ключевым метрикам по сравнению с другими методами WS-DSGG. Эксперименты показывают, что TRKT не только улучшает качество детекции, но также снижает влияние неточных предложений, полученных из внешних объектных детекторов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ TRKT может быть применен в различных областях, требующих понимания динамических сцен, таких как анализ видео, распознавание действий, автоматическое описание сцен и взаимодействие с роботами. Благодаря своей способности точно локализовывать объекты и их отношения в динамических сценах, TRKT может быть использован в системах компьютерного зрения для повышения точности и надежности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ TRKT представляет собой значительный шаг вперед в области Weakly Supervised DSGG, решая проблему неточных детекторов в динамических сценах. Будущие исследования могут фокусироваться на дальнейшем улучшении точности и устойчивости метода, а также на расширении его применимости к более широкому классу данных видео.
Annotation:
Dynamic Scene Graph Generation (DSGG) aims to create a scene graph for each video frame by detecting objects and predicting their relationships. Weakly Supervised DSGG (WS-DSGG) reduces annotation workload by using an unlocalized scene graph from a single frame per video for training. Existing WS-DSGG methods depend on an off-the-shelf external object detector to generate pseudo labels for subsequent DSGG training. However, detectors trained on static, object-centric images struggle in dynamic, ...
ID: 2508.04943v1 cs.CV, cs.AI
Авторы:

Stella Su, Marc Harary, Scott J. Rodig, William Lotter

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование в области самоконтролируемого обучения (Self-Supervised Learning, SSL) получило широкое распространение за счет возможности формирования эффективных визуальных представлений без необходимости в ручной аннотации данных. Однако одним из ключевых ограничений стандартных подходов SSL является их уязвимость к доменному сдвигу (domain shift) – систематическим различиям между различными источниками данных. Этот вопрос особенно критичен в биомедицинском имижинге, где такие различия, известные как batch effects, могут затруднить выявление истинных биологических сигналов. В биомедицинских исследованиях, таких как спейсьюал протеомикс (spatial proteomics), ключевой задачей является обнаружение сложных взаимосвязей между визуальными и биологическими характеристикими. Однако, существующие методы SSL часто не могут эффективно справиться с доменным сдвигом, что приводит к неоптимальным результатам и потерянным возможностям в интерпретации данных. Таким образом, разработка методологии, способной эффективно справиться с такими проблемами, представляет собой важную задачу для улучшения качества и надежности моделей в биомедицинских приложениях. Предлагаемый метод AdvDINO направлен на решение этой проблемы, интегрируя подход домен-адверсаряльного обучения (domain-adversarial learning) в рамках архитектуры DINOv2. Целью этого подхода является повышение устойчивости модели к доменному сдвигу, что позволяет формировать более робостные и биологически значимые представления данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД AdvDINO представляет собой расширение архитектуры DINOv2, которая является одной из современных моделей для самоконтролируемого обучения. Основной инновацией AdvDINO является интеграция градиентного реверсального слоя (Gradient Reversal Layer, GRL) внутри модели. Этот слой позволяет модели учитывать различия между доменами данных и, в то же время, стимулирует формирование домен-инвариантных (domain-invariant) функций. Градиентный реверсальный слой работает путем обращения градиентов в процессе обучения, что позволяет модели учиться игнорировать доменно-зависимые признаки и формировать более универсальные представления. Такой подход позволяет AdvDINO эффективно справляться с доменным сдвигом, характерным для биомедицинских данных, в частности, для данных полученных из различных источников или биологических образцов. В рамках исследования AdvDINO применяется к данным six-channel multiplex immunofluorescence (mIF) whole slide images, полученным из пациентов с неклеточным раком легкого (non-small cell lung cancer). Эти данные характеризуются высокой разнообразностью и сложностью, что делает их идеальной платформой для тестирования методов справляющихся с доменным сдвигом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности AdvDINO авторы провели серию экспериментов на базе данных, состоящей из более чем 5,46 млн. изображений mIF image tiles. Эти изображения были получены из различных биологических образцов, что позволило провести комплексный анализ возможностей модели в условиях доменного сдвига. Результаты экспериментов показали, что AdvDINO значительно превосходит базовые модели без домен-адверсаряльного обучения в сфере формирования биологически значимых представлений. Модель успешно выявила кластеры представлений, которые соотносятся с различными биологическими профилями и имеют прогностическую значимость. Кроме того, AdvDINO показала улучшенные результаты в задаче прогнозирования выживаемости (survival prediction) при использовании в сочетании с attention-based multiple instance learning. Эти результаты подтверждают, что интеграция домен-адверсаряльного подхода в самоконтролируемое обучение может значительно повысить качество и надежность моделей в биомедицинских приложениях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AdvDINO имеет широкий спектр практических применений в области биомедицинского имижинга и далее. Его способность формировать домен-инвариантные представления данных делает его подходящим для использования в различных областях, включая радиологию, дистанционный сенсинг и автономное вождение. В биомедицинской практике, AdvDINO может быть использован для анализа и интерпретации данных, полученных из различных клинических исследований, где доменный сдвиг часто является существенной проблемой. Улучшенная устойчивость модели к batch effects позволяет более точно выявлять биологические сигналы, что может привести к новым открытиям в области диагностики и лечения заболеваний. Кроме того, AdvDINO может быть применен в задачах, требующих высокой точности и интерпретируемости, таких как прогнозирование выживаемости пациентов или классификация биологических образцов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ AdvDINO является важным шагом вперед в области самоконтролируемого обучения и его применения в биомедицинской имижинге. Интеграция домен-адверсаряльного подхода в DINOv2 позволяет формировать более робостные и биологически значимые представления данных, что особенно важно в условиях доменного сдвига. Будущие исследования могут фоксироваться на дальнейшем улучшении модели, включая оптимизацию архитектуры и расширение ее применимости к другим типам данных. Кроме того, исследования в области домен-адверсаряльного обучения могут быть расширены для решения задач в других областях, где доменный сдвиг представляет собой критическую проблему. Таким образом, AdvDINO не только улучшает существующие методы SSL, но и открывает новые возможности для будущих исследований и приложений в биомедицинской области.
Annotation:
Self-supervised learning (SSL) has emerged as a powerful approach for learning visual representations without manual annotations. However, the robustness of standard SSL methods to domain shift -- systematic differences across data sources -- remains uncertain, posing an especially critical challenge in biomedical imaging where batch effects can obscure true biological signals. We present AdvDINO, a domain-adversarial self-supervised learning framework that integrates a gradient reversal layer i...
ID: 2508.04955v1 cs.CV, cs.AI
Авторы:

Zhihao Guo, Peng Wang, Zidong Chen, Xiangyu Kong, Yan Lyu, Guanyu Gao, Liangxiu Han

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) является одним из передовых методов для синтеза новых видов (NVS), предлагающим высокую эффективность рендеринга за счет проекции и смешивания 3D Gaussian. Однако, несмотря на значительные достижения в области NVS, существуют существенные проблемы, особенно в сценариях с разреженными видами. Традиционные подходы 3DGS обычно обрабатывают Gaussians с одинаковым весом во время рендеринга, что может привести к переобучению и понижению качества реконструкции, особенно в разреженных сценариях. Проблема переобучения в разреженных данных является ключевым перечнем для улучшения качества синтеза новых видов. Кроме того, существующие методы, такие как DropGaussian, предлагают решения для регуляризации, но они не всегда обеспечивают оптимальное балансирование между качеством реконструкции и сложностью модели. Это вызывает потребность в разработке более эффективного подхода, который может адаптивно регулировать веса Gaussians и улучшить качество рендеринга, особенно в условиях разреженности данных. В этой статье предлагается метод UGOD, который вводит концепцию неопределенности (uncertainty) для адаптивного регулирования весов Gaussians. Неопределенность используется для оптимизации прозрачности (opacity) Gaussians и внедрения механизма soft differentiable dropout, который помогает регулировать процесс рендеринга. Этот подход не только сохраняет интегрированность 3DGS, но также обеспечивает высокое качество реконструкции в сравнении с существующими методами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Метод UGOD вводит два основных компонента: адаптивное обучение неопределенности и soft differentiable dropout. Неопределенность, изученная в процессе обучения, руководит обновлением прозрачности Gaussians таким образом, чтобы сохранить целостность 3DGS. Это позволяет модели адаптироваться к разреженным данным и улучшить качество реконструкции. Soft differentiable dropout регулирует неопределенность, преобразуя ее в непрерывные вероятности удаления (drop probabilities), которые затем применяются к процессу проекции и смешивания Gaussians. Этот механизм помогает предотвратить переобучение и улучшить качество рендеринга, особенно в условиях разреженности. Архитектура UGOD сохраняет интегрированность 3DGS и интегрирует эти компоненты в существующую модель без существенных изменений. Это позволяет эффективно использовать преимущества неопределенности и dropout для улучшения результатов синтеза новых видов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода UGOD проведены исследования на нескольких известных датасетах, включая MipNeRF 360. Результаты показывают, что UGOD достигает высокого качества реконструкции в сравнении со стандартными методами 3DGS и существующими решениями, такими как DropGaussian. Например, на датасете MipNeRF 360, UGOD достигает повышения PSNR на 3.27% по сравнению с DropGaussian. Эти результаты демонстрируют, что UGOD эффективно использует адаптивное обучение неопределенности и механизм soft dropout для улучшения качества рендеринга, особенно в сценариях с разреженными данными. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод UGOD имеет широкое применение в области нового вида синтеза (NVS), особенно в случаях, когда доступны разреженные данные. Он может быть использован в различных приложениях, таких как виртуальная и дополненная реальность, 3D-моделирование и компьютерная графика. Преимущества UGOD включают в себя улучшенное качество реконструкции, эффективность рендеринга и адаптивность к разреженным данным. Эти преимущества делают его привлекательным для практических приложений, где важно обеспечить высокое качество визуализации при ограниченных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Метод UGOD является значительным шагом вперед в области 3D Gaussian Splatting и синтеза новых видов. Он предлагает эффективное решение для проблемы переобучения в разреженных данных и показывает высокие результаты на различных датасетах. В будущем, дальнейшее исследование может быть направлено на улучшение адаптивности и скорости обработки данных, а также на применение этого подхода в других областях компьютерной графики и 3D-моделирования. Это может открыть новые возможности для улучшения качества визуализации в различных приложениях.
Annotation:
3D Gaussian Splatting (3DGS) has become a competitive approach for novel view synthesis (NVS) due to its advanced rendering efficiency through 3D Gaussian projection and blending. However, Gaussians are treated equally weighted for rendering in most 3DGS methods, making them prone to overfitting, which is particularly the case in sparse-view scenarios. To address this, we investigate how adaptive weighting of Gaussians affects rendering quality, which is characterised by learned uncertainties pr...
ID: 2508.04968v1 cs.CV, cs.AI, I.4.8; I.2.10; I.5.1
Авторы:

Sadia Kamal, Tim Oates, Joy Wan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Карцинома кожи является самой распространенной формой рака в мире, вызывая значительные затраты на здравоохранение, превышающие 8 миллиардов долларов в год. Ранняя диагностика, точное определение и своевременное лечение играют ключевую роль в повышении шансов на выживание больных. Однако клиническая документирование, необходимое для эффективного управления пациентами, часто является трудоемким и вызывает выгорание у медицинских работников. Документирование врачей основывается на SOAP-нотации (Subjective, Objective, Assessment, and Plan), которая представляет собой детальный формат для записи клинической информации. Однако ручное создание таких заметок требует значительных усилий и времени, что создает дополнительную нагрузку на медицинский персонал. Кроме того, обучение моделей для автоматизации этого процесса часто требует больших объемов аннотированных данных, что может быть непрактично в реальной клинической практике. В этой работе авторы предлагают Skin-SOAP, инновационный метод для автоматического создания структурированных SOAP-заметок на основе минимальных входных данных, таких как изображения лезий и разреженные клинические тексты. Эта работа направлена на уменьшение зависимости от ручных аннотаций и повышение масштабируемости автоматизации документирования, что может существенно облегчить работу клиницистов и снизить риск выгорания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Skin-SOAP представляет собой мультимодальный фреймворк, который использует слабоконтролируемый подход для генерации SOAP-заметок. Метод объединяет визуальную информацию из изображений лезий и текстовую информацию из клинических заметок для создания структурированных клинических документов. Архитектура Skin-SOAP включает в себя несколько компонентов: модуль обработки изображений, модуль обработки текста и модуль генерации SOAP-нотации. Изображения лезий обрабатываются с помощью нейронных сетей для извлечения визуальных признаков, в то время как текст обрабатывается с помощью моделей естественного языка для извлечения клинических концептов. Затем эти признаки объединяются и передаются в модуль генерации, который использует слабоконтролируемые методы для создания конечных SOAP-заметок. Одним из ключевых преимуществ этого подхода является уменьшение необходимости в больших объемах аннотированных данных. Skin-SOAP использует слабоконтролируемые методы обучения, что позволяет создавать клинически релевантные заметки даже при ограниченном количестве данных. Это делает фреймворк более пригодным для реального клинического применения, где аннотированные данные часто отсутствуют или трудно доступны. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Skin-SOAP авторы провели серию экспериментов, используя данные, включающие изображения лезий и клинические тексты. Результаты экспериментов сравнивались с тремя современными моделями: GPT-4o, Claude, и DeepSeek Janus Pro. Для оценки клинической релевантности Skin-SOAP, авторы ввели два новых метрики: MedConceptEval и Clinical Coherence Score (CCS). MedConceptEval измеряет степень соответствия генерируемых заметок клиническим концептом
Annotation:
Skin carcinoma is the most prevalent form of cancer globally, accounting for over $8 billion in annual healthcare expenditures. Early diagnosis, accurate and timely treatment are critical to improving patient survival rates. In clinical settings, physicians document patient visits using detailed SOAP (Subjective, Objective, Assessment, and Plan) notes. However, manually generating these notes is labor-intensive and contributes to clinician burnout. In this work, we propose skin-SOAP, a weakly su...
ID: 2508.05019v1 cs.CV, cs.AI, cs.LG
Авторы:

Ruiyu Li, Changyuan Qiu, Hangrui Cao, Qihan Ren, Yuqing Qiu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Задача автоматической раскраски изображений представляет собой один из наиболее интригующих вызовов в области компьютерного зрения, находящий применение в восстановлении старых фотографий, создании анимации, улучшении медицинской визуализации и кинематографии. Процесс заключается в добавлении реалистичных цветов к черно-белым изображениям, при этом две трети информации о цвете (составляющие U и V в пространстве YUV) безвозвратно утрачены. Это создает принципиальную неоднозначность задачи, поскольку один и тот же объект может иметь множество правдоподобных цветовых вариаций - например, автомобиль может быть красным, синим или зеленым без нарушения реальности. Традиционные подходы воспринимали раскраску как задачу регрессии, где модель предсказывает точные значения цветов. Однако такое формулирование игнорирует мультимодальную природу цветового восприятия - один объект может иметь множество допустимых цветовых решений. Более того, регрессионные методы стремятся к усреднению возможных вариантов, что приводит к тусклым, ненасыщенным результатам. Современные исследования показывают, что семантика сцены и текстурные особенности могут служить мощными подсказками для определения цветов: небо обычно голубое, трава зеленая, а облака белые. Доступность больших массивов обучающих данных (любое цветное изображение может быть использовано для обучения путем его обесцвечивания) создает уникальные возможности для обучения статистических приоров. Авторы работы предлагают переосмыслить задачу раскраски не как регрессию, а как задачу классификации с использованием состязательного обучения, что позволяет учесть мультимодальность цветового пространства и генерировать более реалистичные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод представляет собой гибридную архитектуру, объединяющую сверточные нейронные сети (CNN) и генеративно-состязательные сети (GAN) для решения задачи автоматической раскраски. В основе подхода лежит переход от регрессии к классификации цветового пространства с дискретизацией цветов в 313 бина в пространстве CIE Lab, что позволяет формализовать задачу как многоклассовую классификацию. Генератор представляет собой энкодер-декодер архитектуру на основе CNN, где энкодер использует предобученную сеть ResNet для извлечения высокоуровневых признаков из черно-белого изображения. Декодер представляет собой последовательность транспонированных сверток с пропусками (skip connections) для восстановления пространственного разрешения. Особенностью является использование dilated convolutions для увеличения рецептивного поля без потери разрешения, что критично для захвата глобального контекста изображения. Дискриминатор реализован как PatchGAN - сеть, классифицирующая реальность отдельных патчей изображения размером 70x70 пикселей вместо всего изображения целиком. Это позволяет модели сосредоточиться на локальных текстурах и деталях, что особенно важно для раскраски. Для стабилизации обучения используется WGAN-GP loss с градиентной пенализацией. Ключевой инновацией является внедрение механизма внимания на уровне признаков, который позволяет модели динамически приоритизировать различные части изображения при генерации цветов. Дополнительно используется perceptual loss на основе признаков предобученной сети VGG для сохранения перцептуального сходства между раскрашенным и реальным изображениями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на нескольких датасетах различной природы: ImageNet (1.2 миллиона изображений), COCO-stuff (164 тысячи изображений с детальной сегментацией) и специально подготовленном наборе анимационных кадров. Для обучения использовались 90% данных, оставшиеся 10% - для валидации и тестирования. Все изображения были предварительно обработаны: изменены до разрешения 256x256 пикселей, нормализованы и преобразованы в пространство CIE Lab для разделения яркости и цветовой информации. Основными метриками качества служили Fréchet Inception Distance (FID) для оценки реалистичности результатов, Peak Signal-to-Noise Ratio (PSNR) для измерения точности восстановления, а также усредненная пользовательская оценка через A/B тестирование с участием 100 добровольцев. Предложенный метод достиг F
Annotation:
Image colorization, the task of adding colors to grayscale images, has been the focus of significant research efforts in computer vision in recent years for its various application areas such as color restoration and automatic animation colorization [15, 1]. The colorization problem is challenging as it is highly ill-posed with two out of three image dimensions lost, resulting in large degrees of freedom. However, semantics of the scene as well as the surface texture could provide important cues...
ID: 2508.05068v1 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Seonghoon Yu, Joonbeom Hong, Joonseok Lee, Jeany Son

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальное грундирование (visual grounding) является ключевой задачей в области компьютерного зрения, целью которой является точная локализация объектов в изображении на основе текстовых описаний. Одним из наиболее важных предметов в этой области является referring image segmentation (RIS), который заключается в выделении регионов на изображении, соответствующих заданному текстовому запросу. Также существует задача referring expression comprehension (REC), которая связана с определением и локализацией объекта на основе естественного языка. Однако, существующие методы грундирования сталкиваются с значительными проблемами, связанными со сложностью представления текстовых описаний в виде единственного вектора. Обычно, в текстовом описании могут быть представлены различные атрибуты объекта, такие как цвет, размер, положение, которые могут быть интерпретированы по-разному в зависимости от контекста. Недостаточность информации в текстовом входе может приводить к неточной идентификации объектов, особенно когда изображение содержит несколько похожих объектов. Кроме того, в реальных сценариях объекты могут быть описаны несколькими способами, включая различные атрибуты и отношения. Традиционные методы, основанные на единственной текстовой входной последовательности, не в состоянии полностью использовать эту разнообразную информацию. Это приводит к недостаточно точному определению объекта, особенно когда другие объекты на изображении имеют похожие характеристики. Предлагаемый метод предназначен для решения этой проблематики, используя множественные латентные (скрытые) выражения, созданные на основе одного текстового входа. Эти выражения должны содержать дополнительную информацию о визуальных признаках объекта, которые могут быть отсутствующими в оригинальном текстовом описании. # ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод представляет собой новый подход к задаче referring image segmentation (RIS) и referring expression comprehension (REC), основанный на генерации множественных латентных выражений из единственного текстового входа. Основная идея метода состоит в том, чтобы использовать дополнительную информацию из визуального пространства для улучшения точности грундирования. Для достижения этой цели, авторы предлагают два ключевых модуля: **Subject Distributor** и **Visual Concept Injector**. Модуль **Subject Distributor** отвечает за распределение информации об общих атрибутах объекта (например, общие признаки, которые могут быть присущи нескольким объектам), тогда как **Visual Concept Injector** добавляет уникальные визуальные признаки, которые помогают отличить конкретный объект от других. Метод также включает в себя **positive-margin contrastive learning**, который помогает выравнивать латентные выражения с оригинальным текстовым входом, сохраняя при этом тонкие различия между ними. Это позволяет модели учитывать не только общие атрибуты, но и уникальные характеристики объекта, что повышает точность грундирования. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на нескольких бенчмарках, включая стандартные датасеты для RIS и REC. Результаты показывают, что предлагаемый метод достигает высоких показателей точности по сравнению со стандартными методами. Особенно выделяется улучшение результатов на задаче generalized referring expression segmentation (GRES), где метод показывает значительные природы в точности. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет высокий потенциал для применения в реальных системах компьютерного зрения, где точная идентификация объектов играет важную роль. Например, это может быть полезно в областях автоматического текстового поиска объектов на изображениях, в системах автоматического теггирования изображений, а также в задачах компьютерного зрения, связанных с безопасностью и мониторингом. # ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод для задач referring image segmentation и referring expression comprehension, который использует генерацию множественных латентных выражений для улучшения точности локализации объектов. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности метода, в том числе через оптимизацию модулей и использование более крупных датасетов для обучения.
Annotation:
Visual grounding tasks, such as referring image segmentation (RIS) and referring expression comprehension (REC), aim to localize a target object based on a given textual description. The target object in an image can be described in multiple ways, reflecting diverse attributes such as color, position, and more. However, most existing methods rely on a single textual input, which captures only a fraction of the rich information available in the visual domain. This mismatch between rich visual det...
ID: 2508.05123v1 cs.CV, cs.AI
Авторы:

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen, Mattijs Elschot

## КОНТЕКСТ И ПРОБЛЕМАТИКА Сегментирование органов на медицинских изображениях является краеугольным элементом современной диагностики, планирования хирургических вмешательств и мониторинга лечения. Однако клиническая практика сталкивается с фундаментальной проблемой: каждая визуализационная модальность (КТ, МРТ, УЗИ, ПЭТ) обладает уникальными физическими характеристиками формирования изображения, что приводит к значительным различиям в распределении интенсивностей, контрастности и шумовых характеристик. Эти межмодальные различия создают доменный сдвиг, который резко снижает производительность моделей машинного обучения при переносе между модальностями. Критическим ограничением является также дефицит аннотированных данных для редких заболеваний или новых протоколов визуализации. Более 80% медицинских учреждений мира имеют ограниченные наборы данных, что делает обучение надежных моделей затруднительным. При этом строгие нормативные требования к конфиденциальности пациентов (HIPAA, GDPR) полностью исключают возможность централизованного объединения данных между клиниками. Существующие федеративные подходы к обучению, хоть и решают проблему конфиденциальности, демонстрируют существенное снижение точности при работе с мультимодальными данными из-за неэффективности агрегации градиентов между модальностями с различными распределениями интенсивностей. Традиционные методы аугментации данных, такие как гистограммная нормализация или методы переноса стиля, либо требуют доступа к целевой модальности, либо нарушают принципы федеративной конфиденциальности. ## ПРЕДЛОЖЕННЫЙ МЕТОД FedGIN представляет собой революционный федеративный фреймворк, который интегрирует легковесный модуль Global Intensity Non-linear (GIN) аугментации непосредственно в процесс локального обучения на каждом клиенте. Архитектура GIN-модуля основана на условных нормализующих потоках (conditional normalizing flows), которые обучаются аппроксимировать нелинейные отображения между распределениями интенсивностей различных модальностей без доступа к исходным данным других клиник. Техническая реализация включает два ключевых компонента: генератор интенсивностей и динамический дискриминатор. Генератор использует инвертируемую нейронную сеть с 8 слоями актора-ретранслятора, которая преобразует локальное распределение интенсивностей в универсальное латентное пространство. Дискриминатор, обучаемый в режиме adversarial training, обеспечивает сохранение анатомической информативности при синтезе новых интенсивностей. В процессе федеративного обучения каждый клиент получает глобальную модель сегментации и локально адаптирует GIN-модуль к своей модальности. Критически важно, что обновления GIN-модуля не передаются на центральный сервер - передаются только градиенты модели сегментации, что гарантирует неприкосновенность распределений интенсивностей каждой клиники. Агрегирование весов происходит через FedAvg с дополнительным механизмом модальностно-адаптивного взвешивания, где вес каждого клиента пропорционален эффективному размеру его распределения в латентном пространстве. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на двух типах датасетов: ограниченном (limited) и полном (complete). Ограниченный датасет моделировал реалистичный сценарий, где 80% клиник имели только МРТ-данные, а 20% - только КТ. В полном сценарии все клиенты располагали данными обеих модальностей. Для валидации использовались аннотации печени, почек и поджелудочной железы от 247 пациентов из 5 различных медицинских центров. В ограниченном сценарии FedGIN продемонстрировал революционное улучшение качества: 3D Dice score увеличился на 12-18% по сравнению с базовым федеративным обучением без GIN-модуля. Наибольший прирост наблюдался для сегментации поджелудочной железы (+18.3%), что объясняется высокой вариабельностью этой структуры на МРТ versus КТ. Локальные модели, обученные только на МРТ, показали Dice score 0.742, в то время как FedGIN достиг 0.876 при том же объеме данных. В полном сценарии FedGIN приблизился к производительности идеального centralized обучения,
Annotation:
Medical image segmentation plays a crucial role in AI-assisted diagnostics, surgical planning, and treatment monitoring. Accurate and robust segmentation models are essential for enabling reliable, data-driven clinical decision making across diverse imaging modalities. Given the inherent variability in image characteristics across modalities, developing a unified model capable of generalizing effectively to multiple modalities would be highly beneficial. This model could streamline clinical work...
ID: 2508.05137v1 cs.CV, cs.AI
Авторы:

Xiao Wang, Liye Jin, Xufeng Lou, Shiao Wang, Lan Chen, Bo Jiang, Zhipeng Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуально-языковое отслеживание представляет собой быстроразвивающееся направление в компьютерном зрении, которое объединяет визуальную информацию из видеопоследовательностей с текстовыми описаниями целевого объекта. Традиционные методы визуального отслеживания сталкиваются с фундаментальной проблемой: они полагаются исключительно на визуальные признаки, что делает их негибкими и подверженными ошибкам при изменении внешнего вида объекта, появлении препятствий или в условиях сложных сцен. Текстовое описание объекта, содержащее семантическую информацию о его характеристиках, может существенно повысить надежность и точность отслеживания в долгосрочной перспективе. Существующие подходы к визуально-языковому отслеживанию страдают от нескольких ключевых ограничений. Первые работы просто объединяли фиксированные языковые описания с визуальными признаками без адаптивной способности реагировать на изменения внешнего вида объекта. Более современные методы используют механизмы внимания для модификации языковых признаков, но они не способны к глубокому пониманию контекста и семантически осмысленному обновлению описаний. Недавние исследования попытались применить генеративные модели для динамического обновления текстовых описаний, однако эти методы оказались "черными ящиками" - они не предоставляют интерпретируемую информацию о процессе принятия решений и не полностью используют потенциал больших языковых моделей. Критическая проблема заключается в отсутствии крупномасштабных долгосрочных бенчмарков для визуально-языкового отслеживания, что затрудняет объективную оценку методов и сравнение различных подходов. Долгосрочное отслеживание особенно сложно, так как требует устойчивости к полным исчезновениям объекта из кадра, его повторному появлению после длительного отсутствия и устойчивости к значительным изменениям внешнего вида. Эти вызовы требуют разработки новых методов, способных к рассуждениям и адаптивному обновлению текстовых описаний на основе накопленной информации о треке. ## ПРЕДЛОЖЕННЫЙ МЕТОД ReasoningTrack представляет собой инновационную рамку для визуально-языкового отслеживания, которая использует pre-trained мультимодальную модель Qwen2.5-VL в качестве основы. Ключевой концепцией является внедрение цепочки рассуждений (Chain-of-Thought) в процесс генерации и обновления текстовых описаний целевого объекта. В отличие от предыдущих работ, которые использовали статические или поверхностно обновляемые языковые признаки, ReasoningTrack динамически генерирует обоснованные текстовые описания, которые адаптируются к изменениям внешнего вида объекта на протяжении всей видеопоследовательности. Архитектура системы состоит из трех основных компонентов: модуля рассуждений на основе языковой модели, унифицированной трекинговой backbone-сети и предсказывающей головки. Модуль рассуждений использует Qwen2.5-VL для генерации последовательных рассуждений о текущем состоянии объекта на основе исторической информации и текущего визуального наблюдения. Эти рассуждения представлены в виде естественного языка и включают анализ изменений внешнего вида, потенциальных причин сбоев в отслеживании и обновленное описание объекта. Генерация текста оптимизируется через два этапа: сначала используется Supervised Fine-Tuning (SFT) для обучения базовой способности к рассуждениям, затем применяется алгоритм GRPO (Group Relative Policy Optimization) из области reinforcement learning для дальнейшего улучшения качества рассуждений и их полезности для задачи отслеживания. Обновленные языковые описания затем эмбедируются и объединяются с визуальными признаками в унифицированной backbone-сети, которая использует механизмы перекрестного внимания для эффективного взаимодействия между модальностями. Конечная трекинговая голова генерирует предсказания границ объекта на основе объединенных мультимодальных признаков. Уникальность подхода заключается в том, что языковые рассуждения не только предоставляют семантическую информацию, но и служат формой внешней памяти, сохраняя контекстуальную информацию о треке на протяжении времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для всесторонней оценки пред
Annotation:
Vision-language tracking has received increasing attention in recent years, as textual information can effectively address the inflexibility and inaccuracy associated with specifying the target object to be tracked. Existing works either directly fuse the fixed language with vision features or simply modify using attention, however, their performance is still limited. Recently, some researchers have explored using text generation to adapt to the variations in the target during tracking, however,...
ID: 2508.05221v1 cs.CV, cs.AI, cs.LG
Авторы:

Zane Xu, Jason Sun

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные мультимодальные модели, такие как CLIP, продемонстрировали выдающиеся способности к zero-shot классификации изображений, используя естественные языковые описания в качестве семантических якорей. Эти модели обучаются на масштабных датасетах сопряженных текстовых и визуальных данных, формируя общее встраиваемое пространство, где текстовые и визуальные представления близки по семантике. Однако, несмотря на впечатляющие результаты в "чистых" условиях, такие модели остаются крайне уязвимы к адверсариальным атакам - незаметным для человеческого глаза возмущениям во входных данных, способным полностью изменить предсказания модели. Ключевая проблема заключается в фундаментальном конфликте между повышением адверсариальной робастности и сохранением zero-shot обобщающей способности. Традиционные методы защиты, эффективные для чисто визуальных моделей, оказываются неприменимыми в контексте VLMs из-за уникальной двухмодальной природы архитектуры и необходимости сохранения кросс-модального выравнивания. Более того, большинство существующих защит предполагают наличие обучающего набора из конкретной задачи, что противоречит zero-shot парадигме. Исследовательское сообщество столкнулось с необходимостью разработки специализированных защитных механизмов, которые бы учитывали особенности мультимодального обучения и при этом не требовали переобучения модели на конкретной задаче. Это привело к формированию двух основных направлений: методов, модифицирующих параметры модели (Adversarial Fine-Tuning), и методов, работающих без изменения предобученных весов (Training-Free/Test-Time Defenses). Каждый подход имеет свои фундаментальные ограничения: первый рискует разрушить zero-shot обобщение, второй - ограничен в выразительной мощности защитных преобразований. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы обзора систематизируют восемь ключевых работ в области zero-shot адверсариальной робастности VLMs, классифицируя их по двум основным парадигмам защиты. Первая парадигма - Adversarial Fine-Tuning (AFT) - предполагает градиентное обновление параметров модели с целью повышения робастности, при этом критически важным является сохранение zero-shot способностей. Вторая парадигма - Training-Free/Test-Time Defenses - стремится обеспечить защиту без изменения предобученных весов модели. Эволюция методов прослеживается от простых эвристик до сложных многоуровневых защит. Первоначально предлагались alignment-preserving методы, такие как TeCoA (Test-time Consistency Alignment), которые используют консистентность между исходными и возмущенными представлениями в качестве сигнала для обучения. Затем развились методы re-engineering встраиваемого пространства: LAAT (Learnable Adversarial Augmentation for Text) и TIMA (Test-time Image Modulation for Adversarial robustness) вносят адаптивные изменения в текстовые и визуальные встраивания соответственно. Следующим этапом стало развитие input-level эвристик: AOM (Adversarial Output Matching) использует согласование выходов между оригинальными и преобразованными изображениями, а TTC (Test-time Transformation Consistency) применяет набор трансформаций для устранения адверсариального шума. Кульминацией стало развитие методов latent-space purification, представленных CLIPure, который использует диффузионные модели для очистки встраиваемых представлений в скрытом пространстве признаков. Каждый метод вносит уникальный вклад в решение trade-off между робастностью и обобщением: от легковесных эвристик с минимальными вычислительными затратами до сложных многоступенчатых систем с диффузионной очисткой. Ключевым достижением является разработка методов, которые либо минимально вмешиваются в обученные представления, либо производят обучение исключительно на уровне адаптеров и модулей тонкой настройки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эмпирическая оценка методов проводилась на стандартных бенчмарках для zero-shot классификации, включая ImageNet и его различные смещения (ImageNet-A, ImageNet-R, ImageNet-Sketch), а также на специализированных датасетах для оценки адверсариальной робастности. Атаки оценивались как белые (PGD, AutoAttack), так и черные (Square Attack, Boundary Attack) сценарии, с фокусом на ImageNet-1K как основной тестовой площадке. Результаты показывают интересную динамику trade-off между чистой точностью (clean accuracy) и ад
Annotation:
This report synthesizes eight seminal papers on the zero-shot adversarial robustness of vision-language models (VLMs) like CLIP. A central challenge in this domain is the inherent trade-off between enhancing adversarial robustness and preserving the model's zero-shot generalization capabilities. We analyze two primary defense paradigms: Adversarial Fine-Tuning (AFT), which modifies model parameters, and Training-Free/Test-Time Defenses, which preserve them. We trace the evolution from alignment-...
ID: 2508.05237v1 cs.CV, cs.AI
Показано 2231 - 2240 из 2274 записей