📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Utku Ozbulak, Michaela Cohrs, Hristo L. Svilenov, Joris Vankerschaver, Wesley De Neve

## Контекст Sub-visible particle analysis в flow imaging microscopy широко применяется в промышленности, где необходимо идентифицировать различные типы частиц, включая силиконовое масло, белки и воздушные крупинки. Однако применение многоклассовых классификаторов сталкивается с существенными проблемами, в том числе нехваткой данных и неравномерным распределением классов. Такие проблемы особенно актуальны для редких типов частиц, таких как воздушные крупинки или силиконовое масло, которые встречаются реже, чем белки. Эти ограничения приводят к неэффективности классификации и снижению качества результатов. Для решения этой проблемы предлагается использовать генерирующие модели глубокого обучения, которые способны создавать высококачественные изображения частиц для более эффективного обучения классификационных моделей. ## Метод Разработанной работе лежит Diffusion Model (DDPM), которая генерирует высококачественные изображения частиц, эмулирующие реальные образцы. Метод основывается на предсказании изображений в гауссовом распределении, которое позволяет улучшить данные для обучения. Модель обучается на выборке данных, содержащей 500,000 изображений белковых частиц, и используется для генерирования изображений редких типов частиц, таких как воздушные крупинки или силиконовое масло. Для эффективного обучения классификационной модели включены изображения, генерированные диффузионной моделью, в качестве дополнения к основной выборке. ## Результаты Выполнены крупномасштабные эксперименты с 500,000 изображений белковых частиц, которые показали, что добавление генерируемых изображений диффузионной модели в обучающую выборку улучшает качество классификации. Это продемонстрировано на тестовой выборке, где использовались изображения с различных классов частиц. Обнаружено, что добавление генерируемых изображений к обучающей выборке не только улучшает точность классификации, но и повышает уверенность модели в предсказаниях. Кроме того, проведено сравнение с другими методами, чтобы подтвердить высокую эффективность предложенного подхода. ## Значимость Разработанный подход может быть применен в различных областях промышленности, где требуется точная классификация частиц. Это позволяет улучшить качество продукции, снижать риски связанные с недостаточной идентификацией частиц и повысить эффективность производства. Благодаря генерируемым изображениям можно получить более богатую выборку данных, что улучшает обучение глубоких сетей. Также этот подход может быть полезен для обучения моделей классификации в других аналогичных задачах с небольшими обучающими выборка
Annotation:
Sub-visible particle analysis using flow imaging microscopy combined with deep learning has proven effective in identifying particle types, enabling the distinction of harmless components such as silicone oil from protein particles. However, the scarcity of available data and severe imbalance between particle types within datasets remain substantial hurdles when applying multi-class classifiers to such problems, often forcing researchers to rely on less effective methods. The aforementioned issu...
ID: 2508.06021v1 cs.CV, cs.AI, cs.LG
Авторы:

Sofiane Bouaziz, Adel Hafiane, Raphael Canals, Rachid Nedjai

#### Контекст Ускоренная городского типа, климатические изменения и напряжение в сельском хозяйстве повышают потребность в точном и временном мониторинге окружающей среды. Земляной температура поверхности (LST) является ключевой переменной в этой области и извлекается при помощи дальнего зондирования. Однако существует торговля между пространственной и временной разрешенностью систем дальнего зондирования. Хотя методы фузирования пространственно-временных данных предлагают быстрые решения, малоизвестно о разработке методов для оценки дневной ЛСТ с разрешением 10 м. В данном исследовании предлагается WGAST — с WEAKLY SUPERVISED GENERATIVE NETWORK для оценки дневной ЛСТ на 10 м с помощью спектрально-временного слияния данных Terra MODIS, Landsat 8 и Sentinel-2. Это первый полностью глубокий фреймворк для этой задачи. #### Метод WGAST использует кондыциональную сеть генеративной адверсарной архитектуры, которая состоит из четырёх этапов: извлечения признаков, слияния, реконструкции LST и сглаживания шума. На первом этапе используется набор энкодеров для извлечения многоуровневых латентных представлений входных данных. На втором этапе эти представления объединены с помощью механизма косинусной сходства, нормализации и временного аттенционного механизма. На третьем этапе эти объединённые признаки декодируются в высокорезольвентные LST, после чего используется Гауссовский фильтр для сглаживания высокочастотного шума. Обучение проводится на основе уязвимого стратегии, основывающейся на физических принципах среднего значения и усиленной отзывчивостью на квадратные патчи PatchGAN дискриминатором. #### Результаты В экспериментах, проведённых на специально созданных датасетах, WGAST показал существенную выгоду по сравнению с существующими методами. На эталонных данных он уменьшил RMSE на 17.18% и увеличил SSIM на 11.00% по сравнению с лучшим базовым решением. Также WGAST продемонстрировал высокую устойчивость к облачным источникам и в точности распознавал тонкие термальные паттерны, как показал сравнение с 33 основными станциями. Эти результаты подтверждают эффективность WGAST в решении задачи оценки 10 метровых десятиметровых ЛСТ. #### Значимость WGAST может применяться в различных областях, включая климатическую моделирование, сельское хозяйство и системы мониторинга здоровья окружающей среды. Его основные преимущества заключаются в высокой точности, возможности работы с отсутствующими данными и высоком разрешении. Это могло бы способствовать повышению качества моделей стохастической климатической д
Annotation:
Urbanization, climate change, and agricultural stress are increasing the demand for precise and timely environmental monitoring. Land Surface Temperature (LST) is a key variable in this context and is retrieved from remote sensing satellites. However, these systems face a trade-off between spatial and temporal resolution. While spatio-temporal fusion methods offer promising solutions, few have addressed the estimation of daily LST at 10 m resolution. In this study, we present WGAST, a Weakly-Sup...
ID: 2508.06485v1 cs.CV, cs.AI, cs.LG
Авторы:

Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong

## Контекст Монокулярные глубинные оценщики (Monocular Depth Estimators, FMDEs) — одна из ключевых технологий в области глубинной оценки, обладающих высокой точностью при использовании кадров в перспективной камеры. Однако, при переходе к камерам с фишей, эти методы чувствительны к ковариатному сдвигу, вызванному изменениями калибровочных параметров (на примере внутренних и дисторсионных параметров). Это приводит к неточным глубинным оценкам, что ограничивает применение FMDEs в сценариях, требующих использования фишевых камер. Наша работа направлена на обеспечение универсальности FMDEs для фишевых камер без необходимости их переучивания или оптимизации. ## Метод Мы предлагаем метод, основанный на использовании **Calibration Tokens** — легковесных механизмов, которые регулируют входные данные для FMDEs, чтобы достичь алигнмента между латентными пространствами фишевых и перспективных кадров. Эти токены позволяют избежать неполадок, связанных с перекалибровкой или проекцией на каноническую систему координат, что часто приводит к потерям или артефактам. Мы используем publicly available large-scale perspective image datasets для дообучения FMDEs на фишевых кадрах, пересчитав их угловые преобразования. Наш метод является self-supervised и не требует использования фишевых данных для обучения. ## Результаты Мы проверили нашу модель на различных FMDEs и многочисленных изображениях, включая внутренние и внешние сцены. Наши результаты показывают, что подход с Calibration Tokens позволяет достичь значительных улучшений в точности глубинных оценок по сравнению с состоянием искусства (state-of-the-art). Это достигается за счет того, что мы используем только один набор токенов для оба категорий — перспективных и фишевых кадров. Это универсален достигнутый благодаря обобщающему потенциалу нашего подхода. ## Значимость Наше решение открывает путь к обобщению FMDEs для использования с фишевыми камерами в различных приложениях, таких как VR, AR, и системы автоматизированного вождения. Несмотря на то, что метод не требует специальных фишевых данных, он позволяет достичь высокой точности и повторяемости. Это может существенно сократить затраты на проектирование и развертывание систем, которым требуется обработка изображений в фишевой камере. ## Выводы Мы представили метод расширения FMDEs для работы с фишевыми камерами с помощью Calibration Tokens. Этот метод эффективен, self-supervised и не требует переучивания модели. Мы показали, что он позволяет повысить точность глубинных оценок и обеспечивает широкое применение в различных сценариях. Будущие работы будут направлены на улучшение метода для поддержки более сложных сцен и типов камер. Наш код доступен по а
Annotation:
We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cam...
ID: 2508.04928v2 cs.CV, cs.AI, cs.LG
Авторы:

Basna Mohammed Salih Hasan, Ramadhan J. Mstafa

## Контекст Гендерная классификация — это задача определения пола человека на основе различных биометрических признаков. Она находит применение в сферах, таких как слежение, корпоративное профилирование и интерактивные системы компьютера-человек. Информация о полу человека является одним из слабых биометрических признаков, который может быть использован для установления личности. На протяжении многих лет разработаны различные методы определения пола, включая такие, как определение по лицу, отпечаткам пальцев, отпечаткам ладони, ДНК, ушам, походке и яблочку. Однако большинство методов определения пола базируются на определении лица. Яблочка, в свою очередь, является важной биометрической характеристикой, так как, по современным исследованиям, она остается практически неизменной в течение всего жизненного цикла человека. Кроме того, она является внешне видимой и неприхотливой к использованию в практических приложениях. На данный момент существуют высококачественные методы для сегментации и кодирования ирисных изображений, что облегчает выбор и извлечение признаковых векторов из текстуры ириса. Эта работа охватывает различные подходы к определению пола на основе ирисных изображений, подробно рассматривает их преимущества и недостатки. Она также выделяет проблемы и предлагает направления для будущих исследований. ## Метод В работе предлагается подробный обзор различных методов классификации пола на основе ирисных изображений. Изучаются методы, основанные на различных аспектах, таких как глубокое обучение, машинное обучение, статистические методы и т. д. Техническая часть работы включает в себя обзор представлений ирисных изображений, выбор и исследование признаков, методы классификации и оценки качества. Описывается архитектура существующих систем классификации пола, а также их особенности и ограничения. Также приводится сравнительный анализ различных подходов, указываются их достоинства и недостатки. Работа также подробно охватывает методы разделения изображений ириса на отдельные части, кодирования этих частей и их использования для классификации пола. Литературный обзор включает в себя работы, которые использовали различные биометрические признаки, в том числе ирис, для классификации пола, а также работы, которые сравнивали различные методы классификации пола. ## Результаты В ходе исследования проанализированы различные методы классификации пола на основе ирисных изображений. На основе сравнительного анализа было выделено, что глубокое обучение является одним из наиболее эффективных подходов в этой области. Было проведено исследо
Annotation:
Gender classification is attractive in a range of applications, including surveillance and monitoring, corporate profiling, and human-computer interaction. Individuals' identities may be gleaned from information about their gender, which is a kind of soft biometric. Over the years, several methods for determining a person's gender have been devised. Some of the most well-known ones are based on physical characteristics like face, fingerprint, palmprint, DNA, ears, gait, and iris. On the other ha...
ID: 2508.05246v2 cs.CV, cs.AI, cs.LG
Авторы:

Xiao Wang, Hao Si, Fan Zhang, Xiaoya Zhou, Dengdi Sun, Wanli Lyu, Qingquan Yang, Jin Tang

Анализ многомерных временных рядов — относительно сложная задача в AI, в связи с высокой размерностью, динамичностью и сложными взаимосвязями в данных. Для решения этой проблемы предлагается HGTS-Former, новая архитектура на основе гиперграфов и трансформеров, которая эффективно моделирует взаимосвязи между переменными в временных рядах. Алгоритм включает эмбеддинг каждого патча в токены, многоголосую самоповторяющуюся аттенцию для усиления временных паттернов и иерархические гиперграфы для агрегирования локальных характеристик и выявления зависимостей между переменными. Особенностью архитектуры является модуль EdgeToNode, который превращает гиперребра в вершины, улучшая выходные признаки. Эксперименты на двух задачах и восьми датасетах подтвердили высокую эффективность HGTS-Former в анализе многомерных временных рядов, демонстрируя его применимость и релевантность в этой области.
Annotation:
Multivariate time series analysis has long been one of the key research topics in the field of artificial intelligence. However, analyzing complex time series data remains a challenging and unresolved problem due to its high dimensionality, dynamic nature, and complex interactions among variables. Inspired by the strong structural modeling capability of hypergraphs, this paper proposes a novel hypergraph-based time series transformer backbone network, termed HGTS-Former, to address the multivari...
ID: 2508.02411v1 cs.CV, cs.AI, cs.LG
Авторы:

J. Alex Hurt, Trevor M. Bajkowski, Grant J. Scott, Curt H. Davis

Мы исследовали производительность трансформеров и современных сверточных сетей (DCNN) на современных данных ремутного зрения (remote sensing). Несмотря на то, что DCNNs стали стандартом в обработке изображений, в том числе ремутного зрения, появление трансформеров позволило наблюдать второй скачок в развитии компьютерного зрения. Однако их производительность на больших данных ремутного зрения еще не до конца изучена. Мы сравнили 11 моделей детектирования объектов, включая 5 трансформеров и 6 DCNNs, на трех больших датасетах ремутного зрения. Наши результаты показали, что трансформеры показывают статус-кво в задаче детектирования объектов на сложных данных ремутного зрения, превосходя DCNNs в разных аспектах. Этот результат подкрепляет роль трансформеров в новых технологиях для обработки изображений.
Annotation:
In 2012, AlexNet established deep convolutional neural networks (DCNNs) as the state-of-the-art in CV, as these networks soon led in visual tasks for many domains, including remote sensing. With the publication of Visual Transformers, we are witnessing the second modern leap in computational vision, and as such, it is imperative to understand how various transformer-based neural networks perform on satellite imagery. While transformers have shown high levels of performance in natural language pr...
ID: 2508.02871v1 cs.CV, cs.AI, cs.LG
Авторы:

Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Xiaohong Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реализация контролируемого генеративного моделирования видео из текстового описания (Text-to-Video, T2V) является актуальной проблемой в области компьютерного зрения. Особенно сложной задачей является управление траекториями движения объектов в сценах с несколькими движущимися объектами. Большинство моделей и датасетов в области T2V разработаны с учетом движения одного объекта, что существенно ограничивает возможности текущих генеративных моделей при работе с многообъектными сценами. Существующие подходы к контролю движения объектов в T2V часто не поддерживают сцены с несколькими перемещающимися объектами или значительно теряют в эффективности при возникновении пересечений траекторий. Такие коллизии приводят к семантическим конфликтам в областях пересечения, что осложняет создание когерентных видео. Таким образом, необходимо разработать метод, который позволит эффективно контролировать траектории нескольких объектов, избегая конфликтов и обеспечивая высокое качество синтеза. Вводная задача состоит в том, чтобы создать метод, позволяющий разделять объекты на разные слои в процессе генерации, чтобы каждый объект мог быть синтезирован независимо от других. Такой подход должен улучшить контроль над процессом генерации и повысить качество видео в многообъектных сценах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанной проблемы авторы предлагают метод LayerT2V, который основывается на построении видео путем послойной композиции фона и объектов переднего плана. Каждый объект помещается на отдельный "слой", что позволяет изолировать его траекторию от других объектов. Этот подход обеспечивает гибкое интегрирование независимых элементов видео, улучшая контроль над процессом генерации. LayerT2V работает в несколько этапов. Сначала формируется фоновый слой, затем добавляются объекты переднего плана, каждый из которых располагается на своем слое. Это позволяет избегать семантических конфликтов при пересечении траекторий, так как каждый объект обрабатывается независимо. Также метод включает механизмы для обеспечения когерентности между слоями, что позволяет создавать более естественные и реалистичные видео. Архитектура LayerT2V включает модули для генерации фона, распознавания и отслеживания объектов, а также модули для их послойной композиции. Эти модули работают совместно, обеспечивая высокую точность и качество генерации видео. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности LayerT2V. Испытания проводились на датасетах, содержащих сцены с несколькими движущимися объектами. Были использованы метрики mIoU (mean Intersection over Union) и AP50 (Average Precision at 50% IoU) для оценки качества генерации. Результаты показали, что LayerT2V превосходит текущие лучшие методы (SOTA) по обеим метрикам. В частности, показатель mIoU улучшился на 1.4 раза, а AP50 – на 4.5 раза. Эти результаты демонстрируют высокую эффективность подхода LayerT2V при генерации видео в многообъектных сценах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LayerT2V имеет широкое применение в различных областях, где необходимо генерировать видео с несколькими движущимися объектами. Например, это может быть использовано в разработке систем автоматического видеомонтажа, виртуальной и дополненной реальности, а также в системах для создания контента. Преимущества LayerT2V заключаются в его способности обрабатывать сложные сцены с несколькими объектами, обеспечивая высокую точность и контроль над процессом генерации. Это может значительно упростить процесс создания видео для различных приложений, увеличив эффективность и качество конечного продукта. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ LayerT2V представляет собой значительный шаг вперед в области T2V генерации, особенно в контексте многообъектных сцен. Он решает проблему семантических конфликтов при пересечении траекторий и обеспечивает высокое качество генерации видео. В будущем можно рассмотреть расширение этого подхода для работы с более сложными сценами, включая те, где объекты имеют более сложные траектории движения. Также можно исследовать возможности интеграции этого метода с другими технологиями, такими как реальновременная генерация видео или адаптивное управление объектами в зависимости от контекста.
Annotation:
Controlling object motion trajectories in Text-to-Video (T2V) generation is a challenging and relatively under-explored area, particularly in scenarios involving multiple moving objects. Most community models and datasets in the T2V domain are designed for single-object motion, limiting the performance of current generative models in multi-object tasks. Additionally, existing motion control methods in T2V either lack support for multi-object motion scenes or experience severe performance degrada...
ID: 2508.04228v1 cs.CV, cs.AI, cs.LG, cs.MM
Авторы:

Xiao Wang, Ziwen Wang, Wentao Wu, Anjie Wang, Jiashu Wu, Yantao Pan, Chenglong Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автономные транспортные системы и роботизированные технологии ставят все более высокие требования к качеству и точности восприятия объектов окружающей среды. Одним из ключевых задач в этой области является детектирование и сегментация автомобилей, включая тонкую сегментацию их частей. Несмотря на значительные успехи в области компьютерного зрения, существующие решения сталкиваются с рядом ограничений. Предобученные модели сегментации, такие как Segment Anything Model (SAM), открыли новые возможности в области искусственного интеллекта, но имеют существенные ограничения при применении к задачам тонкой сегментации, например, сегментации деталей автомобилей. SAM не предоставляет доступ к функции сегментации на основе текстовых запросов, а также не позволяет получать маски с готовыми семантическими метками, что существенно ограничивает его применимость к задачам, требующим структурированного понимания объектов. Дополнительная сложность заключается в том, что существующие модели не всегда учитывают конкретные структурные и контекстные отношения между частями объектов, что критично для задач, связанных с анализом деталей автомобилей. Кроме того, отсутствие достаточно больших и качественных датасетов для сегментации автомобильных компонентов препятствует развитию этой области. Эти проблемы подчеркивают необходимость разработки нового подхода, который сочетает в себе преимущества предобученных моделей с дополнительными контекстными и структурными элементами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеуказанных проблем авторы предлагают фреймворк SAV, который состоит из трех основных компонентов. 1. **SAM-based Encoder-Decoder**: Этот компонент основывается на SAM и расширяет его способности за счет интеграции кодирования дополнительной контекстной информации. Он использует энкодер-декодер для повышения качества сегментации, особенно при работе с деталями автомобилей. 2. **Vehicle Part Knowledge Graph**: Для моделирования структурных и пространственных отношений между частями автомобиля используется знание онтологии. Это позволяет кодировать предварительные структурные знания и улучшает точность сегментации за счет лучшего понимания контекста. 3. **Context Sample Retrieval Encoding Module**: Данный модуль оптимизирует сегментацию за счет идентификации визуально похожих экземпляров из данных обучения. Он предоставляет богатый контекст для модели, повышая ее способность к обобщению. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов на новом датасете VehicleSeg10K, который содержит 11 665 высококачественных аннотированных изображений с различными сценами и точками зрения. Были протестированы несколько базовых моделей для сравнения с предложенным подходом SAV. Результаты показали значительное улучшение качества сегментации, особенно в случаях сложных сцен и разнообразных углов обзора. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SAV имеет широкое применение в области автономного вождения, а также в задачах мониторинга и анализа транспортных систем. Он позволяет добиться более точной и надежной сегментации автомобильных деталей, что важно для безопасности и эффективности автоматизированных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод SAV успешно решает проблемы существующих моделей, предоставляя более точную и контекстно-зависимую сегментацию. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов и расширении датасетов для более широких сценариев применения.
Annotation:
With the rapid advancement of autonomous driving, vehicle perception, particularly detection and segmentation, has placed increasingly higher demands on algorithmic performance. Pre-trained large segmentation models, especially Segment Anything Model (SAM), have sparked significant interest and inspired new research directions in artificial intelligence. However, SAM cannot be directly applied to the fine-grained task of vehicle part segmentation, as its text-prompted segmentation functionality ...
ID: 2508.04260v1 cs.CV, cs.AI, cs.LG
Авторы:

Hongxu Chen, Zhen Wang, Taoran Mei, Lin Li, Bowei Zhu, Runshi Li, Long Chen

**Резюме** В статье предлагается метод **ErasePro** для решения проблемы **Concept Erasure** в моделях текст-к-изображению. Задача Concept Erasure заключается в том, чтобы предотвратить модель от генерации контента, связанного с нежелательными семантическими понятиями (target concepts). Основные ограничения существующих методов заключаются в том, что они могут оставлять в мешанине неполностью удаленные понятия (недостаточная гармонизация) и приводят к потере качества генерации, сконцентрировав параметрические изменения в небольших глубинных слоях модели. **ErasePro** предлагает решение этих проблем с помощью **строгого нулевого-резидуального ограничения** в оптимизационной задаче, обеспечивая полное удаление нежелательных понятий, и **прогрессивной стратегией обновления**, где изменения параметров происходят слой за слоем, начиная от глубинных до слоев более высокого уровня. Это позволяет снизить влияние на качество генерации и улучшить точность удаления. Эмпирические исследования подтвердили, что ErasePro эффективно решает задачу concept erasure во всех тестах (instance, art style и nudity erasure). Результаты показывают, что этот подход является более точным и сохраняет более высокое качество генерации.
Annotation:
Concept Erasure, which aims to prevent pretrained text-to-image models from generating content associated with semantic-harmful concepts (i.e., target concepts), is getting increased attention. State-of-the-art methods formulate this task as an optimization problem: they align all target concepts with semantic-harmless anchor concepts, and apply closed-form solutions to update the model accordingly. While these closed-form methods are efficient, we argue that existing methods have two overlooked...
ID: 2508.04472v1 cs.CV, cs.AI, cs.LG
Авторы:

Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Одним из ключевых направлений в области компьютерного зрения является оценка глубины сцены на основе монокулярных изображений (monocular depth estimation). Несмотря на значительные успехи в этой области, большинство существующих методов ориентированы на работу с перспективными изображениями (perspective images), которые имеют стандартные параметры камеры и минимальные искажения. Однако в реальных сценариях, таких как автономные транспортные системы или робототехника, часто используются фишей-объективы (fisheye lenses), которые обеспечивают большое зрение поля, но вводят значительные искажения. Это создает проблему, так как фундаментальные модели оценки глубины (foundational monocular depth estimators, FMDEs), обученные на перспективных данных, не могут эффективно работать с фишей-изображениями из-за ковариативного сдвига (covariate shift), вызванного изменениями параметров калибровки камеры (intrinsic, distortion). Традиционные подходы к решению этой проблемы включают переобучение (retraining) или дообучение (finetuning) моделей на данных фишей-камер, что требует больших вычислительных ресурсов и доступа к большим наборам данных. Также, методы калибровки и преобразования изображений в канонический кадр могут вводить артефакты и потерю точности. Это подчеркивает необходимость в новом подходе, который мог бы адаптировать FMDEs для работы с фишей-изображениями без необходимости переобучения или тяжелых модификаций в пространстве изображений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод, названный **Calibration Tokens**, который позволяет адаптировать FMDEs для фишей-изображений без необходимости в повторном обучении или преобразованиях изображений. Основная идея заключается в использовании Calibration Tokens – легковесных адаптационных механизмов, которые модулируют латентные вложения (latent embeddings) FMDEs для выравнивания их распределения с теми, что были обучены на перспективных изображениях. Calibration Tokens работают в латентном пространстве модели, избегая прямых модификаций в пространстве изображений, что позволяет избежать возникновения артефактов. Этот подход выгоден, поскольку латентное пространство FMDEs уже обладает выразительностью, которая может быть эффективно модифицирована для выравнивания распределений. Метод является self-supervised и не требует доступа к реальным фишей-изображениям для обучения. Вместо этого, он использует публично доступные наборы данных перспективных изображений. Для обучения, перспективные изображения перекалибруются в фишей-изображения, и затем происходит принуждение к согласованности (consistency) между оценками глубины для обоих типов изображений. Это позволяет эффективно переносить знания из перспективных моделей на фишей-камеры. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах было продемонстрировано, что метод Calibration Tokens позволяет значительно улучшить точность оценки глубины для фишей-камер по сравнению с состоянием техники. Авторы провели эксперименты на различных FMDEs, включая модели обученные на больших наборах данных перспективных изображений. Результаты показали, что метод не только улучшает точность, но и обеспечивает согласованность оценок глубины между перспективными и фишей-изображениями. Данные для экспериментов были взяты из общедоступных наборов данных, которые включали как внутренние, так и наружные сцены. Метод был протестирован на различных типах сцен, где он показал последовательное улучшение по сравнению с другими подходами. Благодаря единому набору Calibration Tokens, метод демонстрирует высокую эффективность и простоту применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение данного метода заключается в его возможности эффективного использования FMDEs в реальных сценариях, где часто используются фишей-объективы. Это может быть применено в автономных транспортных системах, робототехнике, видеонаблюдении и других областях, где необходима точная оценка глубины с использованием фишей-камер. Преимущества метода включают в себя: - **Быстрая адаптация** без необходимости переобучения модели. - **Снижение затрат вычислительных ресурсов**, так как не требуется фине-тюнинг или создание новых наборов данных. - **Улучшение точности** благодаря эффективной модификации латентных вложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод Calibration Tokens, который позволяет эффективно адаптировать FMDEs для фишей-камер без необходимости в повторном обучении или преобразованиях изображений. Этот метод является self-supervised и использует публично доступные наборы данных перспективных изображений для обучения. В будущем, данный подход может быть расширен для других типов камер или сцен, а также может быть интегрирован в более широкие системы компьютерного зрения. Он также может быть использован для улучшения точности в других задачах, связанных с обработкой изображений и оценкой глубины.
Annotation:
We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cam...
ID: 2508.04928v1 cs.CV, cs.AI, cs.LG
Показано 341 - 350 из 358 записей