📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Removing Cost Volumes from Optical Flow Estimators

2025-10-17

Авторы:

Simon Kiefhaber, Stefan Roth, Simone Schaub-Meyer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Cost volumes are used in every modern optical flow estimator, but due to their computational and space complexity, they are often a limiting factor regarding both processing speed and the resolution of input frames. Motivated by our empirical observation that cost volumes lose their importance once all other network parts of, e.g., a RAFT-based pipeline have been sufficiently trained, we introduce a training strategy that allows removing the cost volume from optical flow estimators throughout tr...

ID: 2510.13317v1 cs.CV, I.4.8

arXiv PDF

📄 A Multi-purpose Tracking Framework for Salmon Welfare Monitoring in Challenging Environments

2025-10-02

Авторы:

Espen Uri Høgstedt, Christian Schellewald, Annette Stahl, Rudolf Mester

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Computer Vision (CV)-based continuous, automated and precise salmon welfare monitoring is a key step toward reduced salmon mortality and improved salmon welfare in industrial aquaculture net pens. Available CV methods for determining welfare indicators focus on single indicators and rely on object detectors and trackers from other application areas to aid their welfare indicator calculation algorithm. This comes with a high resource demand for real-world applications, since each indicator must b...

ID: 2509.25969v1 cs.CV, I.4.8; I.4.9

arXiv PDF

📄 Gaussian Alignment for Relative Camera Pose Estimation via Single-View Reconstruction

2025-09-19

Авторы:

Yumin Li, Dylan Campbell

## Контекст Оценка относительного положения камеры в пространстве является ключевым вопросом в области 3D-реконструкции и локализации. Традиционные методы двух-видовой оценки положения камеры не учитывают метрические расстояния, ограничиваясь получением только масштаба перемещения камеры. Это препятствует решению задач, требующих точных метрических оценок, в случаях широких базисных расстояний, текстурно-дефицитных и отражательных поверхностей. Данная работа адресует эти сложности, предлагая новый подход, основанный на использовании подхода "вид из одной точки" (single-view reconstruction) в сочетании с геометрической оценкой положения. ## Метод Разработанная методика GARPS (Gaussian Alignment for Relative Pose Estimation) представляет собой новую архитектуру, которая использует метрическую модель глубины и методы реконструкции сцены на основе гауссовских моделей. Основной механизм состоит в том, чтобы воссоздать трёхмерную модель каждого кадра используя модель глубины и оценить относительное положение камеры через выравнивание этих трёхмерных моделей. Для того, чтобы повысить точность, алгоритм GARPS использует не только геометрическую информацию, но и консистентность цветовых признаков и семантических особенностей. Метод является тренировочно-свободным, что делает его универсальным и гибким. ## Результаты Исследования проводились на датасете Real-Estate10K, который представляет собой несколько тысяч сцен, включая различные условия съемки. Результаты показали, что GARPS превосходит общую эффективность и точность как классических, так и современных методов оценки относительного положения камеры. Особое внимание в тестах уделено обработке широких базисных расстояний и текстурно-дефицитных областей, где остальные методы часто страдают от погрешности. ## Значимость Разработанный подход имеет широкие перспективы применения в 3D-реконструкции, локализации и системах видеонаблюдения. Он отличается высокой точностью и универсальностью, поскольку не требует предварительного обучения и может обрабатывать даже трудные случаи, такие как отражательные и текстурно-дефицитные поверхности. Данный подход может стать основой для следующих исследований в области многовидовой геометрии и глубокого обучения. ## Выводы Результаты экспериментов подтверждают эффективность нового подхода GARPS в точной оценке относительных положений камер. Этот подход открывает новые горизонты для применения глубокого обучения в сложных сценах, где существуют ограничения по текстуре и базису. Будущими направлениями исследований могут стать улучшения реконструкци

Annotation:

Estimating metric relative camera pose from a pair of images is of great importance for 3D reconstruction and localisation. However, conventional two-view pose estimation methods are not metric, with camera translation known only up to a scale, and struggle with wide baselines and textureless or reflective surfaces. This paper introduces GARPS, a training-free framework that casts this problem as the direct alignment of two independently reconstructed 3D scenes. GARPS leverages a metric monocula...

ID: 2509.13652v1 cs.CV, I.4.8; I.4.5

arXiv PDF

📄 Domain-Adaptive Pretraining Improves Primate Behavior Recognition

2025-09-17

Авторы:

Felix B. Mueller, Timo Lueddecke, Richard Vogg, Alexander S. Ecker

#### Контекст Идентификация поведения приматов является ключевым аспектом в области экологии, эволюции и консервации. Она помогает детально изучить сложные интеракции между животными и своей окружающей средой. Однако, существуют значительные проблемы, связанные с высокими затратами на разметку данных. Классические подходы требуют ручной разметки больших интервалов видео, что требует значительных вычислительных ресурсов и времени. Таким образом, нужны более эффективные способы, которые позволят обрабатывать и анализировать большие наборы данных без необходимости ручных разметок. #### Метод Мы применяем **доменно-адаптивное повторное обучение (Domain-Adaptive Pretraining, DAP)** для улучшения распознавания поведения приматов. Мы начинаем с процесса самостоятельного обучения (self-supervised learning) с помощью V-JEPA модели, которая позволяет извлекать абстрактные представления из видео. Затем мы применяем DAP, который включает продолжение обучения модели с использованием больших наборов данных с приматами. Это позволяет модели адаптироваться к конкретной области, улучшая точность распознавания. Мы используем два выборка приматских поведения: PanAf и ChimpACT, чтобы проверить наш подход. #### Результаты Мы проводим эксперименты, сравнивая наш подход с предыдущими статьями. На двух выборках PanAf и ChimpACT, наша модель показывает более высокую точность распознавания действий, повышая доля правильно распознанных действий на 6.1% и 6.3% соответственно. Мы также выявляем, что большая часть этого улучшения связана с использованием DAP. Это свидетельствует о том, что DAP может значительно улучшить распознавание поведения приматов без необходимости ручных разметок. #### Значимость Наш подход имеет многочисленные области применения в экологии и консервации. Он может помочь уменьшить затраты на разметку и увеличить масштабируемость исследований. Благодаря DAP, мы можем сформировать более точные модели распознавания поведения приматов, не требуя массы ручных работ. Это делает наш подход более эффективным и доступным для широкого использования в научных и практических задачах. #### Выводы Мы показали, что доменно-адаптивное повторное обучение может значительно повысить точность распознавания поведения приматов. Наши результаты подтверждают потенциал этого подхода для улучшения инструментов в исследовании и консервации приматов. Будущие исследования будут направлены на дальнейшее улучшение методов самостоятельного обучения и доменно-адаптивного обучения, чтобы расширить возможности распознавания поведения в различных приматных видах.

Annotation:

Computer vision for animal behavior offers promising tools to aid research in ecology, cognition, and to support conservation efforts. Video camera traps allow for large-scale data collection, but high labeling costs remain a bottleneck to creating large-scale datasets. We thus need data-efficient learning approaches. In this work, we show that we can utilize self-supervised learning to considerably improve action recognition on primate behavior. On two datasets of great ape behavior (PanAf and ...

ID: 2509.12193v1 cs.CV, I.4.8; I.2.10; I.5

arXiv PDF

📄 CARDIE: clustering algorithm on relevant descriptors for image enhancement

2025-09-10

Авторы:

Giulia Bonino, Luca Alberto Rizzo

## Контекст Обработка изображений является ключевым аспектом компьютерного зрения, а среди её задач — автоматическое кластеризация изображений. Несмотря на свою важность, этот взгляд остается недостаточно развитым в контексте улучшения изображений. Одной из проблем является невозможность выделения базовых атрибутов, которые могут быть полезны для кластеризации изображений с целью их улучшения. Это затрудняет создание алгоритмов, которые могут действительно улучшить качество изображений. CARDIE (Clustering Algorithm on Relevant Descriptors for Image Enhancement) предлагает решение этой проблемы, ориентировавшись не на семантические атрибуты, а на цвет и яркость изображений. ## Метод CARDIE — это неучитывающий темы (unsupervised) алгоритм кластеризации, основанный на признаках цвета и яркости. Алгоритм разделяет изображения на кластеры на основе этих двух основных атрибутов. Для измерения влияния алгоритмов улучшения изображений CARDIE также предлагает метод, который измеряет изменения в распределении яркости и локальной дисперсии. Это позволяет оценивать, насколько эффективны различные методы улучшения качества изображений и где они могут быть улучшены. ## Результаты В ходе экспериментов были проанализированы различные алгоритмы улучшения изображений, а результаты сравнения показали, что CARDIE может лучше разделять изображения на кластеры, которые действительно влияют на улучшение качества. Особенно выдачным был результат при использовании CARDIE для перестроения датасетов, что позволило улучшить качество работ алгоритмов типа tone mapping и denoising. Это демонстрирует, что алгоритм CARDIE может быть использован для создания более эффективных датасетов для обучения и оценки алгоритмов улучшения изображений. ## Значимость CARDIE может быть применен во многих областях, где необходимо улучшение качества изображений, включая домашние автоматизации, медицинскую изображообработку и развитие систем автоматического видеоробота. Его основные преимущества заключаются в том, что он может делать кластеры более осмысленными для задачи улучшения изображений, чем семантические атрибуты, и может повысить эффективность датасетов для обучения. Это может привести к значительным улучшениям в различных аспектах обработки изображений. ## Выводы Результаты показывают, что CARDIE является эффективным методом для кластеризации изображений, ориентированной на улучшение качества. Он предлагает новую точку зрения на классическую проблему кластеризации в компьютерном зрении. Будущие исследования будут сконцентрированы на расширении CARDIE для работы с более сложными изображениями и интеграции с инновационными методами улучшения изображени

Annotation:

Automatic image clustering is a cornerstone of computer vision, yet its application to image enhancement remains limited, primarily due to the difficulty of defining clusters that are meaningful for this specific task. To address this issue, we introduce CARDIE, an unsupervised algorithm that clusters images based on their color and luminosity content. In addition, we introduce a method to quantify the impact of image enhancement algorithms on luminance distribution and local variance. Using thi...

ID: 2509.06116v1 cs.CV, I.4.8

arXiv PDF