Domain-Adaptive Pretraining Improves Primate Behavior Recognition
2509.12193v1
cs.CV, I.4.8; I.2.10; I.5
2025-09-17
Авторы:
Felix B. Mueller, Timo Lueddecke, Richard Vogg, Alexander S. Ecker
Резюме на русском
#### Контекст
Идентификация поведения приматов является ключевым аспектом в области экологии, эволюции и консервации. Она помогает детально изучить сложные интеракции между животными и своей окружающей средой. Однако, существуют значительные проблемы, связанные с высокими затратами на разметку данных. Классические подходы требуют ручной разметки больших интервалов видео, что требует значительных вычислительных ресурсов и времени. Таким образом, нужны более эффективные способы, которые позволят обрабатывать и анализировать большие наборы данных без необходимости ручных разметок.
#### Метод
Мы применяем **доменно-адаптивное повторное обучение (Domain-Adaptive Pretraining, DAP)** для улучшения распознавания поведения приматов. Мы начинаем с процесса самостоятельного обучения (self-supervised learning) с помощью V-JEPA модели, которая позволяет извлекать абстрактные представления из видео. Затем мы применяем DAP, который включает продолжение обучения модели с использованием больших наборов данных с приматами. Это позволяет модели адаптироваться к конкретной области, улучшая точность распознавания. Мы используем два выборка приматских поведения: PanAf и ChimpACT, чтобы проверить наш подход.
#### Результаты
Мы проводим эксперименты, сравнивая наш подход с предыдущими статьями. На двух выборках PanAf и ChimpACT, наша модель показывает более высокую точность распознавания действий, повышая доля правильно распознанных действий на 6.1% и 6.3% соответственно. Мы также выявляем, что большая часть этого улучшения связана с использованием DAP. Это свидетельствует о том, что DAP может значительно улучшить распознавание поведения приматов без необходимости ручных разметок.
#### Значимость
Наш подход имеет многочисленные области применения в экологии и консервации. Он может помочь уменьшить затраты на разметку и увеличить масштабируемость исследований. Благодаря DAP, мы можем сформировать более точные модели распознавания поведения приматов, не требуя массы ручных работ. Это делает наш подход более эффективным и доступным для широкого использования в научных и практических задачах.
#### Выводы
Мы показали, что доменно-адаптивное повторное обучение может значительно повысить точность распознавания поведения приматов. Наши результаты подтверждают потенциал этого подхода для улучшения инструментов в исследовании и консервации приматов. Будущие исследования будут направлены на дальнейшее улучшение методов самостоятельного обучения и доменно-адаптивного обучения, чтобы расширить возможности распознавания поведения в различных приматных видах.
Abstract
Computer vision for animal behavior offers promising tools to aid research in
ecology, cognition, and to support conservation efforts. Video camera traps
allow for large-scale data collection, but high labeling costs remain a
bottleneck to creating large-scale datasets. We thus need data-efficient
learning approaches. In this work, we show that we can utilize self-supervised
learning to considerably improve action recognition on primate behavior. On two
datasets of great ape behavior (PanAf and ChimpACT), we outperform published
state-of-the-art action recognition models by 6.1 %pt. accuracy and 6.3 %pt.
mAP, respectively. We achieve this by utilizing a pretrained V-JEPA model and
applying domain-adaptive pretraining (DAP), i.e. continuing the pretraining
with in-domain data. We show that most of the performance gain stems from the
DAP. Our method promises great potential for improving the recognition of
animal behavior, as DAP does not require labeled samples. Code is available at
https://github.com/ecker-lab/dap-behavior