DINOv3
2508.10104v1
cs.CV, cs.LG
2025-08-15
Авторы:
Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
Резюме на русском
#### Контекст
Самостоятельное обучение (self-supervised learning, SSL) представляет собой мощный подход к обучению моделей без необходимости использовать маркированные данные. Он позволяет увеличивать модели до больших размеров и применять их к огромным массивам данных, не ограничиваясь частными задачами или доменами. Однако, несмотря на преимущества SSL, существуют значительные трудности, связанные с динамикой и хранением данных во время обучения, а также с эффективным использованием высококачественных входных данных. Эти ограничения приводят к проблемам с генерацией высококачественных и универсальных визуальных представлений. Данная работа адресует эти проблемы, предлагая DINOv3 — универсальную модель визуальных представлений, которая избавляет от необходимости оптимизации для конкретных задач и достигает выдающихся результатов в разных областях.
#### Метод
DINOv3 основывается на проработанной методологии подготовки данных, которая позволяет эффективно использовать большие массивы данных, в том числе с разным разрешением и типом. Одной из ключевых инноваций является метод "Gram anchoring", который решает проблему размытия детальных фич при продолжительном обучении. Дополнительно, DINOv3 вводит пост-хокт-стратегии, которые позволяют модели гибко реагировать на разные разрешения, модели различных размеров и углубленную интеграцию с текстовыми задачами. Архитектура DINOv3 основывается на продвинутых моделях самостоятельного обучения с вниманием (transformers) и включает в себя несколько экспериментальных модификаций для повышения эффективности и точности.
#### Результаты
Оценки DINOv3 проводились на множестве визуальных задач, включая задачи классификации, детектирования и сегментации. В сравнении с другими моделями, такими как DINOv2 и Swin Transformer, DINOv3 показала выдающиеся результаты, не только в разных конфигурациях, но и при разных уровнях ресурсов. Например, модель показала существенный прогресс в задачах обнаружения объектов, даже при ограничениях ресурсов. Результаты подтверждают, что DINOv3 способна достигать высоких показателей качества фич, даже при работе с небольшими датасетами и при небольшом числе параметров. Это делает ее очень эффективной для применения в практических сценариях, где требуется универсальность и эффективность.
#### Значимость
DINOv3 представляет собой значительный шаг в области обучения без маркированных данных. Она может использоваться в разных областях, таких как робототехника, медицина, аэросъемка и многие другие. Ее гибкость и высокое качество представлений делают ее привлекательной для применения в реальных системах, где необходима возможность самостоятельного обучения и работа с ра
Abstract
Self-supervised learning holds the promise of eliminating the need for manual
data annotation, enabling models to scale effortlessly to massive datasets and
larger architectures. By not being tailored to specific tasks or domains, this
training paradigm has the potential to learn visual representations from
diverse sources, ranging from natural to aerial images -- using a single
algorithm. This technical report introduces DINOv3, a major milestone toward
realizing this vision by leveraging simple yet effective strategies. First, we
leverage the benefit of scaling both dataset and model size by careful data
preparation, design, and optimization. Second, we introduce a new method called
Gram anchoring, which effectively addresses the known yet unsolved issue of
dense feature maps degrading during long training schedules. Finally, we apply
post-hoc strategies that further enhance our models' flexibility with respect
to resolution, model size, and alignment with text. As a result, we present a
versatile vision foundation model that outperforms the specialized state of the
art across a broad range of settings, without fine-tuning. DINOv3 produces
high-quality dense features that achieve outstanding performance on various
vision tasks, significantly surpassing previous self- and weakly-supervised
foundation models. We also share the DINOv3 suite of vision models, designed to
advance the state of the art on a wide spectrum of tasks and data by providing
scalable solutions for diverse resource constraints and deployment scenarios.
Ссылки и действия
Дополнительные ресурсы: