Generic Event Boundary Detection via Denoising Diffusion
2508.12084v1
cs.CV, cs.AI
2025-08-19
Авторы:
Jaejun Hwang, Dayoung Gong, Manjin Kim, Minsu Cho
Резюме на русском
#### Контекст
Генерическая детекция разделов событий (Generic Event Boundary Detection, GEBD) — это процесс анализа видео и разделения его на логические, смысловые части. Эта задача находит применение в машинном видении, редактировании видео и анализе видеоконтента. Однако существующие подходы стремятся к детерминированным результатам, не учитывая разнообразие возможных разделов, которое может существовать в зависимости от контекста и предпочтений пользователя. Это ограничение может привести к неполной интерпретации видеоконтента. Наша мотивация заключается в развитии гибкого подхода, который учитывает это разнообразие, обеспечивая как точность, так и широту возможных решений.
#### Метод
Мы предлагаем DiffGEBD, прогностическую модель на основе диффузионного подхода для детекции генерических разделов событий. Модель строится на основе модели Денойсинг Диффузион (Denoising Diffusion), которая использует шум для создания различных вариантов разделов событий. Решающая функция использует темпоральную самосходство (Temporal Self-Similarity) для характеризации изменений в адаптивной структуре областей видео. Мы также вводим классификатор-бесплатную подстройку (classifier-free guidance), которая позволяет регулировать степень разнообразия в генерируемых результатах. Эта структура позволяет модели охватить широкий спектр возможных разделов событий, учитывая их субъективность и градацию.
#### Результаты
Мы провели эксперименты на двух стандартных бенчмарках GEBD: Kinetics-GEBD и TAPOS. Модель DiffGEBD показала высокую точность в детекции разделов событий, изменяя различные режимы разделения в зависимости от установленных параметров. Мы также вводим новую метрику, которая оценивает качество прогнозов, с учетом как точности, так и разнообразия в генерируемых разделах. Эксперименты подтвердили, что модель DiffGEBD превосходит существующие подходы как по качеству, так и по гибкости решения.
#### Значимость
Модель DiffGEBD может быть применена в различных областях, таких как редактирование видео, анализ видеоконтента, автоматизация видеомонтажа и робототехника. Она предоставляет гибкий и точный способ детектировать границы событий, который может быть адаптирован к разным нуждам пользователей. Основное преимущество заключается в том, что она не только точно определяет разделы событий, но и учитывает их разнообразие, что делает ее уникальной в своем классе. Мы видим потенциал для повышения эффективности в приложениях, где необходимо учитывать разного рода разделы в видеоконтенте.
#### Выводы
Мы представили DiffGEBD, новый подход к генерической детекции разделов событий, основан
Abstract
Generic event boundary detection (GEBD) aims to identify natural boundaries
in a video, segmenting it into distinct and meaningful chunks. Despite the
inherent subjectivity of event boundaries, previous methods have focused on
deterministic predictions, overlooking the diversity of plausible solutions. In
this paper, we introduce a novel diffusion-based boundary detection model,
dubbed DiffGEBD, that tackles the problem of GEBD from a generative
perspective. The proposed model encodes relevant changes across adjacent frames
via temporal self-similarity and then iteratively decodes random noise into
plausible event boundaries being conditioned on the encoded features.
Classifier-free guidance allows the degree of diversity to be controlled in
denoising diffusion. In addition, we introduce a new evaluation metric to
assess the quality of predictions considering both diversity and fidelity.
Experiments show that our method achieves strong performance on two standard
benchmarks, Kinetics-GEBD and TAPOS, generating diverse and plausible event
boundaries.
Ссылки и действия
Дополнительные ресурсы: