Generic Event Boundary Detection via Denoising Diffusion

2508.12084v1 cs.CV, cs.AI 2025-08-19

Авторы:

Jaejun Hwang, Dayoung Gong, Manjin Kim, Minsu Cho

Резюме на русском

#### Контекст Генерическая детекция разделов событий (Generic Event Boundary Detection, GEBD) — это процесс анализа видео и разделения его на логические, смысловые части. Эта задача находит применение в машинном видении, редактировании видео и анализе видеоконтента. Однако существующие подходы стремятся к детерминированным результатам, не учитывая разнообразие возможных разделов, которое может существовать в зависимости от контекста и предпочтений пользователя. Это ограничение может привести к неполной интерпретации видеоконтента. Наша мотивация заключается в развитии гибкого подхода, который учитывает это разнообразие, обеспечивая как точность, так и широту возможных решений. #### Метод Мы предлагаем DiffGEBD, прогностическую модель на основе диффузионного подхода для детекции генерических разделов событий. Модель строится на основе модели Денойсинг Диффузион (Denoising Diffusion), которая использует шум для создания различных вариантов разделов событий. Решающая функция использует темпоральную самосходство (Temporal Self-Similarity) для характеризации изменений в адаптивной структуре областей видео. Мы также вводим классификатор-бесплатную подстройку (classifier-free guidance), которая позволяет регулировать степень разнообразия в генерируемых результатах. Эта структура позволяет модели охватить широкий спектр возможных разделов событий, учитывая их субъективность и градацию. #### Результаты Мы провели эксперименты на двух стандартных бенчмарках GEBD: Kinetics-GEBD и TAPOS. Модель DiffGEBD показала высокую точность в детекции разделов событий, изменяя различные режимы разделения в зависимости от установленных параметров. Мы также вводим новую метрику, которая оценивает качество прогнозов, с учетом как точности, так и разнообразия в генерируемых разделах. Эксперименты подтвердили, что модель DiffGEBD превосходит существующие подходы как по качеству, так и по гибкости решения. #### Значимость Модель DiffGEBD может быть применена в различных областях, таких как редактирование видео, анализ видеоконтента, автоматизация видеомонтажа и робототехника. Она предоставляет гибкий и точный способ детектировать границы событий, который может быть адаптирован к разным нуждам пользователей. Основное преимущество заключается в том, что она не только точно определяет разделы событий, но и учитывает их разнообразие, что делает ее уникальной в своем классе. Мы видим потенциал для повышения эффективности в приложениях, где необходимо учитывать разного рода разделы в видеоконтенте. #### Выводы Мы представили DiffGEBD, новый подход к генерической детекции разделов событий, основан

Abstract

Generic event boundary detection (GEBD) aims to identify natural boundaries in a video, segmenting it into distinct and meaningful chunks. Despite the inherent subjectivity of event boundaries, previous methods have focused on deterministic predictions, overlooking the diversity of plausible solutions. In this paper, we introduce a novel diffusion-based boundary detection model, dubbed DiffGEBD, that tackles the problem of GEBD from a generative perspective. The proposed model encodes relevant changes across adjacent frames via temporal self-similarity and then iteratively decodes random noise into plausible event boundaries being conditioned on the encoded features. Classifier-free guidance allows the degree of diversity to be controlled in denoising diffusion. In addition, we introduce a new evaluation metric to assess the quality of predictions considering both diversity and fidelity. Experiments show that our method achieves strong performance on two standard benchmarks, Kinetics-GEBD and TAPOS, generating diverse and plausible event boundaries.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Generic Event Boundary Detection via Denoising Diffusion

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация