LD-ViCE: Latent Diffusion Model for Video Counterfactual Explanations

2509.08422v1 cs.CV, cs.LG 2025-09-11

Авторы:

Payal Varshney, Adriano Lucieri, Christoph Balada, Sheraz Ahmed, Andreas Dengel

Резюме на русском

## Контекст Видео-базированные AI-системы находят применение в критически важных областях, таких как автономное вождение и медицина. Однако понимание их решений остается сложной задачей из-за сложности спектрально-временных характеристик видеоданных и непрозрачности глубоких нейронных сетей. Текущие методы объяснения решений часто страдают от недостатка временной когерентности, низкой устойчивости и отсутствия действительно каузальных здравых смыслов. Методы объяснения контрафактными примерами обычно не используют подсказки от целевой сети, что приводит к понижению точности и практической ценности. Мы предлагаем LD-ViCE — новую систему, основанную на Latent Diffusion Model, для генерации контрафактных объяснений видео. Наш подход уменьшает затраты вычислительных ресурсов за счет работы в латентном пространстве и обеспечивает реалистичные и понятные контрафактные объяснения с помощью дополнительного шага рефинейма. ## Метод LD-ViCE использует стандартный Diffusion Model (DDPM) для создания контрафактных видео, но работает в латентном пространстве для эффективности. Он принимает как вход видео-сценарий и выход модели, а также дополнительные параметры, такие как временная длительность и целевые значения. LD-ViCE проводит итеративное изменение кадров видео, чтобы получить контрафактные сценарии, которые не только реалистичны, но и полностью вызваны моделью. Основные этапы: 1. Изменение латентных представлений на основе сценария. 2. Оптимизация целевых значений с помощью градиентного поиска. 3. Шаг рефинейма для повышения качества и реалистичности выхода. Этот подход оптимизирует сбалансированность между точностью и реалистичностью, позволяя генерировать целые видео-объяснения с низкими затратами. ## Результаты LD-ViCE протестирован на трех различных наборах данных: EchoNet-Dynamic (ультразвуковые снимки сердца), FERV39k (лицевые выражения) и Something-Something V2 (распознавание действий). Он показал значительные преимущества по сравнению с современными методами: - **R2-score**: +68% по сравнению с состоянием искусства. - **Inference Time**: -50%. Квалитативные анализы показали, что LD-ViCE генерирует видео-объяснения, которые не только реалистичны, но и обладают высокой семантической когерентностью. Этот подход демонстрирует высокую ценность для развития надежных AI-систем в критически важных областях. ## Значимость LD-ViCE может использоваться во многих критически важных областях, таких как медицина, движение и видео-аналитика. Его преимущества заключаются в том, что он обеспечивает более точные, реалистичные и понятные объяснения, что повышает доверие к AI-системам.

Abstract

Video-based AI systems are increasingly adopted in safety-critical domains such as autonomous driving and healthcare. However, interpreting their decisions remains challenging due to the inherent spatiotemporal complexity of video data and the opacity of deep learning models. Existing explanation techniques often suffer from limited temporal coherence, insufficient robustness, and a lack of actionable causal insights. Current counterfactual explanation methods typically do not incorporate guidance from the target model, reducing semantic fidelity and practical utility. We introduce Latent Diffusion for Video Counterfactual Explanations (LD-ViCE), a novel framework designed to explain the behavior of video-based AI models. Compared to previous approaches, LD-ViCE reduces the computational costs of generating explanations by operating in latent space using a state-of-the-art diffusion model, while producing realistic and interpretable counterfactuals through an additional refinement step. Our experiments demonstrate the effectiveness of LD-ViCE across three diverse video datasets, including EchoNet-Dynamic (cardiac ultrasound), FERV39k (facial expression), and Something-Something V2 (action recognition). LD-ViCE outperforms a recent state-of-the-art method, achieving an increase in R2 score of up to 68% while reducing inference time by half. Qualitative analysis confirms that LD-ViCE generates semantically meaningful and temporally coherent explanations, offering valuable insights into the target model behavior. LD-ViCE represents a valuable step toward the trustworthy deployment of AI in safety-critical domains.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LD-ViCE: Latent Diffusion Model for Video Counterfactual Explanations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация