CIVQLLIE: Causal Intervention with Vector Quantization for Low-Light Image Enhancement
2508.03338v1
cs.CV
2025-08-09
Авторы:
Tongshun Zhang, Pingping Liu, Zhe Zhang, Qiuzhan Zhou
Резюме на русском
Ночной снимок часто сбивают с толку низкое освещение и сильная шумовая помеха, что затрудняет восприятие подробностей. Научные работы в области улучшения низкого освещения (LLIE) столкнулись с проблемой: данных-дривенные сети неоднозначны и зависят от нестабильных предварительных гипотез, теряются при очень темных условиях, тогда как физические модели ограничены своими упрощениями и неэффективны в сложных реальных сценариях.
Мы предлагаем CIVQLLIE — новую модель, использующую векторный квантор (VQ) для токенизации изображений с помощью обучения на больших данных высокого качества. Недостатком VQ учитывается дисперсия между искаженными входными данными и обучающимся кодеком. Для этого мы предложили многоуровневый подход казуального вмешательства: Pixel-level Causal Intervention (PCI) выравнивает низкоуровневые признаки, Feature-aware Causal Intervention (FCI) с LSAG-модулем улучшает каналы, повлиявшие на иллюминацию, а High-frequency Detail Reconstruction Module (HDRM) восстанавливает детали с помощью deformable convolution. Эта модель обеспечивает точное улучшение изображений, сохраняя эффективность и универсальность.
Abstract
Images captured in nighttime scenes suffer from severely reduced visibility,
hindering effective content perception. Current low-light image enhancement
(LLIE) methods face significant challenges: data-driven end-to-end mapping
networks lack interpretability or rely on unreliable prior guidance, struggling
under extremely dark conditions, while physics-based methods depend on
simplified assumptions that often fail in complex real-world scenarios. To
address these limitations, we propose CIVQLLIE, a novel framework that
leverages the power of discrete representation learning through causal
reasoning. We achieve this through Vector Quantization (VQ), which maps
continuous image features to a discrete codebook of visual tokens learned from
large-scale high-quality images. This codebook serves as a reliable prior,
encoding standardized brightness and color patterns that are independent of
degradation. However, direct application of VQ to low-light images fails due to
distribution shifts between degraded inputs and the learned codebook.
Therefore, we propose a multi-level causal intervention approach to
systematically correct these shifts. First, during encoding, our Pixel-level
Causal Intervention (PCI) module intervenes to align low-level features with
the brightness and color distributions expected by the codebook. Second, a
Feature-aware Causal Intervention (FCI) mechanism with Low-frequency Selective
Attention Gating (LSAG) identifies and enhances channels most affected by
illumination degradation, facilitating accurate codebook token matching while
enhancing the encoder's generalization performance through flexible
feature-level intervention. Finally, during decoding, the High-frequency Detail
Reconstruction Module (HDRM) leverages structural information preserved in the
matched codebook representations to reconstruct fine details using deformable
convolution techniques.
Ссылки и действия
Дополнительные ресурсы: