Forecasting and Visualizing Air Quality from Sky Images with Vision-Language Models

2509.15076v1 cs.LG, cs.CV 2025-09-20
Авторы:

Mohammad Saleh Vahdatpour, Maryam Eyvazi, Yanqing Zhang

Резюме на русском

## Контекст Проблема загрязнения воздуха является одной из ключевых угроз для здоровья человека и устойчивого развития окружающей среды. Несмотря на развитие систем мониторинга воздушной загрязненности, они часто ограничиваются локальным покрытием и доступом. Это затрудняет прогнозирование уровня загрязнения и принятие обоснованных решений в сфере управления. Поэтому необходимы новые подходы, которые могут основываться на искусственном интеллекте и использовать доступные изображения неба для прогнозирования и визуализации атмосферных условий. ## Метод Предложенный подход основывается на статистическом анализе текстур и сверточных нейронных сетях для классификации уровня загрязнения воздуха. Изображения неба разбираются с помощью статистических методов для извлечения признаков, а затем эти признаки подаются на вход сверточной нейронной сети для классификации. Для визуализации прогнозируемых условий используется виджен-лангудж модель (Vision-Language Model, VLM), которая генерирует реалистичные изображения, отражающие разные степени загрязнения. Это позволяет пользователям быстро понять уровень загрязнения и принять соответствующие меры. ## Результаты Использовав данные по изображениям неба, проведенные эксперименты показали высокую точность классификации уровня загрязнения воздуха. Визуализированные изображения с помощью VLM хорошо соответствовали реальным условиям, что подтверждает эффективность метода. Такие визуализации могут быть использованы в различных интеллектуальных приложениях для улучшения прогноза и управления загрязнением. ## Значимость Предложенная модель может быть применена в различных отраслях, включая системы мониторинга, планирование городских систем и приложения для широкой публики. Она обеспечивает более широкий доступ к данным о загрязнении воздуха, увеличивает принятие решений на основе данных и повышает общее сознание о проблеме. Эти возможности могут способствовать улучшению качества жизни и энергоэффективности. ## Выводы Прогнозирование и визуализация уровня загрязнения воздуха с использованием изображений неба и визуально-языковых моделей демонстрирует высокую эффективность. Этот подход может быть развит для улучшения систем мониторинга и предупреждения, а также для создания понятных интерфейсов для пользователей. Будущие исследования будут сосредоточены на создании более энергоэффективных архитектур и интеграции этих систем с устройствами на базе FPGA для реального времени.

Abstract

Air pollution remains a critical threat to public health and environmental sustainability, yet conventional monitoring systems are often constrained by limited spatial coverage and accessibility. This paper proposes an AI-driven agent that predicts ambient air pollution levels from sky images and synthesizes realistic visualizations of pollution scenarios using generative modeling. Our approach combines statistical texture analysis with supervised learning for pollution classification, and leverages vision-language model (VLM)-guided image generation to produce interpretable representations of air quality conditions. The generated visuals simulate varying degrees of pollution, offering a foundation for user-facing interfaces that improve transparency and support informed environmental decision-making. These outputs can be seamlessly integrated into intelligent applications aimed at enhancing situational awareness and encouraging behavioral responses based on real-time forecasts. We validate our method using a dataset of urban sky images and demonstrate its effectiveness in both pollution level estimation and semantically consistent visual synthesis. The system design further incorporates human-centered user experience principles to ensure accessibility, clarity, and public engagement in air quality forecasting. To support scalable and energy-efficient deployment, future iterations will incorporate a green CNN architecture enhanced with FPGA-based incremental learning, enabling real-time inference on edge platforms.

Ссылки и действия