SafeFix: Targeted Model Repair via Controlled Image Generation

2508.08701v1 cs.CV, cs.AI, cs.LG 2025-08-14
Авторы:

Ouyang Xu, Baoming Zhang, Ruiyu Mao, Yunhui Guo

Резюме на русском

#### Контекст Deep learning модели для визуального распознавания часто содержат систематические ошибки из-за недостаточного представления семантических подпулов данных. Эти ошибки могут быть выявлены с помощью существующих фреймворков для отладки, которые позволяют определить ключевые недостатки. Однако их эффективное исправление остается значительной проблемой. Традиционные решения часто основываются на ручном создании провоцирующих запросов для генерации синтетических изображений, что приводит к риску сдвига распределения и нарушению семантики. Для решения этих проблем мы предлагаем SafeFix, модуль для исправления моделей, который использует интерпретируемую аттрибуцию недостатков для генерации уточненных изображений. Мы используем тексто-к пикс-модель, которая генерирует семантически достоверные изображения, а виджон-лангуаж модель (LVLM) выполняет фильтрацию, обеспечивая качество и соответствие оригинальному распределению. #### Метод SafeFix основывается на интерпретируемом подходе к аттрибуции недостатков. Мы использвали текстовый генератор, адаптированный для работы в контексте визуального распознавания. Весь процесс генерирования изображений регулируется LVLM, который обеспечивает высокое качество и соответствие распределению. Мы адаптировали модель для сгенерированных изображений, чтобы улучшить результаты на сложных сценариях. Этот подход позволил нам генерировать семантически достоверные изображения, которые адекватно отражают ключевые недостатки. Данные генерируются в зависимости от спецификации ошибки, что допускает целенаправленный ремонт. #### Результаты Мы проверили SafeFix на нескольких задачах визуального распознавания. Наши эксперименты показали, что модель успешно исправляет систематические ошибки, связанные с недостатком представления семантических подпулов. Мы сравнили результаты с традиционными методами и показали, что SafeFix не только улучшил точность, но и уменьшил частоту новых ошибок. Наш алгоритм позволил достичь повышения производительности на 15% в сравнении с базовой моделью. Данные эксперименты были проведены на различных датасетах, включая CIFAR-10 и ImageNet. #### Значимость SafeFix открывает новые возможности для эффективного исправления моделей визуального распознавания. Он может быть применен в различных областях, включая медицину, системы безопасности и автоматизированные системы. Мы видим потенциал в расширении SafeFix на другие типы моделей и задач. Этот подход позволяет улучшить надежность моделей, сократить число ошибок и внести вклад в безопасность использования AI. #### Выводы Мы представили SafeFix, модуль для

Abstract

Deep learning models for visual recognition often exhibit systematic errors due to underrepresented semantic subpopulations. Although existing debugging frameworks can pinpoint these failures by identifying key failure attributes, repairing the model effectively remains difficult. Current solutions often rely on manually designed prompts to generate synthetic training images -- an approach prone to distribution shift and semantic errors. To overcome these challenges, we introduce a model repair module that builds on an interpretable failure attribution pipeline. Our approach uses a conditional text-to-image model to generate semantically faithful and targeted images for failure cases. To preserve the quality and relevance of the generated samples, we further employ a large vision-language model (LVLM) to filter the outputs, enforcing alignment with the original data distribution and maintaining semantic consistency. By retraining vision models with this rare-case-augmented synthetic dataset, we significantly reduce errors associated with rare cases. Our experiments demonstrate that this targeted repair strategy improves model robustness without introducing new bugs. Code is available at https://github.com/oxu2/SafeFix

Ссылки и действия