Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

2509.04403v1 cs.CV, cs.CL, cs.CR 2025-09-06

Авторы:

Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao

Резюме на русском

#### Контекст Multimodal large language models (MLLMs) широко используются в различных приложениях, но их применение связано с увеличивающимися вызовами для обеспечения безопасности. Реальный мир часто порождает сложные сценарии, требующие учета множества факторов, включая различные ситуации, вызовы и реакции. Существующие методы построения датасетов, ориентированные на риск, не полностью учитывают эти сложности. Это приводит к недостаточности многих текущих подходов в построении датасетов, удовлетворяющих потребностям реальных сценариев. Более того, отсутствие единого метрического подхода к оценке эффективности датасетов делает их итоговую эффективность неоднозначной. В этой работе мы предлагаем новую методику построения датасетов, ориентированную на изображения, которая позволяет лучше учитывать реальные сценарии безопасности и обеспечивает более широкий и точный подход к их оценке. #### Метод Мы предлагаем изображение-ориентированный подход для сбора данных, который начинается с выбора сцен, связанных с мультимодальной безопасностью, затем автоматически строит текстовые ответы и рекомендации, основываясь на этих изображениях. Наша методика включает в себя несколько этапов: сбор изображений, описание их сцен, структурирование рекомендаций и текстовых ответов. Это позволяет создавать большие датасеты, содержащие различные сценарии, которые могут быть использованы для обучения и оценки безопасности. Мы также предлагаем метрику для оценки эффективности датасетов, основанную на том, как хорошо модель, обученная на данных, справляется с этими данными в других сценариях. Эта метрика помогает сравнивать различные датасеты и определять их уровень эффективности в реальных сценариях. #### Результаты Мы применили нашу методику для построения датасета, содержащего 35 000 изображение-текстовых пар с рекомендациями. Мы проверили эффективность этого подхода с помощью различных задач, включая оценку безопасности, распознавание объектов и анализ текста. Результаты показали, что наша методика дает значительный выигрыш в точности и общей эффективности по сравнению с другими методами. Мы также проверили нашу метрику, применяя ее к различным датасетам, и показали, что она обеспечивает надежный и универсальный подход к оценке безопасности. #### Значимость Наш подход может быть использован в различных областях, где требуется учет различных факторов безопасности в реальном мире. Например, он может применяться в транспортных системах, где сценарии безопасности разнообразны и сложны. Этот подход также может быть полезен для ра

Abstract

Multimodal large language models (MLLMs) are rapidly evolving, presenting increasingly complex safety challenges. However, current dataset construction methods, which are risk-oriented, fail to cover the growing complexity of real-world multimodal safety scenarios (RMS). And due to the lack of a unified evaluation metric, their overall effectiveness remains unproven. This paper introduces a novel image-oriented self-adaptive dataset construction method for RMS, which starts with images and end constructing paired text and guidance responses. Using the image-oriented method, we automatically generate an RMS dataset comprising 35k image-text pairs with guidance responses. Additionally, we introduce a standardized safety dataset evaluation metric: fine-tuning a safety judge model and evaluating its capabilities on other safety datasets.Extensive experiments on various tasks demonstrate the effectiveness of the proposed image-oriented pipeline. The results confirm the scalability and effectiveness of the image-oriented approach, offering a new perspective for the construction of real-world multimodal safety datasets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Contextual Image Attack: How Visual Context Exposes Multimodal Safety Vulnerabil...

IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding

Навигация