Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios
2509.04403v1
cs.CV, cs.CL, cs.CR
2025-09-06
Авторы:
Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao
Резюме на русском
#### Контекст
Multimodal large language models (MLLMs) широко используются в различных приложениях, но их применение связано с увеличивающимися вызовами для обеспечения безопасности. Реальный мир часто порождает сложные сценарии, требующие учета множества факторов, включая различные ситуации, вызовы и реакции. Существующие методы построения датасетов, ориентированные на риск, не полностью учитывают эти сложности. Это приводит к недостаточности многих текущих подходов в построении датасетов, удовлетворяющих потребностям реальных сценариев. Более того, отсутствие единого метрического подхода к оценке эффективности датасетов делает их итоговую эффективность неоднозначной. В этой работе мы предлагаем новую методику построения датасетов, ориентированную на изображения, которая позволяет лучше учитывать реальные сценарии безопасности и обеспечивает более широкий и точный подход к их оценке.
#### Метод
Мы предлагаем изображение-ориентированный подход для сбора данных, который начинается с выбора сцен, связанных с мультимодальной безопасностью, затем автоматически строит текстовые ответы и рекомендации, основываясь на этих изображениях. Наша методика включает в себя несколько этапов: сбор изображений, описание их сцен, структурирование рекомендаций и текстовых ответов. Это позволяет создавать большие датасеты, содержащие различные сценарии, которые могут быть использованы для обучения и оценки безопасности. Мы также предлагаем метрику для оценки эффективности датасетов, основанную на том, как хорошо модель, обученная на данных, справляется с этими данными в других сценариях. Эта метрика помогает сравнивать различные датасеты и определять их уровень эффективности в реальных сценариях.
#### Результаты
Мы применили нашу методику для построения датасета, содержащего 35 000 изображение-текстовых пар с рекомендациями. Мы проверили эффективность этого подхода с помощью различных задач, включая оценку безопасности, распознавание объектов и анализ текста. Результаты показали, что наша методика дает значительный выигрыш в точности и общей эффективности по сравнению с другими методами. Мы также проверили нашу метрику, применяя ее к различным датасетам, и показали, что она обеспечивает надежный и универсальный подход к оценке безопасности.
#### Значимость
Наш подход может быть использован в различных областях, где требуется учет различных факторов безопасности в реальном мире. Например, он может применяться в транспортных системах, где сценарии безопасности разнообразны и сложны. Этот подход также может быть полезен для ра
Abstract
Multimodal large language models (MLLMs) are rapidly evolving, presenting
increasingly complex safety challenges. However, current dataset construction
methods, which are risk-oriented, fail to cover the growing complexity of
real-world multimodal safety scenarios (RMS). And due to the lack of a unified
evaluation metric, their overall effectiveness remains unproven. This paper
introduces a novel image-oriented self-adaptive dataset construction method for
RMS, which starts with images and end constructing paired text and guidance
responses. Using the image-oriented method, we automatically generate an RMS
dataset comprising 35k image-text pairs with guidance responses. Additionally,
we introduce a standardized safety dataset evaluation metric: fine-tuning a
safety judge model and evaluating its capabilities on other safety
datasets.Extensive experiments on various tasks demonstrate the effectiveness
of the proposed image-oriented pipeline. The results confirm the scalability
and effectiveness of the image-oriented approach, offering a new perspective
for the construction of real-world multimodal safety datasets.
Ссылки и действия
Дополнительные ресурсы: