Omni-SafetyBench: A Benchmark for Safety Evaluation of Audio-Visual Large Language Models

2508.07173v1 cs.CL, 68T50, I.2.7 2025-08-13

Авторы:

Leyi Pan, Zheyu Fu, Yunpeng Zhai, Shuchang Tao, Sheng Guan, Shiyu Huang, Lingzhe Zhang, Zhaoyang Liu, Bolin Ding, Felix Henry, Lijie Wen, Aiwei Liu

Резюме на русском

## Контекст Omni-modal Large Language Models (OLLMs), которые объединяют в себе обработку текстовых, аудио и визуальных данных, приобретают все большую популярность. Однако это создает серьезные безопасности вопросы, так как непредвиденные или вредоносные выходы могут возникнуть в результате неверного понимания значительного объема входных данных. Несмотря на существование бенчмарков для обычных текстовых LLM, нет конкретных методologi для оценки безопасности OLLMs в условиях аудио-визуальных входных данных. Это мотивирует развитие бенчмарка Omni-SafetyBench, первого подобного направлении, для эффективной оценки безопасности OLLMs. ## Метод Omni-SafetyBench включает 24 различных модальных комбинаций с 972 семплами каждого. Он поддерживает аудио-визуальные сценарии, включая специфические эксперименты на вредоносные входы. Для оценки безопасности OLLMs вводятся две новые метрики: Safety-score, основанный на показателе успешности атаки (C-ASR) и отказа (C-RR), чтобы рассмотреть возможность недоумия модели, и Cross-Modal Safety Consistency Score (CMSC-score), чтобы измерить согласованность в работе модели по разным модальностям. ## Результаты Оценка 6 открытых и 4 закрытых OLLM показала существующие проблемы: ни одна модель не показывает высокую производительность в обеих метриках, и только три модели достигли оценки выше 0.6 в каждой. Общая безопасность особенно страдает при аудио-визуальных входах. Некоторые модели показывают очень низкие результаты на определенных модальностях, достигая значений 0.14. ## Значимость Omni-SafetyBench оказывается важной инструментой для изучения проблем безопасности OLLM. Он может применяться в сферах, где возникают риски моделей, и предоставляет новые возможности для создания безопасных моделей. Результаты опытов показывают, что нужны улучшения в области оценки безопасности OLLM, а также в самих моделях, которые должны быть более состоятельными и надёжными в работе с аудио-визуальными входами. ## Выводы Omni-SafetyBench демонстрирует критические уязвимости OLLM в сфере безопасности и выделяет важность дальнейших работ по улучшению метрик, моделей и методологий для безопасного использования OLLM в сложных аудио-визуальных условиях.

Abstract

The rise of Omni-modal Large Language Models (OLLMs), which integrate visual and auditory processing with text, necessitates robust safety evaluations to mitigate harmful outputs. However, no dedicated benchmarks currently exist for OLLMs, and prior benchmarks designed for other LLMs lack the ability to assess safety performance under audio-visual joint inputs or cross-modal safety consistency. To fill this gap, we introduce Omni-SafetyBench, the first comprehensive parallel benchmark for OLLM safety evaluation, featuring 24 modality combinations and variations with 972 samples each, including dedicated audio-visual harm cases. Considering OLLMs' comprehension challenges with complex omni-modal inputs and the need for cross-modal consistency evaluation, we propose tailored metrics: a Safety-score based on conditional Attack Success Rate (C-ASR) and Refusal Rate (C-RR) to account for comprehension failures, and a Cross-Modal Safety Consistency Score (CMSC-score) to measure consistency across modalities. Evaluating 6 open-source and 4 closed-source OLLMs reveals critical vulnerabilities: (1) no model excels in both overall safety and consistency, with only 3 models achieving over 0.6 in both metrics and top performer scoring around 0.8; (2) safety defenses weaken with complex inputs, especially audio-visual joints; (3) severe weaknesses persist, with some models scoring as low as 0.14 on specific modalities. Our benchmark and metrics highlight urgent needs for enhanced OLLM safety, providing a foundation for future improvements.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Omni-SafetyBench: A Benchmark for Safety Evaluation of Audio-Visual Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for...

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexit...

Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus

Quantifying Self-Awareness of Knowledge in Large Language Models

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence...

Навигация