Metamorphic Testing for Audio Content Moderation Software

2509.24215v1 cs.SE, cs.AI, cs.CL, cs.MM 2025-10-01
Авторы:

Wenxuan Wang, Yongjiang Wu, Junyuan Zhang, Shuqing Li, Yun Peng, Wenting Chen, Shuai Wang, Michael R. Lyu

Резюме на русском

## Контекст Современные аудио-центричные платформы и приложения, такие как WhatsApp и Twitter, изменили методы общения и обмена аудиоконтентом в современном обществе. Однако эти платформы часто используются для распространения вредоносного аудиоконтента, такого как ненавистная речь, обманные рекламные объявления и жестокость, что может вызвать серьезные негативные последствия, в том числе нарушения психического здоровья. Чтобы бороться с этим, разработчики и исследователи создают и развертывают средства модерации аудиоконтента. Несмотря на эти усилия, злоумышленники могут обходить модерацию, изменяя аудиоконтент подробно, например, изменяя тональность или вставляя шум. Тем не менее, эффективность современных аудио-модерационных инструментов против таких угроз остается недостаточно исследована. Для решения этих проблем мы предлагаем MTAM, фреймворк метаморфонного тестирования для аудио-контент-модерационных систем. ## Метод MTAM основывается на метаморфонном тестировании, которое применяет метаморфонные связи для генерирования тестовых случаев, которые остаются вредоносными, но с большей вероятностью провалиться модерацию. В нашем исследовании мы определили 14 метаморфонных связей на двух категориях подкрутки: Основанные на аудио-функциях и Неправильные. Тестируемым объектам были представлены 2000 аудио-клипов, применяясь к ним 14 метаморфонных отношений. MTAM используется для тестирования пяти коммерческих моделей модерации, предоставленных Gladia, Assembly AI, Baidu, Nextdata и Tencent, а также одной академической модели. ## Результаты Результаты тестирования показывают, что MTAM достигает следующих значений ошибочных находок (EFR): - 38.6% для коммерческого сервиса Gladia - 18.3% для Assembly AI - 35.1% для Baidu - 16.7% для Nextdata - 51.1% для Tencent - 45.7% для академической модели. Эти результаты указывают на высокую эффективность MTAM в обнаружении вредоносного аудиоконтента, который может провалиться модерацию. ## Значимость Исследование MTAM имеет широкие области применения в модерации аудиоконтента, борьбе с ненавистной речью и злоупотреблениями платформ. Его преимущество в том, что он может обнаруживать незаметные изменения в аудио, которые могут быть пропущены традиционными системами. Это может привести к значительному улучшению модерации контента, уменьшению вредоносных действий и повышению безопасности пользователей. ## Выводы MTAM доказал свою эффективность в обнаружении вредоносного аудиоконтента, который может провалиться модерацию, используя метаморфонные связи. Наша работа показывает, что MTAM может с

Abstract

The rapid growth of audio-centric platforms and applications such as WhatsApp and Twitter has transformed the way people communicate and share audio content in modern society. However, these platforms are increasingly misused to disseminate harmful audio content, such as hate speech, deceptive advertisements, and explicit material, which can have significant negative consequences (e.g., detrimental effects on mental health). In response, researchers and practitioners have been actively developing and deploying audio content moderation tools to tackle this issue. Despite these efforts, malicious actors can bypass moderation systems by making subtle alterations to audio content, such as modifying pitch or inserting noise. Moreover, the effectiveness of modern audio moderation tools against such adversarial inputs remains insufficiently studied. To address these challenges, we propose MTAM, a Metamorphic Testing framework for Audio content Moderation software. Specifically, we conduct a pilot study on 2000 audio clips and define 14 metamorphic relations across two perturbation categories: Audio Features-Based and Heuristic perturbations. MTAM applies these metamorphic relations to toxic audio content to generate test cases that remain harmful while being more likely to evade detection. In our evaluation, we employ MTAM to test five commercial textual content moderation software and an academic model against three kinds of toxic content. The results show that MTAM achieves up to 38.6%, 18.3%, 35.1%, 16.7%, and 51.1% error finding rates (EFR) when testing commercial moderation software provided by Gladia, Assembly AI, Baidu, Nextdata, and Tencent, respectively, and it obtains up to 45.7% EFR when testing the state-of-the-art algorithms from the academy.

Ссылки и действия