GRAID: Synthetic Data Generation with Geometric Constraints and Multi-Agentic Reflection for Harmful Content Detection

2508.17057v1 cs.CL, cs.CR, cs.LG 2025-08-27

Авторы:

Melissa Kazemi Rad, Alberto Purpura, Himanshu Kumar, Emily Chen, Mohammad Shahed Sorower

Резюме на русском

## Контекст В условиях внедрения интеллектуальных систем в широкие области применения, такие как социальные сети, мобильные приложения и машинное обучение, возрастает необходимость эффективных методов для обнаружения и отбора вредоносного контента. Несмотря на развитие методов машинного обучения, одной из основных проблем становится существенное недостатко данных для обучения моделей, особенно в сферах, где контент может быть не только вредоносным, но и защищенным законом. Это создает риск для моделей, которые могут оказаться неподготовленными к обнаружению высокоспецифичных видов вредоносного контента. Чтобы устранить это недостатки, необходимо развить методы синтетического пополнения данных, которые могут обеспечить широкое представление потенциального диапазона ситуаций. ## Метод GRAID (Geometric and Reflective AI-Driven Data Augmentation) — это новый подход к синтетическому пополнению данных, основанный на применении больших языковых моделей (LLMs). Он состоит из двух этапов. На первом этапе используется LLM с ограничениями, чтобы синтезировать новые примеры данных с учетом геометрических ограничений, таких как синтаксическая и семантическая корректность. На втором этапе используется многоагентный процесс отражения, который позволяет улучшить стилистическую разнообразие и откроет возможность для охвата крайних случаев. Эта стратегия обеспечивает охват входного пространства данных с одной стороны и позволяет углубиться в детали вредоносных ситуаций с другой. ## Результаты На двух наборах бенчмарк-данных, развернутых для обучения модели защиты от вредоносного контента, GRAID показал существенное улучшение в работе модели. Эксперименты показали, что добавление синтетических примеров, сгенерированных GRAID, позволяет увеличить точность и общую производительность модели. В частности, улучшение было наиболее заметно в случаях, когда модель должна была распознавать нестандартные виды вредоносного контента, для которых существует недостаток примеров в обучающей выборке. ## Значимость Помимо обнаружения вредоносного контента, GRAID может применяться в различных областях, таких как синтез данных для медицины, финансов и юридических систем. Основное преимущество этого подхода заключается в том, что он обеспечивает более широкое и детальное представление граничных случаев, что позволяет моделям быть более устойчивыми к немногочисленным, но важным для применения ситуациям. ## Выводы Выводы определили, что GRAID — это эффективный метод синтетического пополнения данных для обнаружения вредоносного контента. В будущем, GRAID может быть расширен для поддержки других сценариев, таких как синтез данных для защиты от мошенничества или определения пот

Abstract

We address the problem of data scarcity in harmful text classification for guardrailing applications and introduce GRAID (Geometric and Reflective AI-Driven Data Augmentation), a novel pipeline that leverages Large Language Models (LLMs) for dataset augmentation. GRAID consists of two stages: (i) generation of geometrically controlled examples using a constrained LLM, and (ii) augmentation through a multi-agentic reflective process that promotes stylistic diversity and uncovers edge cases. This combination enables both reliable coverage of the input space and nuanced exploration of harmful content. Using two benchmark data sets, we demonstrate that augmenting a harmful text classification dataset with GRAID leads to significant improvements in downstream guardrail model performance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GRAID: Synthetic Data Generation with Geometric Constraints and Multi-Agentic Reflection for Harmful Content Detection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs ...

AdaptDel: Adaptable Deletion Rate Randomized Smoothing for Certified Robustness

Sanitize Your Responses: Mitigating Privacy Leakage in Large Language Models

Навигация