GraSP: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data for SFT and DPO

2508.15432v1 cs.AI, cs.CL, cs.LG 2025-08-23
Авторы:

Bidyapati Pradhan, Surajit Dasgupta, Amit Kumar Saha, Omkar Anustoop, Sriram Puttagunta, Vipul Mittal, Gopal Sarda

Резюме на русском

## Контекст В последние годы широко развиваются бо LARGE LANGUAGE MODELS (LLM), которые позволяют решать разнообразные задачи в области естественного языка, включая перевод, синтез речи, ответы на вопросы и многое другое. Однако для повышения качества этих моделей требуется большое количество высококачественных данных, особенно для таких сценариев, как supervised fine-tuning (SFT) и direct preference optimization (DPO). Несмотря на продвижение технологий сбора реальных данных, они часто сталкиваются с ограничениями в объеме, качестве и разнообразии. Это влечет за собой потребность в развитии эффективных фреймворков для генерации и управления генерированными данными, которые могут быть использованы в тренировочных процессах для LLM. Целью настоящей работы является разработка мощного, универсального и модульного синтетического генератора данных, который может снизить нагрузку на подготовку данных для различных LLM-приложений. ## Метод Предлагаемый фреймворк, **GraSP (Graph-Based Synthetic Data Generation and Processing Framework)**, основывается на графовой модели. Он предлагает модульную архитектуру, которая позволяет гибко настраивать процесс генерации данных. Генерация начинается с объявления конфигурации, которая определяет структуру диалога, включая узлы (интенты) и ребра (потоки диалога). Фреймворк поддерживает продуктивность и скорость, используя предобученные модели для генерации текста и встроенные механизмы для обеспечения качества. Ключевая характеристика **GraSP** — двухэтапная механика качества, включающая: 1) группу цепных правил для быстрого отбора и 2) LLM-based evaluation для точного определения качества. Таким образом, фреймворк обеспечивает точность и масштабируемость, необходимые для высококачественного генерирования данных. ## Результаты Для проверки эффективности **GraSP** были проведены эксперименты на создании данных для SFT и DPO в различных сценариях. Использовались различные диалоги, сформированные с учетом различных сложностей, включая сценарии со сложными диалогами и моделированием человеческого поведения. Результаты показали, что система может генерировать высококачественные данные с меньшим объемом ручных интервенций. Эксперименты также показали, что данные, генерируемые **GraSP**, позволяют улучшить точность в моделях, тренируемых на этих данных. Авторы также показали, что использование модульной архитектуры позволяет снизить время настройки и подготовки данных в LLM-современных проектах. ## Значимость **GraSP** может применяться в различных областях, включая образование, здравоохранение, финансы и другие сферы, где требуется высококачественная настройка моделей LLM. Он позволяет уменьшить время и стоимость под

Abstract

The advancement of large language models (LLMs) is critically dependent on the availability of high-quality datasets for Supervised Fine-Tuning (SFT), alignment tasks like Direct Preference Optimization (DPO), etc. In this work, we present a comprehensive synthetic data generation framework that facilitates scalable, configurable, and high-fidelity generation of synthetic data tailored for these training paradigms. Our approach employs a modular and configuration-based pipeline capable of modeling complex dialogue flows with minimal manual intervention. This framework uses a dual-stage quality tagging mechanism, combining heuristic rules and LLM-based evaluations, to automatically filter and score data extracted from OASST-formatted conversations, ensuring the curation of high-quality dialogue samples. The resulting datasets are structured under a flexible schema supporting both SFT and DPO use cases, enabling seamless integration into diverse training workflows. Together, these innovations offer a robust solution for generating and managing synthetic conversational data at scale, significantly reducing the overhead of data preparation in LLM training pipelines.

Ссылки и действия