Multi-Model Synthetic Training for Mission-Critical Small Language Models

2509.13047v1 cs.CL, cs.AI, cs.LG, 68T50 68T50, I.2.7; I.2.6 2025-09-18
Авторы:

Nolan Platt, Pragyansmita Nayak

Резюме на русском

#### Контекст Large Language Models (LLMs) проявляют выдающиеся возможности во многих областях, однако их применение в специализированных сферах становится ограниченным из-за ограниченности доступных данных и высокой сложности их обработки. Мы предлагаем новую подходящую стратегию, которая сокращает стоимость применения LLMs в области морской интеллектуальной деятельности в 261 раз, используя LLMs как однократные преподаватели, а не непосредственно для инференса. Наш метод превращает 3,2 миллиарда записей Automatic Identification System (AIS) по отслеживанию судоходства в 21 543 синтетических пар вопроса и ответа с помощью мультимодельного генерирования (GPT-4o и o3-mini), избегая переобучения и обеспечивая точное обоснование. Настроенный на эти данные Qwen2.5-7B модель достигает 75% точности в задачах морской интеллектуальной деятельности, в то же время значительно дешевле, чем использование более крупной модели для инференса. Мы доказываем, что меньшие и дешевле модели, когда они правильно настраиваются, могут показать точность, которая не уступает более крупным моделям, которые являются просто неосуществимыми из-за стоимости. Наше исследование добавляет новый раздел в растущей области синтетических наборов данных для специализированных моделей языкового моделирования и предлагает простой фреймворк для областей, где ручное описание невозможно. #### Метод Мы использовали 3,2 миллиарда записей Automatic Identification System (AIS) для построения синтетических данных. Эти записи были процессированы и преобразованы в 21 543 синтетических вопросов и ответов с помощью мультимодельного генерирования. Для этого применялись две модели: GPT-4о для создания более широкого контекста и o3-mini для точного внимательного анализа. Этот процесс помог избежать переобучения и обеспечить четкость и точность ответа. Затем мы использовали настроенную модель Qwen2.5-7B для выполнения задач морской интеллектуальной деятельности. Мы также проанализировали производительность и стоимость этого подхода в сравнении с использованием более крупных моделей для инференса. Этот процесс демонстрирует, как мультимодельное генерирование может быть использовано для создания производительных синтетических данных, чтобы обучить более эффективные модели для специализированных задач. #### Результаты Мы сравнили нашу методику с использованием более крупных моделей для инференса на задачах морской интеллектуальной деятельности. Наша модель Qwen2.5-7B, настроенная на синтетические данные, достигла 75% точности, что идентично или слегка превышает результаты более крупных моделей, но с значительной экономией затра

Abstract

Large Language Models (LLMs) have demonstrated remarkable capabilities across many domains, yet their application to specialized fields remains constrained by the scarcity and complexity of domain-specific training data. We present a novel approach that achieves a 261x cost reduction for maritime intelligence by using LLMs as one-time teachers rather than using them directly for inference. Our method transforms 3.2 billion Automatic Identification System (AIS) vessel tracking records into 21,543 synthetic question and answer pairs through multi-model generation (GPT-4o and o3-mini), preventing overfitting and ensuring accurate reasoning. The resulting fine-tuned Qwen2.5-7B model achieves 75% accuracy on maritime tasks, while being substantially cheaper than using a larger model for inference. We show that smaller, cheaper models -- when fine tuned properly -- can provide similar accuracy compared to larger models that are prohibitively expensive. Our work contributes to the growing field of synthetic dataset generation for specialized AI applications and presents a highly reproducible framework for domains where manual annotation is infeasible. Beyond expanding research in the growing field of specialized small language models, our approach has immediate applications in maritime safety, security operations, and vessel traffic management systems in various industries.

Ссылки и действия