Multi-Model Synthetic Training for Mission-Critical Small Language Models
2509.13047v1
cs.CL, cs.AI, cs.LG, 68T50 68T50, I.2.7; I.2.6
2025-09-18
Авторы:
Nolan Platt, Pragyansmita Nayak
Резюме на русском
#### Контекст
Large Language Models (LLMs) проявляют выдающиеся возможности во многих областях, однако их применение в специализированных сферах становится ограниченным из-за ограниченности доступных данных и высокой сложности их обработки. Мы предлагаем новую подходящую стратегию, которая сокращает стоимость применения LLMs в области морской интеллектуальной деятельности в 261 раз, используя LLMs как однократные преподаватели, а не непосредственно для инференса. Наш метод превращает 3,2 миллиарда записей Automatic Identification System (AIS) по отслеживанию судоходства в 21 543 синтетических пар вопроса и ответа с помощью мультимодельного генерирования (GPT-4o и o3-mini), избегая переобучения и обеспечивая точное обоснование. Настроенный на эти данные Qwen2.5-7B модель достигает 75% точности в задачах морской интеллектуальной деятельности, в то же время значительно дешевле, чем использование более крупной модели для инференса. Мы доказываем, что меньшие и дешевле модели, когда они правильно настраиваются, могут показать точность, которая не уступает более крупным моделям, которые являются просто неосуществимыми из-за стоимости. Наше исследование добавляет новый раздел в растущей области синтетических наборов данных для специализированных моделей языкового моделирования и предлагает простой фреймворк для областей, где ручное описание невозможно.
#### Метод
Мы использовали 3,2 миллиарда записей Automatic Identification System (AIS) для построения синтетических данных. Эти записи были процессированы и преобразованы в 21 543 синтетических вопросов и ответов с помощью мультимодельного генерирования. Для этого применялись две модели: GPT-4о для создания более широкого контекста и o3-mini для точного внимательного анализа. Этот процесс помог избежать переобучения и обеспечить четкость и точность ответа. Затем мы использовали настроенную модель Qwen2.5-7B для выполнения задач морской интеллектуальной деятельности. Мы также проанализировали производительность и стоимость этого подхода в сравнении с использованием более крупных моделей для инференса. Этот процесс демонстрирует, как мультимодельное генерирование может быть использовано для создания производительных синтетических данных, чтобы обучить более эффективные модели для специализированных задач.
#### Результаты
Мы сравнили нашу методику с использованием более крупных моделей для инференса на задачах морской интеллектуальной деятельности. Наша модель Qwen2.5-7B, настроенная на синтетические данные, достигла 75% точности, что идентично или слегка превышает результаты более крупных моделей, но с значительной экономией затра
Abstract
Large Language Models (LLMs) have demonstrated remarkable capabilities across
many domains, yet their application to specialized fields remains constrained
by the scarcity and complexity of domain-specific training data. We present a
novel approach that achieves a 261x cost reduction for maritime intelligence by
using LLMs as one-time teachers rather than using them directly for inference.
Our method transforms 3.2 billion Automatic Identification System (AIS) vessel
tracking records into 21,543 synthetic question and answer pairs through
multi-model generation (GPT-4o and o3-mini), preventing overfitting and
ensuring accurate reasoning. The resulting fine-tuned Qwen2.5-7B model achieves
75% accuracy on maritime tasks, while being substantially cheaper than using a
larger model for inference. We show that smaller, cheaper models -- when fine
tuned properly -- can provide similar accuracy compared to larger models that
are prohibitively expensive. Our work contributes to the growing field of
synthetic dataset generation for specialized AI applications and presents a
highly reproducible framework for domains where manual annotation is
infeasible. Beyond expanding research in the growing field of specialized small
language models, our approach has immediate applications in maritime safety,
security operations, and vessel traffic management systems in various
industries.