📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Multi-Model Synthetic Training for Mission-Critical Small Language Models

2025-09-18

Авторы:

Nolan Platt, Pragyansmita Nayak

#### Контекст Large Language Models (LLMs) проявляют выдающиеся возможности во многих областях, однако их применение в специализированных сферах становится ограниченным из-за ограниченности доступных данных и высокой сложности их обработки. Мы предлагаем новую подходящую стратегию, которая сокращает стоимость применения LLMs в области морской интеллектуальной деятельности в 261 раз, используя LLMs как однократные преподаватели, а не непосредственно для инференса. Наш метод превращает 3,2 миллиарда записей Automatic Identification System (AIS) по отслеживанию судоходства в 21 543 синтетических пар вопроса и ответа с помощью мультимодельного генерирования (GPT-4o и o3-mini), избегая переобучения и обеспечивая точное обоснование. Настроенный на эти данные Qwen2.5-7B модель достигает 75% точности в задачах морской интеллектуальной деятельности, в то же время значительно дешевле, чем использование более крупной модели для инференса. Мы доказываем, что меньшие и дешевле модели, когда они правильно настраиваются, могут показать точность, которая не уступает более крупным моделям, которые являются просто неосуществимыми из-за стоимости. Наше исследование добавляет новый раздел в растущей области синтетических наборов данных для специализированных моделей языкового моделирования и предлагает простой фреймворк для областей, где ручное описание невозможно. #### Метод Мы использовали 3,2 миллиарда записей Automatic Identification System (AIS) для построения синтетических данных. Эти записи были процессированы и преобразованы в 21 543 синтетических вопросов и ответов с помощью мультимодельного генерирования. Для этого применялись две модели: GPT-4о для создания более широкого контекста и o3-mini для точного внимательного анализа. Этот процесс помог избежать переобучения и обеспечить четкость и точность ответа. Затем мы использовали настроенную модель Qwen2.5-7B для выполнения задач морской интеллектуальной деятельности. Мы также проанализировали производительность и стоимость этого подхода в сравнении с использованием более крупных моделей для инференса. Этот процесс демонстрирует, как мультимодельное генерирование может быть использовано для создания производительных синтетических данных, чтобы обучить более эффективные модели для специализированных задач. #### Результаты Мы сравнили нашу методику с использованием более крупных моделей для инференса на задачах морской интеллектуальной деятельности. Наша модель Qwen2.5-7B, настроенная на синтетические данные, достигла 75% точности, что идентично или слегка превышает результаты более крупных моделей, но с значительной экономией затра

Annotation:

Large Language Models (LLMs) have demonstrated remarkable capabilities across many domains, yet their application to specialized fields remains constrained by the scarcity and complexity of domain-specific training data. We present a novel approach that achieves a 261x cost reduction for maritime intelligence by using LLMs as one-time teachers rather than using them directly for inference. Our method transforms 3.2 billion Automatic Identification System (AIS) vessel tracking records into 21,543...

ID: 2509.13047v1 cs.CL, cs.AI, cs.LG, 68T50 68T50, I.2.7; I.2.6

arXiv PDF