ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation
2509.25100v1
cs.LG, cs.AI, cs.CL
2025-10-01
Авторы:
Aasheesh Singh, Vishal Vaddina, Dagnachew Birru
Резюме на русском
#### Контекст
Глубокое обучение с машинными моделями естественного языка (LLM) позволяет решать многочисленные задачи в области обработки текстов. Однако оптимальный подход к обучению новых моделей часто ограничен размером обучающих выборок и вычислительными ресурсами. Распространённым решением этой проблемы является метод копирования знаний (Knowledge Distillation, KD). Он предполагает передачу знаний от мощной "учительской" модели к менее вычислительно-требовательной "ученицей". Однако традиционные подходы часто не учитывают разнообразие разума модели, что приводит к потере важных сведений. Наша исследовательская группа предлагает новый подход, который сочетает в себе разнообразие методов и улучшает процесс передачи знаний, особенно при работе с моделями разных архитектур.
#### Метод
Мы предлагаем ORPO-Distill, метод, который оптимизирует предпочтения в результатах учителя и ученика на основе Odds-Ratio Preference Optimization. Такой подход позволяет сопоставлять выходы учителя и ученика, учитывая все возможные различия в их рассуждениях. Для улучшения эффективности, ORPO-Distill использует "многополитическую" стратегию, которая включает в себя широкий спектр поведений ученика. Этот подход не только учитывает разнообразие, но и позволяет модели ученика улучшить свои результаты, даже при работе с моделями-учителями разных архитектур.
#### Результаты
Мы проверили ORPO-Distill на пяти различных наборах данных, используя модели различных размеров, от малых до крупных. Наши результаты показали, что данный подход превосходит другие методы, включая обычные KD-методы, как на больших, так и на малых моделях. Особенно выдающимися результатами показался ORPO-Distill при работе с моделями разных архитектур, где он демонстрирует значительное улучшение производительности в сравнении с другими существующими KD-методами.
#### Значимость
Предлагаемый подход может применяться в различных областях, где требуется эффективная передача знаний между моделями разных размеров и архитектур. Это может быть использовано в обучении моделей с учётом ограничений ресурсов, в нейронных сетях для текстового понимания, а также в задачах, где требуется эффективное использование многообразия разума. Мы считаем, что ORPO-Distill может стать одним из ключевых инструментов в развитии технологий машинного обучения, особенно при решении задач, требующих продолжительного обучения и большого расхода ресурсов.
#### Выводы
Мы представили ORPO-Distill, новый подход к копированию знаний в среде машинного обучения. Наши результаты показали, что этот подход позволяет достичь значительных улучшений в производительности, о
Abstract
We introduce ORPO-Distill, a general-purpose method for cross-architecture
LLM distillation that formulates the problem as a preference optimization task.
Unlike standard CoT distillation, the approach transfers knowledge through
diverse reasoning traces. It employs an Odds-Ratio Preference Optimization
objective that contrasts teacher and student traces for more effective
learning, and adopts a mixed-policy strategy for utilizing student-generated
outputs, outperforming both off- and on-policy alternatives. Experiments on
five datasets and multiple student models show consistent improvements over
conventional black-box KD baselines.
Ссылки и действия
Дополнительные ресурсы: