ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation

2509.25100v1 cs.LG, cs.AI, cs.CL 2025-10-01

Авторы:

Aasheesh Singh, Vishal Vaddina, Dagnachew Birru

Резюме на русском

#### Контекст Глубокое обучение с машинными моделями естественного языка (LLM) позволяет решать многочисленные задачи в области обработки текстов. Однако оптимальный подход к обучению новых моделей часто ограничен размером обучающих выборок и вычислительными ресурсами. Распространённым решением этой проблемы является метод копирования знаний (Knowledge Distillation, KD). Он предполагает передачу знаний от мощной "учительской" модели к менее вычислительно-требовательной "ученицей". Однако традиционные подходы часто не учитывают разнообразие разума модели, что приводит к потере важных сведений. Наша исследовательская группа предлагает новый подход, который сочетает в себе разнообразие методов и улучшает процесс передачи знаний, особенно при работе с моделями разных архитектур. #### Метод Мы предлагаем ORPO-Distill, метод, который оптимизирует предпочтения в результатах учителя и ученика на основе Odds-Ratio Preference Optimization. Такой подход позволяет сопоставлять выходы учителя и ученика, учитывая все возможные различия в их рассуждениях. Для улучшения эффективности, ORPO-Distill использует "многополитическую" стратегию, которая включает в себя широкий спектр поведений ученика. Этот подход не только учитывает разнообразие, но и позволяет модели ученика улучшить свои результаты, даже при работе с моделями-учителями разных архитектур. #### Результаты Мы проверили ORPO-Distill на пяти различных наборах данных, используя модели различных размеров, от малых до крупных. Наши результаты показали, что данный подход превосходит другие методы, включая обычные KD-методы, как на больших, так и на малых моделях. Особенно выдающимися результатами показался ORPO-Distill при работе с моделями разных архитектур, где он демонстрирует значительное улучшение производительности в сравнении с другими существующими KD-методами. #### Значимость Предлагаемый подход может применяться в различных областях, где требуется эффективная передача знаний между моделями разных размеров и архитектур. Это может быть использовано в обучении моделей с учётом ограничений ресурсов, в нейронных сетях для текстового понимания, а также в задачах, где требуется эффективное использование многообразия разума. Мы считаем, что ORPO-Distill может стать одним из ключевых инструментов в развитии технологий машинного обучения, особенно при решении задач, требующих продолжительного обучения и большого расхода ресурсов. #### Выводы Мы представили ORPO-Distill, новый подход к копированию знаний в среде машинного обучения. Наши результаты показали, что этот подход позволяет достичь значительных улучшений в производительности, о

Abstract

We introduce ORPO-Distill, a general-purpose method for cross-architecture LLM distillation that formulates the problem as a preference optimization task. Unlike standard CoT distillation, the approach transfers knowledge through diverse reasoning traces. It employs an Odds-Ratio Preference Optimization objective that contrasts teacher and student traces for more effective learning, and adopts a mixed-policy strategy for utilizing student-generated outputs, outperforming both off- and on-policy alternatives. Experiments on five datasets and multiple student models show consistent improvements over conventional black-box KD baselines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация