When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs
2509.16633v1
cs.CV, cs.AI, cs.CL
2025-09-24
Авторы:
Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra
Резюме на русском
#### Контекст
Визуально-языковые модели (VLM) обладают выдающимися возможностями в решении задач, включая визуальный вопрос-ответ (VQA). Однако высокая стоимость вычислений приостанавливает их применение в ресурсосущущих средах. Малые визуально-языковые модели (S-VLM), хотя и эффективны, находятся в существенном дефиците по производительности по сравнению с их более крупными аналогами. Исследователи сталкиваются с основной проблемой: как улучшить производительность S-VLM без сокращения ее выгодных свойств, таких как эффективность. Наша мотивация заключается в разработке эффективного метода, который будет улучшать S-VLM при помощи знаний, полученных из более крупных моделей, не утруждая ресурсы.
#### Метод
Мы предлагаем Model Parity Aligner (MPA) — новую архитектуру, ориентированную на синхронизацию S-VLM с L-VLM без использования меток. MPA определяет различия в поведении моделей и использует эти различия для точного оптимизации S-VLM. Основной идеей является парадигма неразделенного знания, которая позволяет S-VLM учиться не только из своих ошибок, но и из ошибок L-VLM. Мы используем необъявленные изображения для ввода и проводим стратегическую парадигму взаимодействия между моделями, чтобы достичь гармонии в их работе.
#### Результаты
Мы провели эксперименты на четырёх различных бенчмарках VQA: TextVQA, ST-VQA, ChartQA и OKVQA. Каждый из этих базированных на специализированных моделях, включая текстовое распознавание, интерпретацию диаграмм и коммонсенс-понимание. Наши результаты показывают, что MPA постоянно улучшает производительность S-VLM на всех базе, существенно уменьшая производительность, но при этом сохраняя высокую эффективность вычислений. Это указывает на эффективность MPA в параллельной синхронизации моделей.
#### Значимость
Разработанный подход может быть применен в ресурсократчных средах, таких как мобильные устройства и низкопроизводительные серверы. Он предоставляет преимущества в области эффективности и точности. MPA может иметь потенциал в различных приложениях, включая умные города, здравоохранение и промышленность, где ресурсы ограничены, но требуется высокая точность. Этот подход может способствовать расширению применения VQA в разрешаемых сценариях.
#### Выводы
Мы успешно представили MPA, фреймворк, который позволяет S-VLM проходить значительную часть производительности L-VLM без меток. Наши результаты предполагают возможность будущих исследований в развитии эффективных техник знаний для малых моделей. Мы делаем наш код общедосту
Abstract
Large Vision-Language Models (L-VLMs) have demonstrated remarkable
performance in various vision and language tasks, including visual question
answering (VQA). However, their high computational cost makes them impractical
for resource-constrained settings and inference-heavy applications. In
contrast, Small Vision-Language Models (S-VLMs) offer efficiency but suffer
from a significant performance gap compared to their larger counterparts. In
this work, we introduce the Model Parity Aligner (MPA), a novel framework
designed to systematically improve S-VLMs by leveraging unlabeled images and
effective knowledge transfer from L-VLMs. Instead of traditional knowledge
distillation methods that rely on labeled training data, MPA employs a
strategic parity-based approach that precisely identifies the knowledge
disparities between S-VLMs and L-VLMs, and optimizes training by targeting only
these disparities. We conduct extensive experiments on four diverse VQA
benchmarks, namely TextVQA, ST-VQA, ChartQA, and OKVQA, each of which requires
specialized reasoning capabilities such as text recognition, chart
interpretation, and commonsense and factual understanding. Our results
demonstrate that MPA consistently enhances the performance of S-VLMs on all
benchmarks, reducing the performance gap while maintaining computational
efficiency. We make our code publicly available.
Ссылки и действия
Дополнительные ресурсы: