MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment
2509.14001v1
cs.CV, cs.AI, cs.LG
2025-09-19
Авторы:
Elena Camuffo, Francesco Barbato, Mete Ozay, Simone Milani, Umberto Michieli
Резюме на русском
## Контекст
На данный момент, видение и язык широко используются в различных приложениях, от распознавания объектов до генерации описаний изображений. Однако существуют значительные проблемы в синхронизации этих двух сфер. Например, визуальные модели часто не могут точно передать контекст и семантические отношения между объектами, что приводит к ошибкам в детектировании интересующих объектов. На стороне языка, текстовые модели требуют больших вычислительных ресурсов и не всегда эффективны в реальном времени. Мотивацией для разработки MOCHA (Multi-modal Objects-aware Cross-arcHitecture Alignment) является создание метода, который бы объединил преимущества визуальных и языковых моделей, обеспечив эффективную передачу семантических отношений между объектами в реальном времени.
## Метод
MOCHA (Multi-modal Objects-aware Cross-arcHitecture Alignment) представляет собой метод знаний о взаимодействии визуальных и языковых моделей, который передает семантические отношения между объектами из визуальных моделей в модели языка. Основная идея заключается в том, чтобы привести функции объектов в универсальную форму, которую могут понимать обе модели. Для этого используется модуль перевода, который преобразует локальные функции объектов в глобальную структуру, где модель языка может использовать эти отношения для более точного детектирования. Эта модель работает с объектами на разных уровнях и не требует текстового ввода при интерпретации. Метод оптимизируется с помощью двойного функционала потерь, который включает в себя локальный и глобальный аспекты.
## Результаты
В ходе экспериментов MOCHA была протестирована на четырьмя персонализированными детектированиями в режиме небольших обучений. Она показала существенные выигрыши по сравнению с традиционными методами. Например, в тестах под условиями небольших обучений, MOCHA показала увеличение точности на 10.1% по сравнению с базовыми моделями. Она также достигла результатов, которые совпадают с результатами более крупных моделей, несмотря на то, что имеет компактную архитектуру. Это доказывает возможность её использования в реальных сценариях, где необходима эффективность и точность.
## Значимость
MOCHA может применяться в различных областях, включая распознавание объектов, синтез описаний изображений, и даже в системах, требующих реального времени детектирования. Её преимущество заключается в том, что она может эффективно передавать семантические отношения между объектами, не требуя текстового ввода во время интерпретации. Это делает её подходящей для приложений, которые требуют высокой производительности
Abstract
We introduce MOCHA (Multi-modal Objects-aware Cross-arcHitecture Alignment),
a knowledge distillation approach that transfers region-level multimodal
semantics from a large vision-language teacher (e.g., LLaVa) into a lightweight
vision-only object detector student (e.g., YOLO). A translation module maps
student features into a joint space, where the training of the student and
translator is guided by a dual-objective loss that enforces both local
alignment and global relational consistency. Unlike prior approaches focused on
dense or global alignment, MOCHA operates at the object level, enabling
efficient transfer of semantics without modifying the teacher or requiring
textual input at inference. We validate our method across four personalized
detection benchmarks under few-shot regimes. Results show consistent gains over
baselines, with a +10.1 average score improvement. Despite its compact
architecture, MOCHA reaches performance on par with larger multimodal models,
proving its suitability for real-world deployment.
Ссылки и действия
Дополнительные ресурсы: