MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment

2509.14001v1 cs.CV, cs.AI, cs.LG 2025-09-19

Авторы:

Elena Camuffo, Francesco Barbato, Mete Ozay, Simone Milani, Umberto Michieli

Резюме на русском

## Контекст На данный момент, видение и язык широко используются в различных приложениях, от распознавания объектов до генерации описаний изображений. Однако существуют значительные проблемы в синхронизации этих двух сфер. Например, визуальные модели часто не могут точно передать контекст и семантические отношения между объектами, что приводит к ошибкам в детектировании интересующих объектов. На стороне языка, текстовые модели требуют больших вычислительных ресурсов и не всегда эффективны в реальном времени. Мотивацией для разработки MOCHA (Multi-modal Objects-aware Cross-arcHitecture Alignment) является создание метода, который бы объединил преимущества визуальных и языковых моделей, обеспечив эффективную передачу семантических отношений между объектами в реальном времени. ## Метод MOCHA (Multi-modal Objects-aware Cross-arcHitecture Alignment) представляет собой метод знаний о взаимодействии визуальных и языковых моделей, который передает семантические отношения между объектами из визуальных моделей в модели языка. Основная идея заключается в том, чтобы привести функции объектов в универсальную форму, которую могут понимать обе модели. Для этого используется модуль перевода, который преобразует локальные функции объектов в глобальную структуру, где модель языка может использовать эти отношения для более точного детектирования. Эта модель работает с объектами на разных уровнях и не требует текстового ввода при интерпретации. Метод оптимизируется с помощью двойного функционала потерь, который включает в себя локальный и глобальный аспекты. ## Результаты В ходе экспериментов MOCHA была протестирована на четырьмя персонализированными детектированиями в режиме небольших обучений. Она показала существенные выигрыши по сравнению с традиционными методами. Например, в тестах под условиями небольших обучений, MOCHA показала увеличение точности на 10.1% по сравнению с базовыми моделями. Она также достигла результатов, которые совпадают с результатами более крупных моделей, несмотря на то, что имеет компактную архитектуру. Это доказывает возможность её использования в реальных сценариях, где необходима эффективность и точность. ## Значимость MOCHA может применяться в различных областях, включая распознавание объектов, синтез описаний изображений, и даже в системах, требующих реального времени детектирования. Её преимущество заключается в том, что она может эффективно передавать семантические отношения между объектами, не требуя текстового ввода во время интерпретации. Это делает её подходящей для приложений, которые требуют высокой производительности

Abstract

We introduce MOCHA (Multi-modal Objects-aware Cross-arcHitecture Alignment), a knowledge distillation approach that transfers region-level multimodal semantics from a large vision-language teacher (e.g., LLaVa) into a lightweight vision-only object detector student (e.g., YOLO). A translation module maps student features into a joint space, where the training of the student and translator is guided by a dual-objective loss that enforces both local alignment and global relational consistency. Unlike prior approaches focused on dense or global alignment, MOCHA operates at the object level, enabling efficient transfer of semantics without modifying the teacher or requiring textual input at inference. We validate our method across four personalized detection benchmarks under few-shot regimes. Results show consistent gains over baselines, with a +10.1 average score improvement. Despite its compact architecture, MOCHA reaches performance on par with larger multimodal models, proving its suitability for real-world deployment.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация