ShaLa: Multimodal Shared Latent Space Modelling

2508.17376v1 cs.LG, cs.CV 2025-08-27

Авторы:

Jiali Cui, Yan-Ying Chen, Yanxia Zhang, Matthew Klenk

Резюме на русском

## Контекст Область исследований, связанная с мультимодальными технологиями, находится в центре внимания в последние годы. Эти технологии используются для обработки и анализа данных, объединяющих несколько модальностей, таких как текст, изображения, аудио и видео. Несмотря на прогресс в этой области, остаются существенные проблемы. Одной из них является неэффективность в построении общих закономерностей между модальностями, что приводит к потере тонких семантических связей. Такие проблемы ограничивают потенциал мультимодальных приложений в задачах, таких как синтез, классификация и вывод. Мотивация заключается в разработке метода, который мог бы эффективно добывать общие семантические структуры, улучшая качество и точность решений в мультимодальных задачах. ## Метод ShaLa предлагает инновационную модель обучения, основанную на формировании общего многомодального пространства векторов. Методология включает несколько ключевых элементов. Во-первых, ShaLa использует вариационный автоэнкодер (VAE) для эффективного построения общего пространства закономерностей. Во-вторых, в качестве дополнительного улучшения внедрена сложная модель второго этапа, основанная на технологии распространения (diffusion). Эта модель позволяет повысить качество сгенерированных данных. Информационная архитектура построена таким образом, чтобы обеспечить высокую точность в определении общих черт мультимодальных данных, а также сгладить колебания в результатах при синтезе. ## Результаты Эксперименты проводились на различных наборах данных, включающих модальности, такие как изображения, текст и аудио. Метрики, использованные для оценки результатов, включали точность классификации, качество синтеза и сходимость модели. Результаты показали, что ShaLa превосходит современные мультимодальные VAE в ряде аспектов. Она обеспечивает более высокое качество генерируемых данных, повышает точность классификации и улучшает общую сходимость. Эти результаты достигаются благодаря тому, что ShaLa удачно объединяет возможности VAE и дополнительных моделей распространения, что включает в себя как компактность, так и высокую точность синтеза. ## Значимость ShaLa может быть применена в различных областях, включая медицину, развитие обозревателей, анализ текстов и изображений. Особую значимость имеет её возможность обнаруживать и определять общие закономерности в мультимодальных данных, что позволяет улучшить работу моделей в таких задачах, как синтез голоса, генерация текста и изображений. Также ShaLa может повысить качество работы в системах, требующих лучшего понимания мультимодальности

Abstract

This paper presents a novel generative framework for learning shared latent representations across multimodal data. Many advanced multimodal methods focus on capturing all combinations of modality-specific details across inputs, which can inadvertently obscure the high-level semantic concepts that are shared across modalities. Notably, Multimodal VAEs with low-dimensional latent variables are designed to capture shared representations, enabling various tasks such as joint multimodal synthesis and cross-modal inference. However, multimodal VAEs often struggle to design expressive joint variational posteriors and suffer from low-quality synthesis. In this work, ShaLa addresses these challenges by integrating a novel architectural inference model and a second-stage expressive diffusion prior, which not only facilitates effective inference of shared latent representation but also significantly improves the quality of downstream multimodal synthesis. We validate ShaLa extensively across multiple benchmarks, demonstrating superior coherence and synthesis quality compared to state-of-the-art multimodal VAEs. Furthermore, ShaLa scales to many more modalities while prior multimodal VAEs have fallen short in capturing the increasing complexity of the shared latent space.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ShaLa: Multimodal Shared Latent Space Modelling

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Studying Various Activation Functions and Non-IID Data for Machine Learning Mode...

Feature Engineering vs. Deep Learning for Automated Coin Grading: A Comparative ...

Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspecti...

Value Gradient Guidance for Flow Matching Alignment

Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe

Навигация