A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity
2509.24734v1
cs.LG, cs.AI, cs.CV
2025-10-01
Авторы:
Giordano Cicchetti, Eleonora Grassucci, Danilo Comminiello
Резюме на русском
## Контекст
Multimodal learning является ключевым инструментом в развитии искусственного интеллекта, позволяя ему объединять данные из различных модальностей (например, текста, звука и видео) для построения более глубокого представления. Несмотря на прогресс в этой области, текущие модели страдают от существенных ограничений, которые не позволяют полностью реализовать потенциал многомодальных систем. Одна из основных проблем заключается в том, что многие методы не обеспечивают достаточной индикации того, что все модальности достаточно эффективно выравнены. Это может привести к несоответствию модальностей и, как следствие, к неэффективности модели в задачах, где необходимо использовать всю доступную информацию. В данной работе мы предлагаем TRIANGLE, новую меру сходства, которая делает возможным более точное выравнивание модальностей за счет вычисления в пространстве выше-мерного соответствия векторов модальностей.
## Метод
TRIANGLE (TRI-modAl Neural Geometric LEarning) представляет собой новую метрику, которая вычисляется непосредственно в пространстве выше-мерного соответствия, основанного на векторах модальностей. Метод основывается на квадрате треугольника, который позволяет значительно улучшить выравнивание модальностей без необходимости дополнительных слоёв фузирования или вычисления парных сходств. Одним из ключевых аспектов является то, что TRIANGLE может быть легко интегрирован в контрастные потери, заменяя традиционный подход с использованием косинусного сходства. Это позволило существенно повысить эффективность модели, особенно при многомодальных задачах, таких как видео-текст и аудио-видео классификация.
## Результаты
Проведенные эксперименты показали, что TRIANGLE значительно повышает производительность моделей многомодального обучения. Например, в задачах видео-текст и аудио-видео классификации, TRIANGLE показал улучшение показателей Recall@1 до 9 баллов в сравнении с традиционными методами, основанными на косинусной мере сходства. Это достигается благодаря более точному выравниванию модальностей и интерпретируемой природе меры сходства. Использование TRIANGLE показало себя эффективно в различных датасетах, демонстрируя значительный прогресс в области многомодального обучения.
## Значимость
Предложенный подход имеет широкие области применения в многомодальном обучении и может быть использован в задачах, где необходимо выравнивание трёх или более модальностей. TRIANGLE предлагает преимущества в том числе большей точности, интерпретируемости результатов и гибкости реализации. Это может иметь значительное влияние на развитие систем, использующих многомодальные данные, таких как системы распоз
Abstract
Multimodal learning plays a pivotal role in advancing artificial intelligence
systems by incorporating information from multiple modalities to build a more
comprehensive representation. Despite its importance, current state-of-the-art
models still suffer from severe limitations that prevent the successful
development of a fully multimodal model. Such methods may not provide
indicators that all the involved modalities are effectively aligned. As a
result, some modalities may not be aligned, undermining the effectiveness of
the model in downstream tasks where multiple modalities should provide
additional information that the model fails to exploit. In this paper, we
present TRIANGLE: TRI-modAl Neural Geometric LEarning, the novel proposed
similarity measure that is directly computed in the higher-dimensional space
spanned by the modality embeddings. TRIANGLE improves the joint alignment of
three modalities via a triangle-area similarity, avoiding additional fusion
layers or pairwise similarities. When incorporated in contrastive losses
replacing cosine similarity, TRIANGLE significantly boosts the performance of
multimodal modeling, while yielding interpretable alignment rationales.
Extensive evaluation in three-modal tasks such as video-text and audio-text
retrieval or audio-video classification, demonstrates that TRIANGLE achieves
state-of-the-art results across different datasets improving the performance of
cosine-based methods up to 9 points of Recall@1.
Ссылки и действия
Дополнительные ресурсы: