📊 Статистика дайджестов
Всего дайджестов: 35039 Добавлено сегодня: 432
Последнее обновление: сегодня
📄 On the Brittleness of CLIP Text Encoders
2025-11-11Авторы:
Allie Tran, Luca Rossetto
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Multimodal co-embedding models, especially CLIP, have advanced the state of
the art in zero-shot classification and multimedia information retrieval in
recent years by aligning images and text in a shared representation space.
However, such modals trained on a contrastive alignment can lack stability
towards small input perturbations. Especially when dealing with manually
expressed queries, minor variations in the query can cause large differences in
the ranking of the best-matching results. In ...
📄 On the Brittleness of CLIP Text Encoders
2025-11-08Авторы:
Allie Tran, Luca Rossetto
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Multimodal co-embedding models, especially CLIP, have advanced the state of
the art in zero-shot classification and multimedia information retrieval in
recent years by aligning images and text in a shared representation space.
However, such modals trained on a contrastive alignment can lack stability
towards small input perturbations. Especially when dealing with manually
expressed queries, minor variations in the query can cause large differences in
the ranking of the best-matching results. In ...
Авторы:
Xinkui Lin, Yongxiu Xu, Minghao Tang, Shilong Zhang, Hongbo Xu, Hao Xu, Yubin Wang
## Контекст
Много modal relation extraction (MRE) является важной задачей в областях Knowledge Graph и Multimedia, играя ключевую роль в построении multimodal knowledge graph. Однако существующие методы по сути ограничены в выделении одного типа реляционных тройняшек, что ограничивает их возможности выделять тройки за пределами указанных типов. Их комбинирование прямым образом не позволяет ловко охватить динамические кросс-modalные взаимодействия и приводит к значительному росту вычислительных затрат. Мы предлагаем REMOTE — универсальный много modal relation extraction фреймворк с многоуровневым транспортным оптимизатором и микстой экспертов, проектированный для совместного выделения внутри modal и меж modalных реляций между текстовыми сущностями и визуальными объектами. Наша модель позволяет эффективно адаптировать выбор интересующих функций взаимодействия к различным типам реляционных тройняшек.
## Метод
Мы вводим многоуровневый транспортный модуль для объединения, который сохраняет низкоуровневые признаки в процессе многослойного кодирования. Это позволяет повысить выразительность представлений. Для выделения реляционных тройняшек мы применяем механизм микстов экспертов, который динамически выбирает наиболее релевантные взаимодействия для каждого типа реляций. Это гарантирует оптимальную использование информации из разных модальностей. Таким образом, REMOTE универсально и эффективно, охватывая широкий спектр взаимодействий между текстовыми и визуальными субъектами.
## Результаты
Мы проводим эксперименты на созданном нами датасете Unified Multimodal Relation Extraction (UMRE), включающем разнообразные сценарии, где субъекты могут быть текстовыми или изображениями. Модель REMOTE показывает сверхувышнее качество результатов почти на всех метриках по сравнению с другими моделями на двух открытых датасетах MRE. Наши исследования подтверждают, что REMOTE эффективно выделяет разнообразные типы реляционных тройняшек и достигает состояния лидерства в своей области.
## Значимость
Наша модель REMOTE может использоваться в различных приложениях, таких как распознавание значков, обработка текста и видео, а также в биоинформатике. Она превосходит существующие методы по объему выделенных реляций и точности, что делает ее привлекательной для разных задач. Мы также открыли доступ к нашим ресурсам, чтобы поддержать будущие исследования.
## Выводы
Мы предложили REMOTE — мощный фреймворк для много modal relation extraction, который эффективно работает с разнообразными типами реляционных тройняшек. Наши результаты показали лидирующую позицию REMOTE по сравнению с другими моделями. Мы планируем продолжать развивать REMOTE, о
Annotation:
Multimodal relation extraction (MRE) is a crucial task in the fields of
Knowledge Graph and Multimedia, playing a pivotal role in multimodal knowledge
graph construction. However, existing methods are typically limited to
extracting a single type of relational triplet, which restricts their ability
to extract triplets beyond the specified types. Directly combining these
methods fails to capture dynamic cross-modal interactions and introduces
significant computational redundancy. Therefore, we pr...