📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 On the Brittleness of CLIP Text Encoders

2025-11-11

Авторы:

Allie Tran, Luca Rossetto

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multimodal co-embedding models, especially CLIP, have advanced the state of the art in zero-shot classification and multimedia information retrieval in recent years by aligning images and text in a shared representation space. However, such modals trained on a contrastive alignment can lack stability towards small input perturbations. Especially when dealing with manually expressed queries, minor variations in the query can cause large differences in the ranking of the best-matching results. In ...

ID: 2511.04247v2 cs.MM, cs.AI, cs.IR

arXiv PDF

📄 On the Brittleness of CLIP Text Encoders

2025-11-08

Авторы:

Allie Tran, Luca Rossetto

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ID: 2511.04247v1 cs.MM, cs.AI, cs.IR

arXiv PDF

📄 REMOTE: A Unified Multimodal Relation Extraction Framework with Multilevel Optimal Transport and Mixture-of-Experts

2025-09-09

Авторы:

Xinkui Lin, Yongxiu Xu, Minghao Tang, Shilong Zhang, Hongbo Xu, Hao Xu, Yubin Wang

## Контекст Много modal relation extraction (MRE) является важной задачей в областях Knowledge Graph и Multimedia, играя ключевую роль в построении multimodal knowledge graph. Однако существующие методы по сути ограничены в выделении одного типа реляционных тройняшек, что ограничивает их возможности выделять тройки за пределами указанных типов. Их комбинирование прямым образом не позволяет ловко охватить динамические кросс-modalные взаимодействия и приводит к значительному росту вычислительных затрат. Мы предлагаем REMOTE — универсальный много modal relation extraction фреймворк с многоуровневым транспортным оптимизатором и микстой экспертов, проектированный для совместного выделения внутри modal и меж modalных реляций между текстовыми сущностями и визуальными объектами. Наша модель позволяет эффективно адаптировать выбор интересующих функций взаимодействия к различным типам реляционных тройняшек. ## Метод Мы вводим многоуровневый транспортный модуль для объединения, который сохраняет низкоуровневые признаки в процессе многослойного кодирования. Это позволяет повысить выразительность представлений. Для выделения реляционных тройняшек мы применяем механизм микстов экспертов, который динамически выбирает наиболее релевантные взаимодействия для каждого типа реляций. Это гарантирует оптимальную использование информации из разных модальностей. Таким образом, REMOTE универсально и эффективно, охватывая широкий спектр взаимодействий между текстовыми и визуальными субъектами. ## Результаты Мы проводим эксперименты на созданном нами датасете Unified Multimodal Relation Extraction (UMRE), включающем разнообразные сценарии, где субъекты могут быть текстовыми или изображениями. Модель REMOTE показывает сверхувышнее качество результатов почти на всех метриках по сравнению с другими моделями на двух открытых датасетах MRE. Наши исследования подтверждают, что REMOTE эффективно выделяет разнообразные типы реляционных тройняшек и достигает состояния лидерства в своей области. ## Значимость Наша модель REMOTE может использоваться в различных приложениях, таких как распознавание значков, обработка текста и видео, а также в биоинформатике. Она превосходит существующие методы по объему выделенных реляций и точности, что делает ее привлекательной для разных задач. Мы также открыли доступ к нашим ресурсам, чтобы поддержать будущие исследования. ## Выводы Мы предложили REMOTE — мощный фреймворк для много modal relation extraction, который эффективно работает с разнообразными типами реляционных тройняшек. Наши результаты показали лидирующую позицию REMOTE по сравнению с другими моделями. Мы планируем продолжать развивать REMOTE, о

Annotation:

Multimodal relation extraction (MRE) is a crucial task in the fields of Knowledge Graph and Multimedia, playing a pivotal role in multimodal knowledge graph construction. However, existing methods are typically limited to extracting a single type of relational triplet, which restricts their ability to extract triplets beyond the specified types. Directly combining these methods fails to capture dynamic cross-modal interactions and introduces significant computational redundancy. Therefore, we pr...

ID: 2509.04844v1 cs.MM, cs.AI, cs.IR

arXiv PDF