📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MOON2.0: Dynamic Modality-balanced Multimodal Representation Learning for E-commerce Product Understanding

2025-11-18

Авторы:

Zhanheng Nie, Chenghan Fu, Daoze Zhang, Junxian Wu, Wanxian Guan, Pengjie Wang, Jian Xu, Bo Zheng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The rapid growth of e-commerce calls for multimodal models that comprehend rich visual and textual product information. Although recent multimodal large language models (MLLMs) for product understanding exhibit strong capability in representation learning for e-commerce, they still face three challenges: (i) the modality imbalance induced by modality mixed training; (ii) underutilization of the intrinsic alignment relationships among visual and textual information within a product; and (iii) lim...

ID: 2511.12449v1 cs.CV, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Open Multimodal Retrieval-Augmented Factual Image Generation

2025-10-29

Авторы:

Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Multimodal Models (LMMs) have achieved remarkable progress in generating photorealistic and prompt-aligned images, but they often produce outputs that contradict verifiable knowledge, especially when prompts involve fine-grained attributes or time-sensitive events. Conventional retrieval-augmented approaches attempt to address this issue by introducing external information, yet they are fundamentally incapable of grounding generation in accurate and evolving knowledge due to their reliance...

ID: 2510.22521v1 cs.CV, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

2025-08-19

Авторы:

Daoze Zhang, Zhanheng Nie, Jianyu Liu, Chenghan Fu, Wanxian Guan, Yuan Gao, Jun Song, Pengjie Wang, Jian Xu, Bo Zheng

#### Контекст В последние годы, скоростному росту электронной коммерции присутствуют множество вызовов, связанных с конвейером обработки товаров. Одним из ключевых аспектов является повышение точности и эффективности понимания товаров. Несмотря на то, что существующие модели, ориентированные на конкретные задачи, демонстрируют хорошие результаты в этой области, они не всегда эффективно обрабатывают многообразие данных, включая текст, изображения и атрибуты товаров. Это приводит к проблемам в моделировании более общих, универсальных представлений. Наша модель MOON (Multimodal MLLM-based Representation Learning) впервые предлагает широкомасштабную генерирующую модель на основе Multimodal Large Language Models (MLLMs), которая значительно улучшает понимание продуктов в различных задачах, таких как кросс-модальная рекогнация, классификация товаров и предсказание атрибутов. #### Метод MOON использует современные методы машинного обучения для моделирования продуктов в рамках многомодальных представлений. Основной модуль — это guided Mixture-of-Experts (MoE), который моделирует мультимодальные аспекты товаров. Кроме того, мы вводим технику **core semantic regions detection** для устранения шума и недружественных факторов в изображениях товаров. Метод **negative sampling strategy** позволяет увеличить сложность и разнообразие отрицательных значений. Благодаря этой технологической архитектуре, MOON может эффективно связать мультимодальные представления товаров, включая текст и изображения, и повысить общую точность модели. #### Результаты Мы провели ряд экспериментов с использованием нашей большой коллекции данных для продуктов MBE (Multimodal Benchmark for E-commerce), включающей более 10 миллионов товаров. Модель MOON демонстрирует высокую точность в задачах zero-shot кросс-модальной рекогнации, классификации товаров и предсказания атрибутов. Особенно важно отметить, что MOON превосходит существующие методы в ряде ключевых задач, что подтверждает ее силу в общей генеративной моделировании. Также мы выполнили ряд визуализаций, показав, как MOON выявляет ключевые аспекты товаров и отсеивает шумные элементы, что демонстрирует ее эффективность в реальной среде. #### Значимость Модель MOON может быть применена в различных областях, таких как визуально-текстовые задачи, анализ товаров, автоматизация логистики и рекомендательные системы. Ее особенно значимость заключается в генеративной природе модели, которая позволяет легко адаптироваться к различным задачам. Мы также отмечаем, что MOON обеспечивает улучшенную эффективность и точность, что позволяет сократить время обработки и улучшить пользовательский опыт в электронной коммерции. #### Выводы

Annotation:

With the rapid advancement of e-commerce, exploring general representations rather than task-specific ones has attracted increasing research attention. For product understanding, although existing discriminative dual-flow architectures drive progress in this field, they inherently struggle to model the many-to-one alignment between multiple images and texts of products. Therefore, we argue that generative Multimodal Large Language Models (MLLMs) hold significant potential for improving product r...

ID: 2508.11999v1 cs.CV, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 A Signer-Invariant Conformer and Multi-Scale Fusion Transformer for Continuous Sign Language Recognition

2025-08-15

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Fakhri Karray

#### Контекст Изучение непрерывного распознавания жестов (Continuous Sign Language Recognition, CSLR) играет ключевую роль в оптимизации коммуникации между людьми и системами. Однако существуют значительные проблемы, такие как высокая вариативность между знакопериодами (signer variability) и нехватка универсальности в обработке новых структур предложений. Эти сложности часто приводят к неточностям в распознавании жестов, что снижает эффективность алгоритмов. В этом контексте важно разработать модели, которые удачно справляются с этими проблемами, обеспечивая точность и универсальность в распознавании жестов. #### Метод Для решения этих проблем мы предлагаем двухуровневую архитектуру. Алгоритм Signer-Invariant Conformer включает в себя конволюционные слои с многоглавным самоп paayтвом (multi-head self-attention), которые обеспечивают извлечение устойчивых к вариативности знакопериодов представлений из скелетных ключевых точек. Для задачи распознавания неизвестных речевых элементов (Unseen-Sentences, US), мы разработали Multi-Scale Fusion Transformer с двухпутевым шаблоном временного разбора (dual-path temporal encoder), который позволяет лучше понимать динамику жестов и нестандартные грамматические конструкции. Модели тренируются на Pose-86K Pose Dataset и используются для проверки на Isharah-1000 dataset. #### Результаты На Isharah-1000 dataset, Signer-Invariant Conformer показал Word Error Rate (WER) в 13.07%, что является существенным улучшением по сравнению с предыдущими результатами (WER 26.6%). Multi-Scale Fusion Transformer достиг WER в 47.78% в задаче распознавания неизвестных слов, превзойдя предыдущие модели. Эти результаты опровергают нашу гипотезу о влиянии настройки моделей на задачи CSLR и показывают, что индивидуальные архитектуры могут значительно улучшить показатели распознавания. Наша работа заняла второе место в задаче US и четвертое в задаче SI в соревновании SignEval 2025. #### Значимость Наши разработки имеют широкие применения в области систем улучшенной коммуникации, устранения барьеров для людей с ограниченными возможностями, а также в робототехнике и автоматизации. Модели показали свою эффективность в сложных речевых ситуациях, включая неизвестные слова и новые грамматические структуры. Это придает им преимущество в широком диапазоне задач, включая распознавание жестов и текста в режиме реального времени. #### Выводы Наши модели — Signer-Invariant Conformer и Multi-Scale Fusion Transformer — доказали свою эффективность в решении задач CSLR. Они установили новый бенчмарк для существующих моделей и открыли новые пути для будущих исследований в области распознавания жестов и улучшения коммуникационных систем. Для дальнейших

Annotation:

Continuous Sign Language Recognition (CSLR) faces multiple challenges, including significant inter-signer variability and poor generalization to novel sentence structures. Traditional solutions frequently fail to handle these issues efficiently. For overcoming these constraints, we propose a dual-architecture framework. For the Signer-Independent (SI) challenge, we propose a Signer-Invariant Conformer that combines convolutions with multi-head self-attention to learn robust, signer-agnostic repr...

ID: 2508.09372v1 cs.CV, cs.AI, cs.IR, cs.LG

arXiv PDF