📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Zhanheng Nie, Chenghan Fu, Daoze Zhang, Junxian Wu, Wanxian Guan, Pengjie Wang, Jian Xu, Bo Zheng
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The rapid growth of e-commerce calls for multimodal models that comprehend rich visual and textual product information. Although recent multimodal large language models (MLLMs) for product understanding exhibit strong capability in representation learning for e-commerce, they still face three challenges: (i) the modality imbalance induced by modality mixed training; (ii) underutilization of the intrinsic alignment relationships among visual and textual information within a product; and (iii) lim...
Авторы:
Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Multimodal Models (LMMs) have achieved remarkable progress in
generating photorealistic and prompt-aligned images, but they often produce
outputs that contradict verifiable knowledge, especially when prompts involve
fine-grained attributes or time-sensitive events. Conventional
retrieval-augmented approaches attempt to address this issue by introducing
external information, yet they are fundamentally incapable of grounding
generation in accurate and evolving knowledge due to their reliance...
Авторы:
Daoze Zhang, Zhanheng Nie, Jianyu Liu, Chenghan Fu, Wanxian Guan, Yuan Gao, Jun Song, Pengjie Wang, Jian Xu, Bo Zheng
#### Контекст
В последние годы, скоростному росту электронной коммерции присутствуют множество вызовов, связанных с конвейером обработки товаров. Одним из ключевых аспектов является повышение точности и эффективности понимания товаров. Несмотря на то, что существующие модели, ориентированные на конкретные задачи, демонстрируют хорошие результаты в этой области, они не всегда эффективно обрабатывают многообразие данных, включая текст, изображения и атрибуты товаров. Это приводит к проблемам в моделировании более общих, универсальных представлений. Наша модель MOON (Multimodal MLLM-based Representation Learning) впервые предлагает широкомасштабную генерирующую модель на основе Multimodal Large Language Models (MLLMs), которая значительно улучшает понимание продуктов в различных задачах, таких как кросс-модальная рекогнация, классификация товаров и предсказание атрибутов.
#### Метод
MOON использует современные методы машинного обучения для моделирования продуктов в рамках многомодальных представлений. Основной модуль — это guided Mixture-of-Experts (MoE), который моделирует мультимодальные аспекты товаров. Кроме того, мы вводим технику **core semantic regions detection** для устранения шума и недружественных факторов в изображениях товаров. Метод **negative sampling strategy** позволяет увеличить сложность и разнообразие отрицательных значений. Благодаря этой технологической архитектуре, MOON может эффективно связать мультимодальные представления товаров, включая текст и изображения, и повысить общую точность модели.
#### Результаты
Мы провели ряд экспериментов с использованием нашей большой коллекции данных для продуктов MBE (Multimodal Benchmark for E-commerce), включающей более 10 миллионов товаров. Модель MOON демонстрирует высокую точность в задачах zero-shot кросс-модальной рекогнации, классификации товаров и предсказания атрибутов. Особенно важно отметить, что MOON превосходит существующие методы в ряде ключевых задач, что подтверждает ее силу в общей генеративной моделировании. Также мы выполнили ряд визуализаций, показав, как MOON выявляет ключевые аспекты товаров и отсеивает шумные элементы, что демонстрирует ее эффективность в реальной среде.
#### Значимость
Модель MOON может быть применена в различных областях, таких как визуально-текстовые задачи, анализ товаров, автоматизация логистики и рекомендательные системы. Ее особенно значимость заключается в генеративной природе модели, которая позволяет легко адаптироваться к различным задачам. Мы также отмечаем, что MOON обеспечивает улучшенную эффективность и точность, что позволяет сократить время обработки и улучшить пользовательский опыт в электронной коммерции.
#### Выводы
Annotation:
With the rapid advancement of e-commerce, exploring general representations
rather than task-specific ones has attracted increasing research attention. For
product understanding, although existing discriminative dual-flow architectures
drive progress in this field, they inherently struggle to model the many-to-one
alignment between multiple images and texts of products. Therefore, we argue
that generative Multimodal Large Language Models (MLLMs) hold significant
potential for improving product r...
Авторы:
Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Fakhri Karray
#### Контекст
Изучение непрерывного распознавания жестов (Continuous Sign Language Recognition, CSLR) играет ключевую роль в оптимизации коммуникации между людьми и системами. Однако существуют значительные проблемы, такие как высокая вариативность между знакопериодами (signer variability) и нехватка универсальности в обработке новых структур предложений. Эти сложности часто приводят к неточностям в распознавании жестов, что снижает эффективность алгоритмов. В этом контексте важно разработать модели, которые удачно справляются с этими проблемами, обеспечивая точность и универсальность в распознавании жестов.
#### Метод
Для решения этих проблем мы предлагаем двухуровневую архитектуру. Алгоритм Signer-Invariant Conformer включает в себя конволюционные слои с многоглавным самоп paayтвом (multi-head self-attention), которые обеспечивают извлечение устойчивых к вариативности знакопериодов представлений из скелетных ключевых точек. Для задачи распознавания неизвестных речевых элементов (Unseen-Sentences, US), мы разработали Multi-Scale Fusion Transformer с двухпутевым шаблоном временного разбора (dual-path temporal encoder), который позволяет лучше понимать динамику жестов и нестандартные грамматические конструкции. Модели тренируются на Pose-86K Pose Dataset и используются для проверки на Isharah-1000 dataset.
#### Результаты
На Isharah-1000 dataset, Signer-Invariant Conformer показал Word Error Rate (WER) в 13.07%, что является существенным улучшением по сравнению с предыдущими результатами (WER 26.6%). Multi-Scale Fusion Transformer достиг WER в 47.78% в задаче распознавания неизвестных слов, превзойдя предыдущие модели. Эти результаты опровергают нашу гипотезу о влиянии настройки моделей на задачи CSLR и показывают, что индивидуальные архитектуры могут значительно улучшить показатели распознавания. Наша работа заняла второе место в задаче US и четвертое в задаче SI в соревновании SignEval 2025.
#### Значимость
Наши разработки имеют широкие применения в области систем улучшенной коммуникации, устранения барьеров для людей с ограниченными возможностями, а также в робототехнике и автоматизации. Модели показали свою эффективность в сложных речевых ситуациях, включая неизвестные слова и новые грамматические структуры. Это придает им преимущество в широком диапазоне задач, включая распознавание жестов и текста в режиме реального времени.
#### Выводы
Наши модели — Signer-Invariant Conformer и Multi-Scale Fusion Transformer — доказали свою эффективность в решении задач CSLR. Они установили новый бенчмарк для существующих моделей и открыли новые пути для будущих исследований в области распознавания жестов и улучшения коммуникационных систем. Для дальнейших
Annotation:
Continuous Sign Language Recognition (CSLR) faces multiple challenges,
including significant inter-signer variability and poor generalization to novel
sentence structures. Traditional solutions frequently fail to handle these
issues efficiently. For overcoming these constraints, we propose a
dual-architecture framework. For the Signer-Independent (SI) challenge, we
propose a Signer-Invariant Conformer that combines convolutions with multi-head
self-attention to learn robust, signer-agnostic repr...