VideoAVE: A Multi-Attribute Video-to-Text Attribute Value Extraction Dataset and Benchmark Models

2508.11801v1 cs.CV, cs.CL 2025-08-19

Авторы:

Ming Cheng, Tong Wu, Jiazhen Hu, Jiaying Gong, Hoda Eldardiry

Резюме на русском

## Контекст Видео-to-text Attribute Value Extraction (AVE) является ключевым аспектом структурирования продуктной информации в электронной коммерции. Однако существующие датасеты AVE ограничены текстовыми или изображениями, не учитывая видео, широкий спектр атрибутов и открытый доступ. Эти ограничения приводят к недостатку ресурсов для развития мощных моделей видео-to-text AVE. Мотивация заключается в создании первого открытого видео-to-text датасета AVE для электронной коммерции, предоставляющего обширный профиль атрибутов и высокую качественную структуру. ## Метод Датасет VideoAVE состоит из 250k видео-продуктных пар, представленных в 14 различных доменах с 172 уникальными атрибутами. Для обеспечения качества данных разработан CLIP-MoE, система фильтрации на основе CLIP, удаляющая несоответствующие видео-продуктные пары. Эта система позволяет повысить точность и качество данных, создав датасет с 224k обучающих и 25k оценочных пар. Для оценки датасета разработаны модели VideoAVE VLMs, оценивающие производительность в задачах условного уточнения значений атрибутов и извлечения свободных атрибутов-значений. ## Результаты Выполнены эксперименты на VideoAVE с использованием нескольких моделей VLMs, включая Clip4Clip, VideoCLIP и Frozen. Данные были протестированы для условного уточнения значений атрибутов и открытого извлечения пар атрибут-значение. Результаты показали, что VideoAVE является сложной для моделей, особенно в открытой среде, где необходимо учитывать временную информацию. Это подтверждает необходимость развития более продвинутых моделей VLMs, эффективно использующих временные сведения. ## Значимость VideoAVE открывает новые возможности для развития моделей видео-to-text в электронной коммерции, обеспечивая первый открытый датасет с обширным профилем атрибутов и высоким качеством. Он может использоваться в приложениях, таких как поиск продуктов, рекомендации и структурирование продуктных данных. Благодаря новым моделям VLMs, VideoAVE может способствовать улучшению точности и качества извлечения продуктных атрибутов из видео, что в конечном итоге повысит эффективность электронной коммерции. ## Выводы Выводы подтверждают, что VideoAVE является значительным достижением в области видео-to-text AVE, но существуют проблемы, особенно в открытой среде, требующие более развитых моделей VLMs. Будущие исследования будут ориентированы на повышение точности моделей, учитывая временные сведения и улучшение моделей для широкого профиля атрибутов. Это позволит создавать более точные и эффективные решения для продуктной структуризации в электронной коммерции.

Abstract

Attribute Value Extraction (AVE) is important for structuring product information in e-commerce. However, existing AVE datasets are primarily limited to text-to-text or image-to-text settings, lacking support for product videos, diverse attribute coverage, and public availability. To address these gaps, we introduce VideoAVE, the first publicly available video-to-text e-commerce AVE dataset across 14 different domains and covering 172 unique attributes. To ensure data quality, we propose a post-hoc CLIP-based Mixture of Experts filtering system (CLIP-MoE) to remove the mismatched video-product pairs, resulting in a refined dataset of 224k training data and 25k evaluation data. In order to evaluate the usability of the dataset, we further establish a comprehensive benchmark by evaluating several state-of-the-art video vision language models (VLMs) under both attribute-conditioned value prediction and open attribute-value pair extraction tasks. Our results analysis reveals that video-to-text AVE remains a challenging problem, particularly in open settings, and there is still room for developing more advanced VLMs capable of leveraging effective temporal information. The dataset and benchmark code for VideoAVE are available at: https://github.com/gjiaying/VideoAVE

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

VideoAVE: A Multi-Attribute Video-to-Text Attribute Value Extraction Dataset and Benchmark Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация