AutoArabic: A Three-Stage Framework for Localizing Video-Text Retrieval Benchmarks

2509.16438v1 cs.CV, cs.CL 2025-09-24

Авторы:

Mohamed Eltahir, Osamah Sarraj, Abdulrahman Alfrihidi, Taha Alshatiri, Mohammed Khurd, Mohammed Bremoo, Tanveer Hussain

Резюме на русском

## Контекст Видео-текстовые бенчмарки, такие как DiDeMo и MSR-VTT, широко используются для измерения качества методов взаимодействия между видео и текстом. Однако эти бенчмарки производились практически исключительно на английском языке, что ограничивает их применимость к другим языкам, в том числе и арабскому. Это является проблемой, поскольку многие регионы, включая Арабский мир, остаются за пределами этих исследований. Одновременно, рост многоязычных моделей и технологий преобразования языка (LLMs) позволяет рассматривать возможность локализации таких бенчмарков на неанглоязычных языках. Мотивация для AutoArabic заключается в устранении этой проблемы, предоставив Арабский язык возможность участвовать в этих исследованиях, а также дать новый взгляд на сравнение методов в локальных условиях. ## Метод AutoArabic представляет собой трехэтапный фреймворк, разработанный с использованием новейших технологий машинного обучения. В первой стадии бенчмарки на английском языке (например, DiDeMo) локализуются с помощью глубоко обученных LLMs, чтобы перевести текст на модернский арабский язык. Вторая стадия включает в себя автоматическую проверку перевода с использованием анализа тональности и частоты слов, чтобы выявить потенциальные ошибки. На третьей стадии производится машинное обучение с использованием полученных локализованных данных. Этот процесс упрощает ручную проверку и позволяет получать финальные локализованные данные с меньшим числом ошибок. Фреймворк также включает модуль для автоматического обнаружения ошибок, который показывает 97% точности в выявлении неточностей в переводе. ## Результаты Авторы применяли AutoArabic к DiDeMo, чтобы получить локализованную версию DiDeMo-AR, содержащую 40 144 арабских описаний видео. Эти описания были проверены машинным обучением, и их качество было сравнено с оригинальным бенчмарком DiDeMo. Результаты показали, что Recall@1 для локализованной версии DiDeMo-AR отличается от оригинального бенчмарка на 3 процентных пункта. Это указывает на то, что локализация бенчмарка на арабский язык сохраняет сложность и вызовы, связанные с оригинальным бенчмарком. Кроме того, авторы обнаружили, что значительная часть ошибок в переводе может быть найдена с помощью автоматического модуля, что позволяет оптимально распределить усилия по проверке. ## Значимость Фреймворк AutoArabic открывает возможность локализации бенчмарков на неанглоязычных языках, в том числе и арабскому. Это может сыграть ключевую роль в расширении применения методов взаимодействия между видео и текстом в Арабских странах и для их

Abstract

Video-to-text and text-to-video retrieval are dominated by English benchmarks (e.g. DiDeMo, MSR-VTT) and recent multilingual corpora (e.g. RUDDER), yet Arabic remains underserved, lacking localized evaluation metrics. We introduce a three-stage framework, AutoArabic, utilizing state-of-the-art large language models (LLMs) to translate non-Arabic benchmarks into Modern Standard Arabic, reducing the manual revision required by nearly fourfold. The framework incorporates an error detection module that automatically flags potential translation errors with 97% accuracy. Applying the framework to DiDeMo, a video retrieval benchmark produces DiDeMo-AR, an Arabic variant with 40,144 fluent Arabic descriptions. An analysis of the translation errors is provided and organized into an insightful taxonomy to guide future Arabic localization efforts. We train a CLIP-style baseline with identical hyperparameters on the Arabic and English variants of the benchmark, finding a moderate performance gap (about 3 percentage points at Recall@1), indicating that Arabic localization preserves benchmark difficulty. We evaluate three post-editing budgets (zero/ flagged-only/ full) and find that performance improves monotonically with more post-editing, while the raw LLM output (zero-budget) remains usable. To ensure reproducibility to other languages, we made the code available at https://github.com/Tahaalshatiri/AutoArabic.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AutoArabic: A Three-Stage Framework for Localizing Video-Text Retrieval Benchmarks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация