AutoArabic: A Three-Stage Framework for Localizing Video-Text Retrieval Benchmarks
2509.16438v1
cs.CV, cs.CL
2025-09-24
Авторы:
Mohamed Eltahir, Osamah Sarraj, Abdulrahman Alfrihidi, Taha Alshatiri, Mohammed Khurd, Mohammed Bremoo, Tanveer Hussain
Резюме на русском
## Контекст
Видео-текстовые бенчмарки, такие как DiDeMo и MSR-VTT, широко используются для измерения качества методов взаимодействия между видео и текстом. Однако эти бенчмарки производились практически исключительно на английском языке, что ограничивает их применимость к другим языкам, в том числе и арабскому. Это является проблемой, поскольку многие регионы, включая Арабский мир, остаются за пределами этих исследований. Одновременно, рост многоязычных моделей и технологий преобразования языка (LLMs) позволяет рассматривать возможность локализации таких бенчмарков на неанглоязычных языках. Мотивация для AutoArabic заключается в устранении этой проблемы, предоставив Арабский язык возможность участвовать в этих исследованиях, а также дать новый взгляд на сравнение методов в локальных условиях.
## Метод
AutoArabic представляет собой трехэтапный фреймворк, разработанный с использованием новейших технологий машинного обучения. В первой стадии бенчмарки на английском языке (например, DiDeMo) локализуются с помощью глубоко обученных LLMs, чтобы перевести текст на модернский арабский язык. Вторая стадия включает в себя автоматическую проверку перевода с использованием анализа тональности и частоты слов, чтобы выявить потенциальные ошибки. На третьей стадии производится машинное обучение с использованием полученных локализованных данных. Этот процесс упрощает ручную проверку и позволяет получать финальные локализованные данные с меньшим числом ошибок. Фреймворк также включает модуль для автоматического обнаружения ошибок, который показывает 97% точности в выявлении неточностей в переводе.
## Результаты
Авторы применяли AutoArabic к DiDeMo, чтобы получить локализованную версию DiDeMo-AR, содержащую 40 144 арабских описаний видео. Эти описания были проверены машинным обучением, и их качество было сравнено с оригинальным бенчмарком DiDeMo. Результаты показали, что Recall@1 для локализованной версии DiDeMo-AR отличается от оригинального бенчмарка на 3 процентных пункта. Это указывает на то, что локализация бенчмарка на арабский язык сохраняет сложность и вызовы, связанные с оригинальным бенчмарком. Кроме того, авторы обнаружили, что значительная часть ошибок в переводе может быть найдена с помощью автоматического модуля, что позволяет оптимально распределить усилия по проверке.
## Значимость
Фреймворк AutoArabic открывает возможность локализации бенчмарков на неанглоязычных языках, в том числе и арабскому. Это может сыграть ключевую роль в расширении применения методов взаимодействия между видео и текстом в Арабских странах и для их
Abstract
Video-to-text and text-to-video retrieval are dominated by English benchmarks
(e.g. DiDeMo, MSR-VTT) and recent multilingual corpora (e.g. RUDDER), yet
Arabic remains underserved, lacking localized evaluation metrics. We introduce
a three-stage framework, AutoArabic, utilizing state-of-the-art large language
models (LLMs) to translate non-Arabic benchmarks into Modern Standard Arabic,
reducing the manual revision required by nearly fourfold. The framework
incorporates an error detection module that automatically flags potential
translation errors with 97% accuracy. Applying the framework to DiDeMo, a video
retrieval benchmark produces DiDeMo-AR, an Arabic variant with 40,144 fluent
Arabic descriptions. An analysis of the translation errors is provided and
organized into an insightful taxonomy to guide future Arabic localization
efforts. We train a CLIP-style baseline with identical hyperparameters on the
Arabic and English variants of the benchmark, finding a moderate performance
gap (about 3 percentage points at Recall@1), indicating that Arabic
localization preserves benchmark difficulty. We evaluate three post-editing
budgets (zero/ flagged-only/ full) and find that performance improves
monotonically with more post-editing, while the raw LLM output (zero-budget)
remains usable. To ensure reproducibility to other languages, we made the code
available at https://github.com/Tahaalshatiri/AutoArabic.
Ссылки и действия
Дополнительные ресурсы: