CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation
2508.07295v1
cs.CL
2025-08-13
Авторы:
Yexing Du, Kaiyuan Liu, Youcheng Pan, Zheng Chu, Bo Yang, Xiaocheng Feng, Yang Xiang, Ming Liu
Резюме на русском
#### Контекст
Современные Multimodal Large Language Models (MLLMs) становятся все более популярными в многоязычном мире, но обеспечение надежности и точности их ответов, особенно при обработке многоязычных входных данных, является ключевой проблемой. Несмотря на то, что существуют бенчмарки для оценки фактичности ответов, они, как правило, фокусируются лишь на английском языке, ограничиваясь текстовыми или визуальными модальностями. Это создает значительную проблему при оценке моделей, которые должны обрабатывать многоязычные спеech-запросы. Наша мотивация заключается в разработке бенчмарка, который не только охватит многоязычность, но и позволит оценивать модели по комбинированным модальностям текста и речи.
#### Метод
Мы предлагаем CCFQA (Cross-Lingual and Cross-Modal Factuality Evaluation Benchmark), который включает параллельные текстовые и речевые фактические вопросы на 8 языках. Бенчмарк разработан с целью оценивать модели по своей способности кросс-языковой и кросс-модальной оценке фактичности. Мы использовали рекуррентные нейронные сети (RNN) для обработки речи и LSTM для работы с текстом, чтобы обеспечить многоязычную обработку. Кроме того, мы внедрили многомодальные методы для объединения сигналов речи и текста.
#### Результаты
Мы провели эксперименты с несколькими MLLMs, включая модели с разным количеством слоев и размеров файлов. Были оценены значимость и точность ответов на CCFQA-benchmark. Наши результаты показывают, что текущие модели все еще сталкиваются с значительными вызовами в области кросс-языковой и кросс-модальной фактичности. Мы также проверили нашу стратегию few-shot transfer learning, которая эффективно передает QA-способности моделей на многоязычные Spoken Question Answering (SQA) задачи, достигнув почти одинаковой точности с GPT-4-mini-Audio при использовании только 5-шаговой обучения.
#### Значимость
CCFQA может быть применен в различных областях, таких как здравоохранение, образование, интеллектуальные системы, где необходима надежная обработка кросс-языковых и кросс-модальных спеech-запросов. У него есть несколько преимуществ, таких как систематическая оценка, переносимость моделей, и поддержка нескольких языков. Мы видим в потенциале CCFQA возможность способствовать развитию MLLMs с более надежными и релационными способностями.
#### Выводы
Мы представили CCFQA, первый бенчмарк для кросс-языковой и кросс-модальной оценки фактичности. Наши результаты показали, что текущие модели все еще сталкиваются с значительными вызовами в области кросс-языковой и кросс-модальной фактичности. Мы также предложили эффективную стратегию few-shot transfer learning, которая может быть использова
Abstract
As Large Language Models (LLMs) are increasingly popularized in the
multilingual world, ensuring hallucination-free factuality becomes markedly
crucial. However, existing benchmarks for evaluating the reliability of
Multimodal Large Language Models (MLLMs) predominantly focus on textual or
visual modalities with a primary emphasis on English, which creates a gap in
evaluation when processing multilingual input, especially in speech. To bridge
this gap, we propose a novel \textbf{C}ross-lingual and \textbf{C}ross-modal
\textbf{F}actuality benchmark (\textbf{CCFQA}). Specifically, the CCFQA
benchmark contains parallel speech-text factual questions across 8 languages,
designed to systematically evaluate MLLMs' cross-lingual and cross-modal
factuality capabilities. Our experimental results demonstrate that current
MLLMs still face substantial challenges on the CCFQA benchmark. Furthermore, we
propose a few-shot transfer learning strategy that effectively transfers the
Question Answering (QA) capabilities of LLMs in English to multilingual Spoken
Question Answering (SQA) tasks, achieving competitive performance with
GPT-4o-mini-Audio using just 5-shot training. We release CCFQA as a
foundational research resource to promote the development of MLLMs with more
robust and reliable speech understanding capabilities. Our code and dataset are
available at https://github.com/yxduir/ccfqa.
Ссылки и действия
Дополнительные ресурсы: