CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation

2508.07295v1 cs.CL 2025-08-13

Авторы:

Yexing Du, Kaiyuan Liu, Youcheng Pan, Zheng Chu, Bo Yang, Xiaocheng Feng, Yang Xiang, Ming Liu

Резюме на русском

#### Контекст Современные Multimodal Large Language Models (MLLMs) становятся все более популярными в многоязычном мире, но обеспечение надежности и точности их ответов, особенно при обработке многоязычных входных данных, является ключевой проблемой. Несмотря на то, что существуют бенчмарки для оценки фактичности ответов, они, как правило, фокусируются лишь на английском языке, ограничиваясь текстовыми или визуальными модальностями. Это создает значительную проблему при оценке моделей, которые должны обрабатывать многоязычные спеech-запросы. Наша мотивация заключается в разработке бенчмарка, который не только охватит многоязычность, но и позволит оценивать модели по комбинированным модальностям текста и речи. #### Метод Мы предлагаем CCFQA (Cross-Lingual and Cross-Modal Factuality Evaluation Benchmark), который включает параллельные текстовые и речевые фактические вопросы на 8 языках. Бенчмарк разработан с целью оценивать модели по своей способности кросс-языковой и кросс-модальной оценке фактичности. Мы использовали рекуррентные нейронные сети (RNN) для обработки речи и LSTM для работы с текстом, чтобы обеспечить многоязычную обработку. Кроме того, мы внедрили многомодальные методы для объединения сигналов речи и текста. #### Результаты Мы провели эксперименты с несколькими MLLMs, включая модели с разным количеством слоев и размеров файлов. Были оценены значимость и точность ответов на CCFQA-benchmark. Наши результаты показывают, что текущие модели все еще сталкиваются с значительными вызовами в области кросс-языковой и кросс-модальной фактичности. Мы также проверили нашу стратегию few-shot transfer learning, которая эффективно передает QA-способности моделей на многоязычные Spoken Question Answering (SQA) задачи, достигнув почти одинаковой точности с GPT-4-mini-Audio при использовании только 5-шаговой обучения. #### Значимость CCFQA может быть применен в различных областях, таких как здравоохранение, образование, интеллектуальные системы, где необходима надежная обработка кросс-языковых и кросс-модальных спеech-запросов. У него есть несколько преимуществ, таких как систематическая оценка, переносимость моделей, и поддержка нескольких языков. Мы видим в потенциале CCFQA возможность способствовать развитию MLLMs с более надежными и релационными способностями. #### Выводы Мы представили CCFQA, первый бенчмарк для кросс-языковой и кросс-модальной оценки фактичности. Наши результаты показали, что текущие модели все еще сталкиваются с значительными вызовами в области кросс-языковой и кросс-модальной фактичности. Мы также предложили эффективную стратегию few-shot transfer learning, которая может быть использова

Abstract

As Large Language Models (LLMs) are increasingly popularized in the multilingual world, ensuring hallucination-free factuality becomes markedly crucial. However, existing benchmarks for evaluating the reliability of Multimodal Large Language Models (MLLMs) predominantly focus on textual or visual modalities with a primary emphasis on English, which creates a gap in evaluation when processing multilingual input, especially in speech. To bridge this gap, we propose a novel \textbf{C}ross-lingual and \textbf{C}ross-modal \textbf{F}actuality benchmark (\textbf{CCFQA}). Specifically, the CCFQA benchmark contains parallel speech-text factual questions across 8 languages, designed to systematically evaluate MLLMs' cross-lingual and cross-modal factuality capabilities. Our experimental results demonstrate that current MLLMs still face substantial challenges on the CCFQA benchmark. Furthermore, we propose a few-shot transfer learning strategy that effectively transfers the Question Answering (QA) capabilities of LLMs in English to multilingual Spoken Question Answering (SQA) tasks, achieving competitive performance with GPT-4o-mini-Audio using just 5-shot training. We release CCFQA as a foundational research resource to promote the development of MLLMs with more robust and reliable speech understanding capabilities. Our code and dataset are available at https://github.com/yxduir/ccfqa.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Morphologically-Informed Tokenizers for Languages with Non-Concatenative Morphol...

Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models

LOCUS: A System and Method for Low-Cost Customization for Universal Specializati...

Policy-based Sentence Simplification: Replacing Parallel Corpora with LLM-as-a-J...

Knowing What's Missing: Assessing Information Sufficiency in Question Answering

Навигация