Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

2509.15476v1 cs.CL, cs.MM 2025-09-23
Авторы:

Zhu Li, Xiyuan Gao, Yuqing Zhang, Shekhar Nayak, Matt Coler

Резюме на русском

## Контекст Sarcasm detection является сложной задачей в области natural language understanding (NLU), так как sarcasm часто завязан на неявных кросс-модальных сигналах, включающих текст, речь и визуальные элементы. Несмотря на то, что большая часть ранее проведенной работы сосредоточилась либо на тексте, либо на визуальных-текстовых аспектах, комплексное понимание sarcasm на основе аудио-визуальных и текстовых сигналов остается нередко изученной областью. В данной работе мы осуществляем тщательную оценку бо LLM для sarcasm detection, особенно на английском языке (MUStARD++) и китайском языке (MCSD 1.0) в разных режимах: zero-shot, few-shot, и LoRA fine-tuning. Мы также исследуем их использование как функциональных моделей, объединяя их представления с помощью модуля collaborative gating fusion. Наши результаты показывают, что модели на основе речи демонстрируют сильную унимодальную производительность, в то время как комбинации текст-аудио и аудио-визуальные модели превосходят модели в одной модали и трех модальных. Далее, модели MLLMs, такие как Qwen-Omni, показывают высокую эффективность в zero-shot и fine-tuning режимах. Эти находки подчеркивают значимость multimodal LLMs для audio-visual-textual sarcasm understanding и показывают их перспективы в кросс-языковых приложениях. ## Метод Для оценки multimodal LLMs мы использовали две модели: MUStARD++ (английский) и MCSD 1.0 (китайский), подготовленные для sarcasm detection. Мы рассматривали разные режимы, включая zero-shot, few-shot, и fine-tuning с использованием LoRA. Мы также исследовали модели, не только как классификаторы, но и как модели для функциональной моделирования. Используя collaborative gating fusion module, мы объединяли представления от разных моделей, позволяя им совместно работать над задачей. Изучая разные модальности (текст, речь, визуальные сигналы), мы проводили эксперименты для понимания, как каждая модальность вкладывается в общую задачу sarcasm detection. Эта архитектура позволила нам оценивать как модели, так и их комбинации, чтобы понять, какие модальности и какие комбинации дают наибольшую эффективность в задаче классификации sarcasm. ## Результаты В наших экспериментах мы оценивали модели как в унимодальных, так и в кросс-модальных режимах. Модели на основе речи (speech-based models) показали самые высокие результаты в унимодальной оценке. Однако, комбинация текст-аудио и аудио-визуальные комбинации показали сильное превосходство над унимодальными и трехмодальными моделями. Мы также оценивали multimodal LLMs (MLLMs), такие как Qwen-Omni, которые показали высокую эффективность в zero-shot и fine-tuning режимах. Эти модели показали свою способность работать в cross-lingual сценариях, что демонстрирует их потенциал для аудио-визуально-текстового понимания sarcasm. Наши резуль

Abstract

Sarcasm detection remains a challenge in natural language understanding, as sarcastic intent often relies on subtle cross-modal cues spanning text, speech, and vision. While prior work has primarily focused on textual or visual-textual sarcasm, comprehensive audio-visual-textual sarcasm understanding remains underexplored. In this paper, we systematically evaluate large language models (LLMs) and multimodal LLMs for sarcasm detection on English (MUStARD++) and Chinese (MCSD 1.0) in zero-shot, few-shot, and LoRA fine-tuning settings. In addition to direct classification, we explore models as feature encoders, integrating their representations through a collaborative gating fusion module. Experimental results show that audio-based models achieve the strongest unimodal performance, while text-audio and audio-vision combinations outperform unimodal and trimodal models. Furthermore, MLLMs such as Qwen-Omni show competitive zero-shot and fine-tuned performance. Our findings highlight the potential of MLLMs for cross-lingual, audio-visual-textual sarcasm understanding.

Ссылки и действия

Связанные статьи

DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Und...

## Контекст Данная работа посвящена развитию DRISHTIKON — первого в своём роде многомодального и многоязыкового бенчмарк...

2025-09-25

RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Sce...

## Контекст В последние годы стало ясно, что понимание множества изображений (multi-image understanding) является кллюч...

2025-09-24

Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents

## Контекст Современный мир охвачен всемиконный потоком мультимедийной информации. Это создает необходимость в развитии...

2025-09-18

Text2Sign Diffusion: A Generative Approach for Gloss-Free Sign Language Producti...

## Контекст Sign language production (SLP) является ключевым вопросом в области интеллектуальных технологий для продвиж...

2025-09-17