## Контекст
Sarcasm detection является сложной задачей в области natural language understanding (NLU), так как sarcasm часто завязан на неявных кросс-модальных сигналах, включающих текст, речь и визуальные элементы. Несмотря на то, что большая часть ранее проведенной работы сосредоточилась либо на тексте, либо на визуальных-текстовых аспектах, комплексное понимание sarcasm на основе аудио-визуальных и текстовых сигналов остается нередко изученной областью. В данной работе мы осуществляем тщательную оценку бо LLM для sarcasm detection, особенно на английском языке (MUStARD++) и китайском языке (MCSD 1.0) в разных режимах: zero-shot, few-shot, и LoRA fine-tuning. Мы также исследуем их использование как функциональных моделей, объединяя их представления с помощью модуля collaborative gating fusion. Наши результаты показывают, что модели на основе речи демонстрируют сильную унимодальную производительность, в то время как комбинации текст-аудио и аудио-визуальные модели превосходят модели в одной модали и трех модальных. Далее, модели MLLMs, такие как Qwen-Omni, показывают высокую эффективность в zero-shot и fine-tuning режимах. Эти находки подчеркивают значимость multimodal LLMs для audio-visual-textual sarcasm understanding и показывают их перспективы в кросс-языковых приложениях.
## Метод
Для оценки multimodal LLMs мы использовали две модели: MUStARD++ (английский) и MCSD 1.0 (китайский), подготовленные для sarcasm detection. Мы рассматривали разные режимы, включая zero-shot, few-shot, и fine-tuning с использованием LoRA. Мы также исследовали модели, не только как классификаторы, но и как модели для функциональной моделирования. Используя collaborative gating fusion module, мы объединяли представления от разных моделей, позволяя им совместно работать над задачей. Изучая разные модальности (текст, речь, визуальные сигналы), мы проводили эксперименты для понимания, как каждая модальность вкладывается в общую задачу sarcasm detection. Эта архитектура позволила нам оценивать как модели, так и их комбинации, чтобы понять, какие модальности и какие комбинации дают наибольшую эффективность в задаче классификации sarcasm.
## Результаты
В наших экспериментах мы оценивали модели как в унимодальных, так и в кросс-модальных режимах. Модели на основе речи (speech-based models) показали самые высокие результаты в унимодальной оценке. Однако, комбинация текст-аудио и аудио-визуальные комбинации показали сильное превосходство над унимодальными и трехмодальными моделями. Мы также оценивали multimodal LLMs (MLLMs), такие как Qwen-Omni, которые показали высокую эффективность в zero-shot и fine-tuning режимах. Эти модели показали свою способность работать в cross-lingual сценариях, что демонстрирует их потенциал для аудио-визуально-текстового понимания sarcasm. Наши резуль