Resource-Limited Joint Multimodal Sentiment Reasoning and Classification via Chain-of-Thought Enhancement and Distillation

2508.05234v1 cs.CL, cs.AI 2025-08-09

Авторы:

Haonan Shangguan, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Ge Yu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные социальные сети стали мощным генератором мультимодального контента, объединяющего текст, изображения, аудио и видео. Это стимулировало активное развитие области Мультимодального Сентимент-Анализа (MSA) - технологии автоматического определения эмоциональной окраски контента на основе анализа нескольких типов данных одновременно. Большие языковые модели (LLM) значительно ускорили прогресс в этой области, предоставляя доступ к обширным знаниям и продвинутым возможностям рассуждения. Однако существующие подходы сталкиваются с критическим противоречием. Большинство современных решений полагаются на тяжеловесные многомодальные LLM (MLLM) с миллиардами параметров для классификации сентимента. Эти модели требуют значительных вычислительных ресурсов, включая мощные GPU и большие объемы оперативной памяти, что делает их непригодными для развертывания в условиях ограниченных ресурсов - например, на мобильных устройствах, встроенных системах или edge-вычислениях. Критическая проблема заключается в том, что существующие методы игнорируют необходимость автономной генерации мультимодальных сентимент-рассуждений в условиях ресурсных ограничений. Традиционные подходы либо полностью опускают этап рассуждения, либо выполняют его на стороне мощных серверов. Это приводит к "черному ящику" классификации, где пользователи получают результат без объяснения логики принятия решений, что критично для многих практических приложений, включая медиа-мониторинг, финансовый анализ и системы поддержки принятия решений. Авторы статьи формулируют новую задачу - Joint Multimodal Sentiment Reasoning and Classification (JMSRC), которая требует одновременной генерации цепочек мультимодальных сентимент-рассуждений и классификации сентимента с использованием только легковесной модели. Это представляет собой значительное отклонение от существующих практик и требует разработки принципиально новых методов, способных сжать знания и способности к рассуждению из тяжеловесных MLLM в компактные модели без критической потери качества. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи JMSRC авторы предлагают инновационную модель MulCoT-RD (Multimodal Chain-of-Thought Reasoning Distillation), основанную на парадигме дистилляции знаний "Учитель-Ассистент-Студент". Эта трехуровневая архитектура специально разработана для преодоления ограничений развертывания в условиях ограниченных ресурсов. На верхнем уровне используется высокопроизводительная многомодальная большая языковая модель (MLLM) в качестве "Учителя". Эта модель с миллиардами параметров используется для генерации первоначального датасета цепочек рассуждений (Chain-of-Thought), где каждый пример включает не только исходные мультимодальные данные и правильную метку сентимента, но также подробное пошаговое обоснование, объясняющее, как различные модальности (текст, изображения, аудио) вносят вклад в финальное решение. Средний уровень представлен моделью-"Ассистентом" среднего размера, которая обучается с использованием механизма мультизадачного обучения. Ассистент одновременно учится выполнять две задачи: генерацию цепочек рассуждений, мимикрируя поведение Учителя, и классификацию сентимента. Это обеспечивает плавный переход от абстрактных рассуждений тяжеловесной модели к более конкретным и применимым к легковесным архитектурам паттернам. Ключевым элементом является "Студент" - легковесная модель с всего 3 миллиардами параметров, которая проходит совместное обучение для эффективной генерации мультимодальных сентимент-рассуждений и классификации. Студент использует технику дистилляции знаний не только для переноса предсказательной способности, но и для сохранения способности к рассуждению. Архитектура включает специализированные механизмы внимания для обработки различных модальностей и кросс-модальную интеграцию, позволяющую эффективно объединять информацию из текстовых, визуальных и аудио источников. Процесс обучения включает несколько этапов: инициализация через дистилляцию от Ассистента, мультизадачное обучение с балансировкой между генерацией рассуждений и классификацией, а также дообучение на целевых данных каждого конкретного датасета. Это обеспечивает высок

Abstract

The surge in rich multimodal content on social media platforms has greatly advanced Multimodal Sentiment Analysis (MSA), with Large Language Models (LLMs) further accelerating progress in this field. Current approaches primarily leverage the knowledge and reasoning capabilities of parameter-heavy (Multimodal) LLMs for sentiment classification, overlooking autonomous multimodal sentiment reasoning generation in resource-constrained environments. Therefore, we focus on the Resource-Limited Joint Multimodal Sentiment Reasoning and Classification task, JMSRC, which simultaneously performs multimodal sentiment reasoning chain generation and sentiment classification only with a lightweight model. We propose a Multimodal Chain-of-Thought Reasoning Distillation model, MulCoT-RD, designed for JMSRC that employs a "Teacher-Assistant-Student" distillation paradigm to address deployment constraints in resource-limited environments. We first leverage a high-performance Multimodal Large Language Model (MLLM) to generate the initial reasoning dataset and train a medium-sized assistant model with a multi-task learning mechanism. A lightweight student model is jointly trained to perform efficient multimodal sentiment reasoning generation and classification. Extensive experiments on four datasets demonstrate that MulCoT-RD with only 3B parameters achieves strong performance on JMSRC, while exhibiting robust generalization and enhanced interpretability.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Resource-Limited Joint Multimodal Sentiment Reasoning and Classification via Chain-of-Thought Enhancement and Distillation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация