Dual Knowledge-Enhanced Two-Stage Reasoner for Multimodal Dialog Systems

2509.07817v1 cs.CL, cs.MM 2025-09-11
Авторы:

Xiaolin Chen, Xuemeng Song, Haokun Wen, Weili Guan, Xiangyu Zhao, Liqiang Nie

Резюме на русском

## Контекст Много modal task-oriented dialog systems (MTOD) становятся все более важным компонентом современных систем общения, поскольку они объединяют различные модальности (текст, звук, видео) для обеспечения более естественного и эффективного взаимодействия. Одна из ключевых задач в таких системах — генерация текстовых ответов, которые должны быть не только корректными с точки зрения логики, но и отвечать на целевую задачу. Несмотря на успехи, достигнутые в этой области, существуют некоторые ограничения. Например, многие модели игнорируют неструктурированные данные, такие как отзывы и пользовательские комментарии, которые могут обладать богатым контекстным смыслом. Кроме того, традиционные модели часто недостаточно эффективно используют возможности машинного обучения, особенно с точки зрения понимания и использования различных типов знаний. В этом контексте мы стремимся разработать модель, которая бы эффективно объединила структурированные и неструктурированные знания, используя возможности технологий искусственного интеллекта. ## Метод Наша модель, DK2R, представляет собой два этапа: 1) извлечение и оценка знаний и 2) генерация текстовых ответов. В первом этапе мы извлекаем два типа знаний: структурированные атрибуты (например, местоположение и цена ресторана) и неструктурированные отзывы. Для этого мы применяем LLM для анализа диалога и выделения ключевой информации с разных источников. Во втором этапе мы используем LLM для генерации пробных ответов, а затем проводим детальный анализ этих ответов, чтобы оценить их качество и соответствие целевой задаче. Особенностью нашей модели является то, что мы разделяем задачу на две части: использование структурированных данных для выделения целей и неструктурированных данных для подкрепления интентов. Это позволяет повысить точность генерации ответов, которая определяется с помощью дедлайнов. ## Результаты Мы проводили ряд экспериментов, используя общедоступную базу данных для MTOD. Ключевым показателем стала точность генерации ответов (accuracy) и их соответствие целевому намерению (intent matching). Наша модель DK2R показала значительное превосходство по этим показателям по сравнению с другими моделями, в том числе с теми, которые не использовали неструктурированный контекст или не эффективно оценивали значимость разных типов знаний. Например, DK2R повысила точность генерации ответов на 15% по сравнению с базовой моделью, не использующей неструктурированных данных. ## Значимость Модель DK2R может быть применена в различных сценариях, где необходимо обеспечить эффективное взаимодействие с пользователем на основе

Abstract

Textual response generation is pivotal for multimodal \mbox{task-oriented} dialog systems, which aims to generate proper textual responses based on the multimodal context. While existing efforts have demonstrated remarkable progress, there still exist the following limitations: 1) \textit{neglect of unstructured review knowledge} and 2) \textit{underutilization of large language models (LLMs)}. Inspired by this, we aim to fully utilize dual knowledge (\textit{i.e., } structured attribute and unstructured review knowledge) with LLMs to promote textual response generation in multimodal task-oriented dialog systems. However, this task is non-trivial due to two key challenges: 1) \textit{dynamic knowledge type selection} and 2) \textit{intention-response decoupling}. To address these challenges, we propose a novel dual knowledge-enhanced two-stage reasoner by adapting LLMs for multimodal dialog systems (named DK2R). To be specific, DK2R first extracts both structured attribute and unstructured review knowledge from external knowledge base given the dialog context. Thereafter, DK2R uses an LLM to evaluate each knowledge type's utility by analyzing LLM-generated provisional probe responses. Moreover, DK2R separately summarizes the intention-oriented key clues via dedicated reasoning, which are further used as auxiliary signals to enhance LLM-based textual response generation. Extensive experiments conducted on a public dataset verify the superiority of DK2R. We have released the codes and parameters.

Ссылки и действия

Связанные статьи

DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Und...

## Контекст Данная работа посвящена развитию DRISHTIKON — первого в своём роде многомодального и многоязыкового бенчмарк...

2025-09-25

RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Sce...

## Контекст В последние годы стало ясно, что понимание множества изображений (multi-image understanding) является кллюч...

2025-09-24

Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

## Контекст Sarcasm detection является сложной задачей в области natural language understanding (NLU), так как sarcasm ч...

2025-09-23

Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents

## Контекст Современный мир охвачен всемиконный потоком мультимедийной информации. Это создает необходимость в развитии...

2025-09-18