## Контекст
Много modal task-oriented dialog systems (MTOD) становятся все более важным компонентом современных систем общения, поскольку они объединяют различные модальности (текст, звук, видео) для обеспечения более естественного и эффективного взаимодействия. Одна из ключевых задач в таких системах — генерация текстовых ответов, которые должны быть не только корректными с точки зрения логики, но и отвечать на целевую задачу. Несмотря на успехи, достигнутые в этой области, существуют некоторые ограничения. Например, многие модели игнорируют неструктурированные данные, такие как отзывы и пользовательские комментарии, которые могут обладать богатым контекстным смыслом. Кроме того, традиционные модели часто недостаточно эффективно используют возможности машинного обучения, особенно с точки зрения понимания и использования различных типов знаний. В этом контексте мы стремимся разработать модель, которая бы эффективно объединила структурированные и неструктурированные знания, используя возможности технологий искусственного интеллекта.
## Метод
Наша модель, DK2R, представляет собой два этапа: 1) извлечение и оценка знаний и 2) генерация текстовых ответов. В первом этапе мы извлекаем два типа знаний: структурированные атрибуты (например, местоположение и цена ресторана) и неструктурированные отзывы. Для этого мы применяем LLM для анализа диалога и выделения ключевой информации с разных источников. Во втором этапе мы используем LLM для генерации пробных ответов, а затем проводим детальный анализ этих ответов, чтобы оценить их качество и соответствие целевой задаче. Особенностью нашей модели является то, что мы разделяем задачу на две части: использование структурированных данных для выделения целей и неструктурированных данных для подкрепления интентов. Это позволяет повысить точность генерации ответов, которая определяется с помощью дедлайнов.
## Результаты
Мы проводили ряд экспериментов, используя общедоступную базу данных для MTOD. Ключевым показателем стала точность генерации ответов (accuracy) и их соответствие целевому намерению (intent matching). Наша модель DK2R показала значительное превосходство по этим показателям по сравнению с другими моделями, в том числе с теми, которые не использовали неструктурированный контекст или не эффективно оценивали значимость разных типов знаний. Например, DK2R повысила точность генерации ответов на 15% по сравнению с базовой моделью, не использующей неструктурированных данных.
## Значимость
Модель DK2R может быть применена в различных сценариях, где необходимо обеспечить эффективное взаимодействие с пользователем на основе