Multi-Intent Recognition in Dialogue Understanding: A Comparison Between Smaller Open-Source LLMs

2509.10010v1 cs.CL, cs.HC 2025-09-16
Авторы:

Adnan Ahmad, Philine Kowol, Stefan Hillmann, Sebastian Möller

Резюме на русском

#### Контекст Современные диалоговые системы сталкиваются с вызовом точного понимания множественных намерений (multi-intent recognition) в естественном языке. Этот аспект ключевой для повышения качества общения с ботами, особенно в случаях задач-ориентированных бесед. Однако данная область исследований сталкивается с проблемами, такими как ограниченные ресурсы для обучения моделей и недостаточная доступность мощных моделей для организаций с ограниченными финансированием. Наша мотивация заключается в изучении возможностей малых, но эффективных, open-source Large Language Models (LLMs) для решения задачи multi-intent recognition в контексте значимой диалоговой базы данных MultiWOZ 2.1. #### Метод Для этого мы установили основу исследования на использовании трех популярных open-source pre-trained LLMs: LLama2-7B-hf, Mistral-7B-v0.1 и Yi-6B. Мы проводили тестирование в few-shot классификационной задаче, где каждая модель получала 20 примеров в качестве предложений с инструкциями. Модели были оценивали по метрикам точности (accuracy), F1-score (micro, macro, weighted), Humming Loss и Jaccard Similarity. Для сравнения мы проводили supervised learning на BERTForSequenceClassification в качестве базового гипотезы. Оценка полученных результатов производилась с учетом таких показателей как инференсное время и VRAM-ресурсы. #### Результаты Модель Mistral-7B-v0.1 показала себя лучше двух других LLMs в 11 из 14 классов намерений по F-Score, с взвешенным средним 0.50. Эта модель также оказалась эффективнее в Humming Loss и Jaccard Similarity. Тем не менее, базовая BERT-based supervised classifier показала себя выше всех генеративных моделей в few-shot setup, с значительным выигрышем в точности. Эта ситуация подтверждает значимость использования простых и традиционных подходов в сценариях с ограниченными ресурсами. #### Значимость Результаты нашего исследования имеют практическое значение для развития методов NLU (Natural Language Understanding) в контексте task-oriented chatbots. Малые open-source LLMs, такие как Mistral-7B-v0.1, могут быть эффективными для задач multi-intent recognition, особенно в режимах с небольшим количеством обучающих примеров. Это делает их привлекательными для компаний с ограниченным техническим ресурсом. Будущие исследования могут сосредоточиться на оптимизации этих моделей для более сложных сценариев и улучшении их преимуществ по сравнению с супервизированными подходами. #### Выводы Мы установили, что Mistral-7B-v0.1 является оптимальным в few-shot классификации multi-intent диалогов по метрикам F-Score и Jaccard Similarity. Однако BERT-based supervised classifier по-прежнему превосходит генеративные модели в общей точности. Наше исследование обосновывает дополнительные работы по улучшению open-source LLMs для NLU в задачах multi-intent recognition, а также направляет наше внимание на развитие гибридных подходов, ко

Abstract

In this paper, we provide an extensive analysis of multi-label intent classification using Large Language Models (LLMs) that are open-source, publicly available, and can be run in consumer hardware. We use the MultiWOZ 2.1 dataset, a benchmark in the dialogue system domain, to investigate the efficacy of three popular open-source pre-trained LLMs, namely LLama2-7B-hf, Mistral-7B-v0.1, and Yi-6B. We perform the classification task in a few-shot setup, giving 20 examples in the prompt with some instructions. Our approach focuses on the differences in performance of these models across several performance metrics by methodically assessing these models on multi-label intent classification tasks. Additionally, we compare the performance of the instruction-based fine-tuning approach with supervised learning using the smaller transformer model BertForSequenceClassification as a baseline. To evaluate the performance of the models, we use evaluation metrics like accuracy, precision, and recall as well as micro, macro, and weighted F1 score. We also report the inference time, VRAM requirements, etc. The Mistral-7B-v0.1 outperforms two other generative models on 11 intent classes out of 14 in terms of F-Score, with a weighted average of 0.50. It also has relatively lower Humming Loss and higher Jaccard Similarity, making it the winning model in the few-shot setting. We find BERT based supervised classifier having superior performance compared to the best performing few-shot generative LLM. The study provides a framework for small open-source LLMs in detecting complex multi-intent dialogues, enhancing the Natural Language Understanding aspect of task-oriented chatbots.

Ссылки и действия