Multi-Intent Recognition in Dialogue Understanding: A Comparison Between Smaller Open-Source LLMs
2509.10010v1
cs.CL, cs.HC
2025-09-16
Авторы:
Adnan Ahmad, Philine Kowol, Stefan Hillmann, Sebastian Möller
Резюме на русском
#### Контекст
Современные диалоговые системы сталкиваются с вызовом точного понимания множественных намерений (multi-intent recognition) в естественном языке. Этот аспект ключевой для повышения качества общения с ботами, особенно в случаях задач-ориентированных бесед. Однако данная область исследований сталкивается с проблемами, такими как ограниченные ресурсы для обучения моделей и недостаточная доступность мощных моделей для организаций с ограниченными финансированием. Наша мотивация заключается в изучении возможностей малых, но эффективных, open-source Large Language Models (LLMs) для решения задачи multi-intent recognition в контексте значимой диалоговой базы данных MultiWOZ 2.1.
#### Метод
Для этого мы установили основу исследования на использовании трех популярных open-source pre-trained LLMs: LLama2-7B-hf, Mistral-7B-v0.1 и Yi-6B. Мы проводили тестирование в few-shot классификационной задаче, где каждая модель получала 20 примеров в качестве предложений с инструкциями. Модели были оценивали по метрикам точности (accuracy), F1-score (micro, macro, weighted), Humming Loss и Jaccard Similarity. Для сравнения мы проводили supervised learning на BERTForSequenceClassification в качестве базового гипотезы. Оценка полученных результатов производилась с учетом таких показателей как инференсное время и VRAM-ресурсы.
#### Результаты
Модель Mistral-7B-v0.1 показала себя лучше двух других LLMs в 11 из 14 классов намерений по F-Score, с взвешенным средним 0.50. Эта модель также оказалась эффективнее в Humming Loss и Jaccard Similarity. Тем не менее, базовая BERT-based supervised classifier показала себя выше всех генеративных моделей в few-shot setup, с значительным выигрышем в точности. Эта ситуация подтверждает значимость использования простых и традиционных подходов в сценариях с ограниченными ресурсами.
#### Значимость
Результаты нашего исследования имеют практическое значение для развития методов NLU (Natural Language Understanding) в контексте task-oriented chatbots. Малые open-source LLMs, такие как Mistral-7B-v0.1, могут быть эффективными для задач multi-intent recognition, особенно в режимах с небольшим количеством обучающих примеров. Это делает их привлекательными для компаний с ограниченным техническим ресурсом. Будущие исследования могут сосредоточиться на оптимизации этих моделей для более сложных сценариев и улучшении их преимуществ по сравнению с супервизированными подходами.
#### Выводы
Мы установили, что Mistral-7B-v0.1 является оптимальным в few-shot классификации multi-intent диалогов по метрикам F-Score и Jaccard Similarity. Однако BERT-based supervised classifier по-прежнему превосходит генеративные модели в общей точности. Наше исследование обосновывает дополнительные работы по улучшению open-source LLMs для NLU в задачах multi-intent recognition, а также направляет наше внимание на развитие гибридных подходов, ко
Abstract
In this paper, we provide an extensive analysis of multi-label intent
classification using Large Language Models (LLMs) that are open-source,
publicly available, and can be run in consumer hardware. We use the MultiWOZ
2.1 dataset, a benchmark in the dialogue system domain, to investigate the
efficacy of three popular open-source pre-trained LLMs, namely LLama2-7B-hf,
Mistral-7B-v0.1, and Yi-6B. We perform the classification task in a few-shot
setup, giving 20 examples in the prompt with some instructions. Our approach
focuses on the differences in performance of these models across several
performance metrics by methodically assessing these models on multi-label
intent classification tasks. Additionally, we compare the performance of the
instruction-based fine-tuning approach with supervised learning using the
smaller transformer model BertForSequenceClassification as a baseline. To
evaluate the performance of the models, we use evaluation metrics like
accuracy, precision, and recall as well as micro, macro, and weighted F1 score.
We also report the inference time, VRAM requirements, etc. The Mistral-7B-v0.1
outperforms two other generative models on 11 intent classes out of 14 in terms
of F-Score, with a weighted average of 0.50. It also has relatively lower
Humming Loss and higher Jaccard Similarity, making it the winning model in the
few-shot setting. We find BERT based supervised classifier having superior
performance compared to the best performing few-shot generative LLM. The study
provides a framework for small open-source LLMs in detecting complex
multi-intent dialogues, enhancing the Natural Language Understanding aspect of
task-oriented chatbots.
Ссылки и действия
Дополнительные ресурсы: