LETToT: Label-Free Evaluation of Large Language Models On Tourism Using Expert Tree-of-Thought

2508.11280v1 cs.CL, cs.AI 2025-08-19
Авторы:

Ruiyan Qi, Congding Wen, Weibo Zhou, Shangsong Liang, Lingbo Li

Резюме на русском

#### Контекст Оценка больших языковых моделей (LLM) в специфических областях, таких как туризм, становится все более важной, но при этом и трудной. Одной из главных проблем является высокая стоимость создания и аннотации больших бенчмарков, а также постоянные проблемы, такие как выдача "вымысловых" ответов (hallucinations). В этой статье предлагается **Label-Free Evaluation of LLM on Tourism using Expert Tree-of-Thought (LETToT)** — рамочный подход, который использует экспертно подобранные структуры мышления для оценки моделей без необходимости использовать масштабные тренировочные данные. Этот подход позволяет эффективно оценить модели и обнаружить их слабые стороны. #### Метод **LETToT** основывается на использовании экспертных "деревьев мышления" (Tree-of-Thought, ToT), которые являются иерархическими структурами, описывающими рациональное решение задачи. Эти деревья вначале строятся экспертами в области туризма, а затем адаптируются и оптимизируются с помощью специальных методов анализа и применения генеративных моделей. Эта методика позволяет создавать детальные структуры, которые могут быть использованы для оценки LLMs. Такая архитектура позволяет сократить зависимость от масштабных аннотированных данных и сфокусироваться на рациональном анализе и решении задач. #### Результаты Было проведено ряд экспериментов с моделями различных размеров, начиная от 32 миллиардов до 671 миллиардов параметров. Было проанализировано, что **DeepSeek-V3** показывает лучшие результаты в области туризма среди моделей большого размера, но даже на этапе рассмотрения этих моделей были выявлены слабые стороны. Более мелкие модели с фокусом на рациональном подходе (например, **DeepSeek-R1-Distill-Llama-70B**) показали оптимальный баланс между точностью и понятностью ответов, особенно при работе с небольшими данными. Этот подход показывал значительные улучшения в точности и конкретности ответов в сравнении с базовыми моделями. #### Значимость Предложенный подход представляет собой значительный шаг в сфере легковесной, без масштабных тренировочных баз данных, оценки LLMs в специфических областях. Он может быть использован в туризме для эффективного проверки моделей, исследования новых архитектур и улучшения точности ответов. Одним из ключевых преимуществ является повышение эффективности и снижение затрат при создании аннотированных данных. Этот подход может быть расширен на другие области, где требуется систематическая оценка моделей, включая медицину, финансы и юриспруденцию. #### Выводы С помощью **LETToT** был установлен новый парадигмный подход к оценке LLMs в области туризма. Р

Abstract

Evaluating large language models (LLMs) in specific domain like tourism remains challenging due to the prohibitive cost of annotated benchmarks and persistent issues like hallucinations. We propose $\textbf{L}$able-Free $\textbf{E}$valuation of LLM on $\textbf{T}$ourism using Expert $\textbf{T}$ree-$\textbf{o}$f-$\textbf{T}$hought (LETToT), a framework that leverages expert-derived reasoning structures-instead of labeled data-to access LLMs in tourism. First, we iteratively refine and validate hierarchical ToT components through alignment with generic quality dimensions and expert feedback. Results demonstrate the effectiveness of our systematically optimized expert ToT with 4.99-14.15\% relative quality gains over baselines. Second, we apply LETToT's optimized expert ToT to evaluate models of varying scales (32B-671B parameters), revealing: (1) Scaling laws persist in specialized domains (DeepSeek-V3 leads), yet reasoning-enhanced smaller models (e.g., DeepSeek-R1-Distill-Llama-70B) close this gap; (2) For sub-72B models, explicit reasoning architectures outperform counterparts in accuracy and conciseness ($p<0.05$). Our work established a scalable, label-free paradigm for domain-specific LLM evaluation, offering a robust alternative to conventional annotated benchmarks.

Ссылки и действия