QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting
2508.16697v1
cs.CL, cs.AI, cs.LG
2025-08-27
Авторы:
Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
Резюме на русском
#### Контекст
Стоимость и повышенная частота выхода за рамки фактичности (hallucination) в системах на основе Large Language Models (LLMs) становится все более выраженной. Хотя многие подходы ориентируются на фильтрацию результатов после их получения, менее исследованы подходы, направленные на прогностическую модификацию входных запросов для предотвращения выхода LLMs из рамков фактур. Этот вопрос особенно актуален для задач, требующих высокой точности и надежности, например, в медицинских и юридических сферах.
#### Метод
Мы предлагаем QueryBandits, фреймворк, основанный на бандитной многоразрядной модели, который использует 17 семантических признаков запросов для оптимизации регрессионной функции наград. Эта модель принимает во внимание чувствительность запросов к языковым особенностям, которые влияют на тенденцию LLMs к выводу за рамки фактичности. QueryBandits стремится проактивно изменять запросы, чтобы увеличить точность ответов LLMs и уменьшить риск выхода за рамки фактур.
#### Результаты
Мы использовали 13 различных бенчмарков для оценки эффективности QueryBandits. Наша реализация с Томпсоновским выбором показала 87.5% выигрышный результат по сравнению с базовым вариантом без редактирования запросов. Также, QueryBandits превосходит другие статические подходы, такие как "парафразировать" и "расширять" запросы, на 42.6% и 60.3% соответственно. Интересно, что некоторые статические подходы к редактированию запросов демонстрируют большую суммарную отдачу (regret) по сравнению с базовым вариантом, что указывает на то, что они могут ухудшать выход за рамки фактур.
#### Значимость
Протоколы QueryBandits могут быть применены в сферах, где точность и надежность критичны, таких как медицина, юриспруденция и финансы. Наш подход демонстрирует преимущества перед статическими методами, показывая, что прогностическое редактирование запросов может быть более эффективным, чем простое модифицирование результатов. Это открывает пути для более широкого применения LLMs в решении задач, требующих высокой точности.
#### Выводы
Исследования показывают, что QueryBandits могут значительно улучшить точность LLM-моделей, проверяя и модифицируя входные запросы. Наш подход позволяет избежать последствий выхода за рамки фактур без необходимости переучивать модель. Будущие исследования будут фокусироваться на усовершенствовании моделей бандитных фреймворков и их применении в реальных ситуациях, включая задачи с высокой степенью ответственности.
Abstract
Advanced reasoning capabilities in Large Language Models (LLMs) have caused
higher hallucination prevalence; yet most mitigation work focuses on
after-the-fact filtering rather than shaping the queries that trigger them. We
introduce QueryBandits, a bandit framework that designs rewrite strategies to
maximize a reward model, that encapsulates hallucination propensity based upon
the sensitivities of 17 linguistic features of the input query-and therefore,
proactively steer LLMs away from generating hallucinations. Across 13 diverse
QA benchmarks and 1,050 lexically perturbed queries per dataset, our top
contextual QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a
no-rewrite baseline and also outperforms zero-shot static prompting
("paraphrase" or "expand") by 42.6% and 60.3% respectively. Therefore, we
empirically substantiate the effectiveness of QueryBandits in mitigating
hallucination via the intervention that takes the form of a query rewrite.
Interestingly, certain static prompting strategies, which constitute a
considerable number of current query rewriting literature, have a higher
cumulative regret than the no-rewrite baseline, signifying that static rewrites
can worsen hallucination. Moreover, we discover that the converged per-arm
regression feature weight vectors substantiate that there is no single rewrite
strategy optimal for all queries. In this context, guided rewriting via
exploiting semantic features with QueryBandits can induce significant shifts in
output behavior through forward-pass mechanisms, bypassing the need for
retraining or gradient-based adaptation.
Ссылки и действия
Дополнительные ресурсы: