Jointly Generating and Attributing Answers using Logits of Document-Identifier Tokens

2508.08942v1 cs.CL, cs.IR 2025-08-14
Авторы:

Lucas Albarede, Jose Moreno, Lynda Tamine, Luce Lefeuvre

Резюме на русском

## Контекст В статье рассматривается проблема халтурности в работе Large Language Models (LLMs), которая становится критически важной для генерации ответов и их атрибуции. Халтурность приводит к недоверию пользователей и ограничивает эффективность приложений, использующих LLMs. Несмотря на выдающиеся результаты моделей, существуют ряд проблем, связанных с их ответственностью и надежностью. Ранее исследовались меры по улучшению корректности ответов и атрибуций, однако они часто не учитывают сам процесс генерации ответов. Целью данного исследования является разработка метода, который бы позволил LLMs фаильно генерировать ответы и их атрибуции, учитывая внутренние модельные сигналы. ## Метод Метод, предложенный авторами, называется LoDIT (Leveraging Document Identifier Tokens for Joint Generation and Attribution). Он основывается на двух основных этапах: (1) генерации ответов с привязкой к документам с помощью специальных токенов, отражающих идентификаторы документов, и (2) агрегации вклада каждого документа в ответ на основе логитов этих токенов. Метод использует так называемую "разметку документов", при которой каждый документ привязывается к определенным токенам в модели. В процессе генерации ответа эти токены активируются, и их логиты используются для определения вклада каждого документа в полученный ответ. Эта процедура позволяет явно отразить вклад каждого документа в ответ и обеспечивает транспарентную атрибуцию. ## Результаты Исследования проводились на наборе данных Trust-Align, состоящем из задач генерации ответов с атрибуцией. Модель LoDIT показала значительное превосходство по сравнению с состоянием искусства по нескольким метрикам, включая достоверность ответов, надежность атрибуций и эффективность в терминах затратных ресурсов. Авторы также провестили анализ времени выполнения и показали, что LoDIT эффективен в терминах затратных ресурсов, не прибегая к дополнительным вычислениям после генерации ответов. ## Значимость Предложенный подход имеет широкие перспективы в приложениях, требующих надежной и авторитетной генерации ответов с атрибуцией. Он может быть применен в сферах, где важно гарантировать целостность и достоверность ответов, например, в юридических, медицинских и финансовых системах. Благодаря своей транспарентности и эффективности, LoDIT может стать ключевым инструментом для развития доверительных моделей в AI. ## Выводы Статья представляет LoDIT, новый подход к генерации ответов с автоматической атрибуцией с помощью LLMs. Он демонстрирует высокую эффективность и надежность в тестируемых настройках. Будущие исследования будут сф

Abstract

Despite their impressive performances, Large Language Models (LLMs) remain prone to hallucination, which critically undermines their trustworthiness. While most of the previous work focused on tackling answer and attribution correctness, a recent line of work investigated faithfulness, with a focus on leveraging internal model signals to reflect a model's actual decision-making process while generating the answer. Nevertheless, these methods induce additional latency and have shown limitations in directly aligning token generation with attribution generation. In this paper, we introduce LoDIT, a method that jointly generates and faithfully attributes answers in RAG by leveraging specific token logits during generation. It consists of two steps: (1) marking the documents with specific token identifiers and then leveraging the logits of these tokens to estimate the contribution of each document to the answer during generation, and (2) aggregating these contributions into document attributions. Experiments on a trustworthiness-focused attributed text-generation benchmark, Trust-Align, show that LoDIT significantly outperforms state-of-the-art models on several metrics. Finally, an in-depth analysis of LoDIT shows both its efficiency in terms of latency and its robustness in different settings.

Ссылки и действия