Jointly Generating and Attributing Answers using Logits of Document-Identifier Tokens
2508.08942v1
cs.CL, cs.IR
2025-08-14
Авторы:
Lucas Albarede, Jose Moreno, Lynda Tamine, Luce Lefeuvre
Резюме на русском
## Контекст
В статье рассматривается проблема халтурности в работе Large Language Models (LLMs), которая становится критически важной для генерации ответов и их атрибуции. Халтурность приводит к недоверию пользователей и ограничивает эффективность приложений, использующих LLMs. Несмотря на выдающиеся результаты моделей, существуют ряд проблем, связанных с их ответственностью и надежностью. Ранее исследовались меры по улучшению корректности ответов и атрибуций, однако они часто не учитывают сам процесс генерации ответов. Целью данного исследования является разработка метода, который бы позволил LLMs фаильно генерировать ответы и их атрибуции, учитывая внутренние модельные сигналы.
## Метод
Метод, предложенный авторами, называется LoDIT (Leveraging Document Identifier Tokens for Joint Generation and Attribution). Он основывается на двух основных этапах: (1) генерации ответов с привязкой к документам с помощью специальных токенов, отражающих идентификаторы документов, и (2) агрегации вклада каждого документа в ответ на основе логитов этих токенов. Метод использует так называемую "разметку документов", при которой каждый документ привязывается к определенным токенам в модели. В процессе генерации ответа эти токены активируются, и их логиты используются для определения вклада каждого документа в полученный ответ. Эта процедура позволяет явно отразить вклад каждого документа в ответ и обеспечивает транспарентную атрибуцию.
## Результаты
Исследования проводились на наборе данных Trust-Align, состоящем из задач генерации ответов с атрибуцией. Модель LoDIT показала значительное превосходство по сравнению с состоянием искусства по нескольким метрикам, включая достоверность ответов, надежность атрибуций и эффективность в терминах затратных ресурсов. Авторы также провестили анализ времени выполнения и показали, что LoDIT эффективен в терминах затратных ресурсов, не прибегая к дополнительным вычислениям после генерации ответов.
## Значимость
Предложенный подход имеет широкие перспективы в приложениях, требующих надежной и авторитетной генерации ответов с атрибуцией. Он может быть применен в сферах, где важно гарантировать целостность и достоверность ответов, например, в юридических, медицинских и финансовых системах. Благодаря своей транспарентности и эффективности, LoDIT может стать ключевым инструментом для развития доверительных моделей в AI.
## Выводы
Статья представляет LoDIT, новый подход к генерации ответов с автоматической атрибуцией с помощью LLMs. Он демонстрирует высокую эффективность и надежность в тестируемых настройках. Будущие исследования будут сф
Abstract
Despite their impressive performances, Large Language Models (LLMs) remain
prone to hallucination, which critically undermines their trustworthiness.
While most of the previous work focused on tackling answer and attribution
correctness, a recent line of work investigated faithfulness, with a focus on
leveraging internal model signals to reflect a model's actual decision-making
process while generating the answer. Nevertheless, these methods induce
additional latency and have shown limitations in directly aligning token
generation with attribution generation. In this paper, we introduce LoDIT, a
method that jointly generates and faithfully attributes answers in RAG by
leveraging specific token logits during generation. It consists of two steps:
(1) marking the documents with specific token identifiers and then leveraging
the logits of these tokens to estimate the contribution of each document to the
answer during generation, and (2) aggregating these contributions into document
attributions. Experiments on a trustworthiness-focused attributed
text-generation benchmark, Trust-Align, show that LoDIT significantly
outperforms state-of-the-art models on several metrics. Finally, an in-depth
analysis of LoDIT shows both its efficiency in terms of latency and its
robustness in different settings.
Ссылки и действия
Дополнительные ресурсы: