Learning Facts at Scale with Active Reading
2508.09494v1
cs.CL, cs.AI
2025-08-15
Авторы:
Jessy Lin, Vincent-Pierre Berges, Xilun Chen, Wen-Tau Yih, Gargi Ghosh, Barlas Oğuz
Резюме на русском
#### Контекст
Современные текстовые генерирующие модели (LLMs) обладают выдающимися способностями генерировать текст по заданной области. Однако узколобковая мотивированная знания, которая лежит в основе этих моделей, остается ненадёжной. Эта проблема часто генерирует неточности в создаваемых моделями сообщениях, делая их недостоверными в целях поиска информации. Недостаток надёжности воспринимания и хранения знаний не только ограничивает доверие к моделям, но и снижает их полезность в практическом применении. Основным мотивом для развития новых методологий является необходимость в моделях, которые не только генерируют содержательный текст, но и владеют надёжной и доступной информацией.
#### Метод
Мы предлагаем фреймворк Active Reading, в котором LLMs активно изучают исходные документы с помощью самостоятельно разработанных стратегий изучения. Эта модель тренируется на указанном датасете, активно выделяя и запоминая ключевую информацию, а также применяя новые стратегии для работы с текстом. Используя технологии машинного обучения, мы интегрируем данные в тренировочный процесс, чтобы модели могли активно изучать данные, а не просто выводить заранее прогнозируемые ответы. Это методология значительно улучшает способность моделей построить надёжные ответы на запросы, основываясь на полученных знаниях. Для улучшения качества вывода мы используем данные со стандартных б BENCHMARK и SIMPLEQA.
#### Результаты
Мы проводили эксперименты с тренировкой моделей на данных из SimpleQA и FinanceBench. На SimpleQA 8B-модели, обученные с помощью Active Reading, показали результат 66% точности, что составляет +313% по отношению к vanilla finetuning. На FinanceBench модель достигла 26% точности, что является +160% от vanilla finetuning. Эти результаты демонстрируют, что Active Reading не только повышает надёжность моделей, но и позволяет их запоминать информацию более эффективно. Мы также привели результаты с предварительной тренировкой в Meta WikiExpert-8B, которая показала выдающиеся результаты на фактических запросах из Wikipedia.
#### Значимость
Active Reading может быть применено в различных сферах, где требуется высокая точность и надёжность в обработке текстовых данных. Например, модель может использоваться в финансовом анализе, системах поддержки принятия решений и интеллектуальных поисковых системах. Этот подход предоставляет существенные преимущества по сравнению с другими методами, такими как vanilla finetuning, так как он значительно улучшает способность моделей воспринимать и запоминать долгосрочно. Это может привести к новым возможностям в фактических задачах генерирующих моделей.
#### Выводы
Мы доказали, что Active Reading значительно повышает точность моделей в области факт
Abstract
LLMs are known to store vast amounts of knowledge in their parametric memory.
However, learning and recalling facts from this memory is known to be
unreliable, depending largely on the prevalence of particular facts in the
training data and other factors which are poorly understood. Practitioners are
lacking tools which will allow them to ensure that the models learn a given
body of knowledge reliably and consistently. To this end, we propose Active
Reading: a framework where we train models to study a given set of material
with self-generated learning strategies. First, we demonstrate models trained
with Active Reading on expert domains absorb significantly more knowledge than
vanilla finetuning and other data augmentations. We train expert 8B models that
achieve 66% on a Wikipedia-grounded subset of SimpleQA (+313% relative over
vanilla finetuning) and 26% on FinanceBench (+160% relative over vanilla
finetuning) by applying Active Reading to the source documents for each
benchmark. Finally, we show that Active Reading can be utilized at pre-training
scale to build more factual models. As a demonstration of this, we release Meta
WikiExpert-8B, a Wikipedia-expert model trained on 1 trillion generated tokens,
which outcompetes models with hundreds of billions of parameters on factual QA.
Ссылки и действия
Дополнительные ресурсы: