Learning Facts at Scale with Active Reading

2508.09494v1 cs.CL, cs.AI 2025-08-15

Авторы:

Jessy Lin, Vincent-Pierre Berges, Xilun Chen, Wen-Tau Yih, Gargi Ghosh, Barlas Oğuz

Резюме на русском

#### Контекст Современные текстовые генерирующие модели (LLMs) обладают выдающимися способностями генерировать текст по заданной области. Однако узколобковая мотивированная знания, которая лежит в основе этих моделей, остается ненадёжной. Эта проблема часто генерирует неточности в создаваемых моделями сообщениях, делая их недостоверными в целях поиска информации. Недостаток надёжности воспринимания и хранения знаний не только ограничивает доверие к моделям, но и снижает их полезность в практическом применении. Основным мотивом для развития новых методологий является необходимость в моделях, которые не только генерируют содержательный текст, но и владеют надёжной и доступной информацией. #### Метод Мы предлагаем фреймворк Active Reading, в котором LLMs активно изучают исходные документы с помощью самостоятельно разработанных стратегий изучения. Эта модель тренируется на указанном датасете, активно выделяя и запоминая ключевую информацию, а также применяя новые стратегии для работы с текстом. Используя технологии машинного обучения, мы интегрируем данные в тренировочный процесс, чтобы модели могли активно изучать данные, а не просто выводить заранее прогнозируемые ответы. Это методология значительно улучшает способность моделей построить надёжные ответы на запросы, основываясь на полученных знаниях. Для улучшения качества вывода мы используем данные со стандартных б BENCHMARK и SIMPLEQA. #### Результаты Мы проводили эксперименты с тренировкой моделей на данных из SimpleQA и FinanceBench. На SimpleQA 8B-модели, обученные с помощью Active Reading, показали результат 66% точности, что составляет +313% по отношению к vanilla finetuning. На FinanceBench модель достигла 26% точности, что является +160% от vanilla finetuning. Эти результаты демонстрируют, что Active Reading не только повышает надёжность моделей, но и позволяет их запоминать информацию более эффективно. Мы также привели результаты с предварительной тренировкой в Meta WikiExpert-8B, которая показала выдающиеся результаты на фактических запросах из Wikipedia. #### Значимость Active Reading может быть применено в различных сферах, где требуется высокая точность и надёжность в обработке текстовых данных. Например, модель может использоваться в финансовом анализе, системах поддержки принятия решений и интеллектуальных поисковых системах. Этот подход предоставляет существенные преимущества по сравнению с другими методами, такими как vanilla finetuning, так как он значительно улучшает способность моделей воспринимать и запоминать долгосрочно. Это может привести к новым возможностям в фактических задачах генерирующих моделей. #### Выводы Мы доказали, что Active Reading значительно повышает точность моделей в области факт

Abstract

LLMs are known to store vast amounts of knowledge in their parametric memory. However, learning and recalling facts from this memory is known to be unreliable, depending largely on the prevalence of particular facts in the training data and other factors which are poorly understood. Practitioners are lacking tools which will allow them to ensure that the models learn a given body of knowledge reliably and consistently. To this end, we propose Active Reading: a framework where we train models to study a given set of material with self-generated learning strategies. First, we demonstrate models trained with Active Reading on expert domains absorb significantly more knowledge than vanilla finetuning and other data augmentations. We train expert 8B models that achieve 66% on a Wikipedia-grounded subset of SimpleQA (+313% relative over vanilla finetuning) and 26% on FinanceBench (+160% relative over vanilla finetuning) by applying Active Reading to the source documents for each benchmark. Finally, we show that Active Reading can be utilized at pre-training scale to build more factual models. As a demonstration of this, we release Meta WikiExpert-8B, a Wikipedia-expert model trained on 1 trillion generated tokens, which outcompetes models with hundreds of billions of parameters on factual QA.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Learning Facts at Scale with Active Reading

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация