Retrieval-augmented reasoning with lean language models
2508.11386v1
cs.CL, cs.AI, cs.CY
2025-08-19
Авторы:
Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan
Резюме на русском
## Контекст
В последние годы рост производительности широкомасштабных языковых моделей позволил достичь показателей, которые были раньше недостижимы. Однако эти модели требуют больших ресурсов и не подходят для приложений, требующих высокой производительности в ресурсозависимых или защищенных средах. Более того, существующие решения, основанные на внешних источниках, не могут обеспечить защиту конфиденциальных данных. Мы разработали модель, которая способна обрабатывать запросы в среде, ограниченной ресурсами, с помощью лёгкой модели языка и встроенной системы восстановления. Мы сосредоточились на задачах, требующих логического рассуждения, и предоставили возможность использовать модель в безопасной и эффективной форме.
## Метод
Наша модель строится на основе тестируемого расширения модели (test-time scaling) и использует лёгкую модель языка с встроенной системой восстановления. Мы использовали тренированные модели Qwen-2.5-Instruct для понимания и синтезирования ответов. Для расширения функций модели, мы внедрили синтетическое генерирование запросов и алгоритмы фронтарных моделей (DeepSeek-R1). Мы использовали корпус, состоящий из страниц описания более 1000 заболеваний из Национального здравоохранения Великобритании (NHS). Мы разработали методы сжатия документов с помощью суммирования и применения индексации для увеличения производительности. Наша модель обрабатывает запросы, используя логический анализ, что позволяет нам создавать более точные и понятные ответы.
## Результаты
Проведенные тесты показали, что наша модель демонстрирует высокую точность ответов и последовательность решений в сравнении с некоторыми более широкомасштабными моделями. Мы сравнили результаты с другими лёгкими моделями и достигли близкого уровня показателей, но с значительно более маленькой моделью. Модель показала способность работать в безопасной среде и обрабатывать достаточно сложные запросы с высокой точностью.
## Значимость
Наша модель может применяться в различных сферах, где необходима высокая точность, быстродействие и защищённость. Например, в медицине, в области финансов и в промышленности, где защита конфиденциальных данных их важность. Мы показали, что модель может быть эффективно развернута в ограниченных ресурсах, не требуя дорогостоящих серверных решений. Это делает её перспективной для многих задач, где требуется быстрая реакция и высокая производительность.
## Выводы
Мы разработали модель, которая значительно улучшает показатели производительности и точности ответов в среде, ограниченной ресурсами. Мы показали,
Abstract
This technical report details a novel approach to combining reasoning and
retrieval augmented generation (RAG) within a single, lean language model
architecture. While existing RAG systems typically rely on large-scale models
and external APIs, our work addresses the increasing demand for performant and
privacy-preserving solutions deployable in resource-constrained or secure
environments. Building on recent developments in test-time scaling and
small-scale reasoning models, we develop a retrieval augmented conversational
agent capable of interpreting complex, domain-specific queries using a
lightweight backbone model. Our system integrates a dense retriever with
fine-tuned Qwen2.5-Instruct models, using synthetic query generation and
reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a
curated corpus, in this case, the NHS A-to-Z condition pages. We explore the
impact of summarisation-based document compression, synthetic data design, and
reasoning-aware fine-tuning on model performance. Evaluation against both
non-reasoning and general-purpose lean models demonstrates that our
domain-specific fine-tuning approach yields substantial gains in answer
accuracy and consistency, approaching frontier-level performance while
remaining feasible for local deployment. All implementation details and code
are publicly released to support reproducibility and adaptation across domains.
Ссылки и действия
Дополнительные ресурсы: