Retrieval-augmented reasoning with lean language models

2508.11386v1 cs.CL, cs.AI, cs.CY 2025-08-19
Авторы:

Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan

Резюме на русском

## Контекст В последние годы рост производительности широкомасштабных языковых моделей позволил достичь показателей, которые были раньше недостижимы. Однако эти модели требуют больших ресурсов и не подходят для приложений, требующих высокой производительности в ресурсозависимых или защищенных средах. Более того, существующие решения, основанные на внешних источниках, не могут обеспечить защиту конфиденциальных данных. Мы разработали модель, которая способна обрабатывать запросы в среде, ограниченной ресурсами, с помощью лёгкой модели языка и встроенной системы восстановления. Мы сосредоточились на задачах, требующих логического рассуждения, и предоставили возможность использовать модель в безопасной и эффективной форме. ## Метод Наша модель строится на основе тестируемого расширения модели (test-time scaling) и использует лёгкую модель языка с встроенной системой восстановления. Мы использовали тренированные модели Qwen-2.5-Instruct для понимания и синтезирования ответов. Для расширения функций модели, мы внедрили синтетическое генерирование запросов и алгоритмы фронтарных моделей (DeepSeek-R1). Мы использовали корпус, состоящий из страниц описания более 1000 заболеваний из Национального здравоохранения Великобритании (NHS). Мы разработали методы сжатия документов с помощью суммирования и применения индексации для увеличения производительности. Наша модель обрабатывает запросы, используя логический анализ, что позволяет нам создавать более точные и понятные ответы. ## Результаты Проведенные тесты показали, что наша модель демонстрирует высокую точность ответов и последовательность решений в сравнении с некоторыми более широкомасштабными моделями. Мы сравнили результаты с другими лёгкими моделями и достигли близкого уровня показателей, но с значительно более маленькой моделью. Модель показала способность работать в безопасной среде и обрабатывать достаточно сложные запросы с высокой точностью. ## Значимость Наша модель может применяться в различных сферах, где необходима высокая точность, быстродействие и защищённость. Например, в медицине, в области финансов и в промышленности, где защита конфиденциальных данных их важность. Мы показали, что модель может быть эффективно развернута в ограниченных ресурсах, не требуя дорогостоящих серверных решений. Это делает её перспективной для многих задач, где требуется быстрая реакция и высокая производительность. ## Выводы Мы разработали модель, которая значительно улучшает показатели производительности и точности ответов в среде, ограниченной ресурсами. Мы показали,

Abstract

This technical report details a novel approach to combining reasoning and retrieval augmented generation (RAG) within a single, lean language model architecture. While existing RAG systems typically rely on large-scale models and external APIs, our work addresses the increasing demand for performant and privacy-preserving solutions deployable in resource-constrained or secure environments. Building on recent developments in test-time scaling and small-scale reasoning models, we develop a retrieval augmented conversational agent capable of interpreting complex, domain-specific queries using a lightweight backbone model. Our system integrates a dense retriever with fine-tuned Qwen2.5-Instruct models, using synthetic query generation and reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a curated corpus, in this case, the NHS A-to-Z condition pages. We explore the impact of summarisation-based document compression, synthetic data design, and reasoning-aware fine-tuning on model performance. Evaluation against both non-reasoning and general-purpose lean models demonstrates that our domain-specific fine-tuning approach yields substantial gains in answer accuracy and consistency, approaching frontier-level performance while remaining feasible for local deployment. All implementation details and code are publicly released to support reproducibility and adaptation across domains.

Ссылки и действия