Balancing Information Accuracy and Response Timeliness in Networked LLMs

2508.02209v1 cs.LG, cs.AI, cs.IT, cs.NI, math.IT 2025-08-09
Авторы:

Yigit Turkmen, Baturalp Buyukates, Melih Bastopcu

Резюме на русском

## Контекст Сетьные Large Language Models (LLMs) затрагивают многие области, включая научные исследования, генерацию контента, выделение информации в текстах биомедицины и развитие образовательных технологий. Однако потребность в больших объемах данных, высоких затратах вычислительных ресурсов и энергии ограничивают их практическое применение. Уменьшение размера моделей и их специализация на определенные темы могут повысить эффективность. В этой работе рассматривается сетевая система LLM, включающую пользователей, центральный процессор задач и кластеры специализированных моделей. Участники отправляют вопросы в виде категориальных бинарных запросов, которые обрабатываются и агрегируются для формирования окончательных ответов. Мы изучаем как точность ответов, так и время их получения. ## Метод Мы предлагаем сетевую систему LLM, где пользователи отправляют запросы в виде бинарных вопросов, а задачи распределяются процессором задач между кластерами моделей. Каждая модель в кластере обрабатывает отдельный запрос, а их ответы агрегируются процессором. Мы оптимизируем два метрики: точность ответов и время их получения. Используемые данные включают различные тематические базы, а алгоритмы агрегации ответов производятся с учетом показателей качества отдельных моделей. ## Результаты Используя эксперименты с различными темами и размерами кластеров, мы показали, что агрегированные ответы показывают значительно вышу точность по сравнению с ответами от отдельных моделей. Это особенно видно, когда модели имеют близкий уровень качества отдельного работы. Общий ответ получается более точным, так как отдельные модели компенсируют друг другу слабые места. Время ответа также снижается в силу распараллеливания задач. ## Значимость Наша работа имеет применение в области обработки текстовых данных, в том числе в выделении информации и синтезе текста. Она позволяет улучшить качество ответов, обеспечивая быстрый и точный ответ. Это может иметь значительное влияние в приложениях, где срочность решения задачи является критической. ## Выводы Мы доказали, что сетевая система LLM, объединяющая несколько моделей, позволяет повысить качество ответов, оптимизируя компромисс между точностью и скоростью получения результата. Будущие исследования будут сфокусированы на дальнейшей оптимизации алгоритмов агрегирования и изучении результатов на более больших данных и сложных задачах.

Abstract

Recent advancements in Large Language Models (LLMs) have transformed many fields including scientific discovery, content generation, biomedical text mining, and educational technology. However, the substantial requirements for training data, computational resources, and energy consumption pose significant challenges for their practical deployment. A promising alternative is to leverage smaller, specialized language models and aggregate their outputs to improve overall response quality. In this work, we investigate a networked LLM system composed of multiple users, a central task processor, and clusters of topic-specialized LLMs. Each user submits categorical binary (true/false) queries, which are routed by the task processor to a selected cluster of $m$ LLMs. After gathering individual responses, the processor returns a final aggregated answer to the user. We characterize both the information accuracy and response timeliness in this setting, and formulate a joint optimization problem to balance these two competing objectives. Our extensive simulations demonstrate that the aggregated responses consistently achieve higher accuracy than those of individual LLMs. Notably, this improvement is more significant when the participating LLMs exhibit similar standalone performance.

Ссылки и действия