Balancing Information Accuracy and Response Timeliness in Networked LLMs
2508.02209v1
cs.LG, cs.AI, cs.IT, cs.NI, math.IT
2025-08-09
Авторы:
Yigit Turkmen, Baturalp Buyukates, Melih Bastopcu
Резюме на русском
## Контекст
Сетьные Large Language Models (LLMs) затрагивают многие области, включая научные исследования, генерацию контента, выделение информации в текстах биомедицины и развитие образовательных технологий. Однако потребность в больших объемах данных, высоких затратах вычислительных ресурсов и энергии ограничивают их практическое применение. Уменьшение размера моделей и их специализация на определенные темы могут повысить эффективность. В этой работе рассматривается сетевая система LLM, включающую пользователей, центральный процессор задач и кластеры специализированных моделей. Участники отправляют вопросы в виде категориальных бинарных запросов, которые обрабатываются и агрегируются для формирования окончательных ответов. Мы изучаем как точность ответов, так и время их получения.
## Метод
Мы предлагаем сетевую систему LLM, где пользователи отправляют запросы в виде бинарных вопросов, а задачи распределяются процессором задач между кластерами моделей. Каждая модель в кластере обрабатывает отдельный запрос, а их ответы агрегируются процессором. Мы оптимизируем два метрики: точность ответов и время их получения. Используемые данные включают различные тематические базы, а алгоритмы агрегации ответов производятся с учетом показателей качества отдельных моделей.
## Результаты
Используя эксперименты с различными темами и размерами кластеров, мы показали, что агрегированные ответы показывают значительно вышу точность по сравнению с ответами от отдельных моделей. Это особенно видно, когда модели имеют близкий уровень качества отдельного работы. Общий ответ получается более точным, так как отдельные модели компенсируют друг другу слабые места. Время ответа также снижается в силу распараллеливания задач.
## Значимость
Наша работа имеет применение в области обработки текстовых данных, в том числе в выделении информации и синтезе текста. Она позволяет улучшить качество ответов, обеспечивая быстрый и точный ответ. Это может иметь значительное влияние в приложениях, где срочность решения задачи является критической.
## Выводы
Мы доказали, что сетевая система LLM, объединяющая несколько моделей, позволяет повысить качество ответов, оптимизируя компромисс между точностью и скоростью получения результата. Будущие исследования будут сфокусированы на дальнейшей оптимизации алгоритмов агрегирования и изучении результатов на более больших данных и сложных задачах.
Abstract
Recent advancements in Large Language Models (LLMs) have transformed many
fields including scientific discovery, content generation, biomedical text
mining, and educational technology. However, the substantial requirements for
training data, computational resources, and energy consumption pose significant
challenges for their practical deployment. A promising alternative is to
leverage smaller, specialized language models and aggregate their outputs to
improve overall response quality. In this work, we investigate a networked LLM
system composed of multiple users, a central task processor, and clusters of
topic-specialized LLMs. Each user submits categorical binary (true/false)
queries, which are routed by the task processor to a selected cluster of $m$
LLMs. After gathering individual responses, the processor returns a final
aggregated answer to the user. We characterize both the information accuracy
and response timeliness in this setting, and formulate a joint optimization
problem to balance these two competing objectives. Our extensive simulations
demonstrate that the aggregated responses consistently achieve higher accuracy
than those of individual LLMs. Notably, this improvement is more significant
when the participating LLMs exhibit similar standalone performance.