Retrieval Capabilities of Large Language Models Scale with Pretraining FLOPs

2508.17400v1 cs.LG, cs.AI, cs.IR 2025-08-27
Авторы:

Jacob Portes, Connor Jennings, Erica Ji Yuen, Sasha Doubov, Michael Carbin

Резюме на русском

#### Контекст Объемные языковые модели (LLM) становятся все более важными для решения различных задач, включая восстановление информации. Одна из ключевых проблем в этой области заключается в том, насколько эффективно модели восстанавливают информацию в зависимости от их размера и количества обучения вычислений (FLOPs). Проблема заключается в необходимости определить, как эффективность восстановления зависит от размера модели, объема обучающих данных и вычислительных ресурсов, затраченных на обучение. Это мотивирует исследование того, насколько хорошо модели с различным размером и обучением справляются с задачей восстановления, а также как эти результаты могут быть использованы для улучшения подходов к разработке моделей. #### Метод Мы проводим подробный экспериментальный анализ, включающий бенчмаркинг нескольких моделей с различными размерами (от 125 миллионов до 7 миллиардов параметров) и различными объемами обучающих данных (от 1 миллиарда до 2 триллионов токенов). Модели были оценены на зеро-шот задачах восстановления информации на основе BEIR (BEIR Benchmark for Evaluation of Information Retrieval). Мы также используем In-Context Learning (ICL) для оценки связи между результатами восстановления и тем, насколько хорошо модель может использовать контекст в своих ответах. Эксперименты проводятся на разных наборах данных, чтобы оценить различные аспекты эффективности моделей. #### Результаты Мы обнаружили, что эффективность восстановления непосредственно пропорциональна размеру модели, объему обучения вычислений (FLOPs) и продолжительности обучения. Модели с большим количеством параметров и большим объемом обучения данных показывают значительно лучшие результаты на задачах восстановления. Была также выявлена сильная корреляция между In-Context Learning scores и результатами восстановления, что позволяет использовать ICL как прогностический метрика для восстановления. Результаты показали, что модели с большим количеством FLOPs не только опережают меньшие модели, но и показывают более стабильные результаты на разных типах данных. #### Значимость Научные выводы этой работы имеют значительное значение для разработки новых моделей восстановления информации. Они могут быть применены в сферах, где требуется высокая точность восстановления данных, таких как поисковые системы, анализ текстов, искусственный интеллект в сфере медицины и других областях. Эти результаты также открывают новые пути для оптимизации LLM с помощью FLOPs и ICL, чтобы повысить их эффективность в реальных задачах. Это может привести к развитию более эффективных и точных систем восстановления информации. #### Выводы Мы показали, что размер модели, объем обу

Abstract

How does retrieval performance scale with pretraining FLOPs? We benchmark retrieval performance across LLM model sizes from 125 million parameters to 7 billion parameters pretrained on datasets ranging from 1 billion tokens to more than 2 trillion tokens. We find that retrieval performance on zero-shot BEIR tasks predictably scales with LLM size, training duration, and estimated FLOPs. We also show that In-Context Learning scores are strongly correlated with retrieval scores across retrieval tasks. Finally, we highlight the implications this has for the development of LLM-based retrievers.

Ссылки и действия