Retrieval Capabilities of Large Language Models Scale with Pretraining FLOPs
2508.17400v1
cs.LG, cs.AI, cs.IR
2025-08-27
Авторы:
Jacob Portes, Connor Jennings, Erica Ji Yuen, Sasha Doubov, Michael Carbin
Резюме на русском
#### Контекст
Объемные языковые модели (LLM) становятся все более важными для решения различных задач, включая восстановление информации. Одна из ключевых проблем в этой области заключается в том, насколько эффективно модели восстанавливают информацию в зависимости от их размера и количества обучения вычислений (FLOPs). Проблема заключается в необходимости определить, как эффективность восстановления зависит от размера модели, объема обучающих данных и вычислительных ресурсов, затраченных на обучение. Это мотивирует исследование того, насколько хорошо модели с различным размером и обучением справляются с задачей восстановления, а также как эти результаты могут быть использованы для улучшения подходов к разработке моделей.
#### Метод
Мы проводим подробный экспериментальный анализ, включающий бенчмаркинг нескольких моделей с различными размерами (от 125 миллионов до 7 миллиардов параметров) и различными объемами обучающих данных (от 1 миллиарда до 2 триллионов токенов). Модели были оценены на зеро-шот задачах восстановления информации на основе BEIR (BEIR Benchmark for Evaluation of Information Retrieval). Мы также используем In-Context Learning (ICL) для оценки связи между результатами восстановления и тем, насколько хорошо модель может использовать контекст в своих ответах. Эксперименты проводятся на разных наборах данных, чтобы оценить различные аспекты эффективности моделей.
#### Результаты
Мы обнаружили, что эффективность восстановления непосредственно пропорциональна размеру модели, объему обучения вычислений (FLOPs) и продолжительности обучения. Модели с большим количеством параметров и большим объемом обучения данных показывают значительно лучшие результаты на задачах восстановления. Была также выявлена сильная корреляция между In-Context Learning scores и результатами восстановления, что позволяет использовать ICL как прогностический метрика для восстановления. Результаты показали, что модели с большим количеством FLOPs не только опережают меньшие модели, но и показывают более стабильные результаты на разных типах данных.
#### Значимость
Научные выводы этой работы имеют значительное значение для разработки новых моделей восстановления информации. Они могут быть применены в сферах, где требуется высокая точность восстановления данных, таких как поисковые системы, анализ текстов, искусственный интеллект в сфере медицины и других областях. Эти результаты также открывают новые пути для оптимизации LLM с помощью FLOPs и ICL, чтобы повысить их эффективность в реальных задачах. Это может привести к развитию более эффективных и точных систем восстановления информации.
#### Выводы
Мы показали, что размер модели, объем обу
Abstract
How does retrieval performance scale with pretraining FLOPs? We benchmark
retrieval performance across LLM model sizes from 125 million parameters to 7
billion parameters pretrained on datasets ranging from 1 billion tokens to more
than 2 trillion tokens. We find that retrieval performance on zero-shot BEIR
tasks predictably scales with LLM size, training duration, and estimated FLOPs.
We also show that In-Context Learning scores are strongly correlated with
retrieval scores across retrieval tasks. Finally, we highlight the implications
this has for the development of LLM-based retrievers.
Ссылки и действия
Дополнительные ресурсы: