📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Retrieval Capabilities of Large Language Models Scale with Pretraining FLOPs

2025-08-27

Авторы:

Jacob Portes, Connor Jennings, Erica Ji Yuen, Sasha Doubov, Michael Carbin

#### Контекст Объемные языковые модели (LLM) становятся все более важными для решения различных задач, включая восстановление информации. Одна из ключевых проблем в этой области заключается в том, насколько эффективно модели восстанавливают информацию в зависимости от их размера и количества обучения вычислений (FLOPs). Проблема заключается в необходимости определить, как эффективность восстановления зависит от размера модели, объема обучающих данных и вычислительных ресурсов, затраченных на обучение. Это мотивирует исследование того, насколько хорошо модели с различным размером и обучением справляются с задачей восстановления, а также как эти результаты могут быть использованы для улучшения подходов к разработке моделей. #### Метод Мы проводим подробный экспериментальный анализ, включающий бенчмаркинг нескольких моделей с различными размерами (от 125 миллионов до 7 миллиардов параметров) и различными объемами обучающих данных (от 1 миллиарда до 2 триллионов токенов). Модели были оценены на зеро-шот задачах восстановления информации на основе BEIR (BEIR Benchmark for Evaluation of Information Retrieval). Мы также используем In-Context Learning (ICL) для оценки связи между результатами восстановления и тем, насколько хорошо модель может использовать контекст в своих ответах. Эксперименты проводятся на разных наборах данных, чтобы оценить различные аспекты эффективности моделей. #### Результаты Мы обнаружили, что эффективность восстановления непосредственно пропорциональна размеру модели, объему обучения вычислений (FLOPs) и продолжительности обучения. Модели с большим количеством параметров и большим объемом обучения данных показывают значительно лучшие результаты на задачах восстановления. Была также выявлена сильная корреляция между In-Context Learning scores и результатами восстановления, что позволяет использовать ICL как прогностический метрика для восстановления. Результаты показали, что модели с большим количеством FLOPs не только опережают меньшие модели, но и показывают более стабильные результаты на разных типах данных. #### Значимость Научные выводы этой работы имеют значительное значение для разработки новых моделей восстановления информации. Они могут быть применены в сферах, где требуется высокая точность восстановления данных, таких как поисковые системы, анализ текстов, искусственный интеллект в сфере медицины и других областях. Эти результаты также открывают новые пути для оптимизации LLM с помощью FLOPs и ICL, чтобы повысить их эффективность в реальных задачах. Это может привести к развитию более эффективных и точных систем восстановления информации. #### Выводы Мы показали, что размер модели, объем обу

Annotation:

How does retrieval performance scale with pretraining FLOPs? We benchmark retrieval performance across LLM model sizes from 125 million parameters to 7 billion parameters pretrained on datasets ranging from 1 billion tokens to more than 2 trillion tokens. We find that retrieval performance on zero-shot BEIR tasks predictably scales with LLM size, training duration, and estimated FLOPs. We also show that In-Context Learning scores are strongly correlated with retrieval scores across retrieval tas...

ID: 2508.17400v1 cs.LG, cs.AI, cs.IR

arXiv PDF

📄 RicciFlowRec: A Geometric Root Cause Recommender Using Ricci Curvature on Financial Graphs

2025-08-15

Авторы:

Zhongtian Sun, Anoushka Harit

## Контекст Финансовые графы, представляющие взаимосвязи между активами, макроэкономическими индикаторами и новостями, являются важной структурой для принятия решений в финансовой сфере. Однако их динамическое изменение порождает сложные задачи по причинно-следственным связям и управлению рисками. Существующие подходы часто снижают точность или не учитывают геометрические свойства графов. Мотивацией для настоящего исследования является развитие методологии, которая может эффективно обнаруживать причины финансовых шоков и оценивать их влияние в динамических условиях. ## Метод RicciFlowRec основывается на геометрической методологии, использующей риcci-поток и риcci-кривизну для анализа динамических финансовых графов. Метод анализирует взаимосвязи между элементами графа, оценивая кривизну в каждой вершине и считая риcci-поток для понимания шоков. Это позволяет выявлять локальные стрессы и определять глобальные риски. Данные представляются в виде графов с вершинами, соответствующими активам или индикаторам, и ребрами, представляющими взаимосвязи. Процедура определения риcci-кривизны основана на матрицах смежности и весов ребер. Эти меры используются для определения причинных структур и их вклада в риск. ## Результаты На основе S&P 500 данных и сентимент-анализа FinBERT показана эффективность RicciFlowRec в прогнозировании риска и причинных характеристик. Используя метрики качества, такие как F1-score и RMSE, мы сравнивали нашу модель с современными подходами. Эксперименты показали, что RicciFlowRec обеспечивает более высокую точность в определении причин и более стабильные результаты при синтетических шумовых входных данных. Это подтверждает повышенную точность и улучшенную интерпретируемость рекомендаций. ## Значимость Предлагаемый подход может применяться в различных финансовых областях, включая позиционирование портфелей, оценку риска и прогнозирование возврата на инвестиции. Рицци-кривизна и рицци-поток обеспечивают новый взгляд на причинно-следственные связи, улучшая качество рекомендаций и уменьшая возможность человеческих ошибок в финансовую аналитику. Этот подход также может быть расширен для других геометрических графов и приложений, где важна геометрическая причинно-следственная аналитика. ## Выводы Рицци-поток и рицци-кривизна позволяют эффективно анализировать динамические финансовые графы, обеспечивая новый подход к причинно-следственному анализу и риск-менеджменту. Наша модель RicciFlowRec демонстрирует перспективы

Annotation:

We propose RicciFlowRec, a geometric recommendation framework that performs root cause attribution via Ricci curvature and flow on dynamic financial graphs. By modelling evolving interactions among stocks, macroeconomic indicators, and news, we quantify local stress using discrete Ricci curvature and trace shock propagation via Ricci flow. Curvature gradients reveal causal substructures, informing a structural risk-aware ranking function. Preliminary results on S\&P~500 data with FinBERT-based s...

ID: 2508.09334v1 cs.LG, cs.AI, cs.IR

arXiv PDF

Показано 11 - 12 из 12 записей