Event-Aware Sentiment Factors from LLM-Augmented Financial Tweets: A Transparent Framework for Interpretable Quant Trading
2508.07408v1
q-fin.ST, cs.CL, cs.LG
2025-08-13
Авторы:
Yueyi Wang, Qiyao Wei
Резюме на русском
#### Контекст
Область исследования связана с использованием бо LLM (large language model) для автоматической аннотации твитов по компаниям, с целью выявления сигналов для стратегий альфа-трейдинга. Данная область имеет важное значение в связи с ростом интереса к неструктурированным данным, таким как социальные медиа, как источник новых сигналов для финансового прогнозирования. Несмотря на значительный прогресс в области обработки естественного языка, существуют сложности при трансформации неструктурированного текста в упорядоченные множественные меток событий. Выявление этих событий, а также их связь с финансовыми показателями, является ключевым заданием для создания новых альфа-сигналов. Еще одна проблема заключается в том, что многие существующие подходы недостаточно транспаренты, что ограничивает их научную значимость и применяемость.
#### Метод
Методология основывается на следующих этапах:
1. **Извлечение и подготовка данных**: Используется корпус твитов, относящихся к компаниям, в который внедрен теггинг на основе лингвистических моделей для выявления ключевых слов и фраз, относящихся к сентименту.
2. **Автоматическая аннотация с помощью LLM**: Используется модель, которая автоматически ставит множественные метки событий для твитов с высоким уровнем сентимента.
3. **Трансформация данных**: Метки событий сопоставляются с данными о ценах активов за периоды времени от 1 до 7 дней.
4. **Оценка эффективности**: Данные связываются с финансовыми показателями, включая нормированные нормальные возвраты (normalized forward returns), Sharpe ratio и информационные коэффициенты (IC).
5. **Прозрачность и репликабильность**: Весь код и методология, использованные в исследовании, доступны в открытом доступе, чтобы обеспечить исчерпывающую проверку результатов.
#### Результаты
Проведены эксперименты, на основе которых выявлены следующие результаты:
1. **Аннотация событий**: Большая часть твитов была успешно трансформирована в множественные метки событий (например, "earnings", "mergers", "product launches").
2. **Статистическая связь**: Несколько событий, связанных с отрицательным альфа, были выявлены с высокой статистической значимостью (например, Sharpe ratio -0.38 и IC > 0.05).
3. **Торговаемость**: Определены ситуации, в которых некоторые событийные метки демонстрируют значительный потенциал для торговых стратегий.
4. **Прозрачность**: Все методы, результаты и код доступны в открытом доступе, чтобы обеспечить репликацию исследования.
#### Значимость
Исследование продемонстрировало значительный потенциал Бо LLM в области
Abstract
In this study, we wish to showcase the unique utility of large language
models (LLMs) in financial semantic annotation and alpha signal discovery.
Leveraging a corpus of company-related tweets, we use an LLM to automatically
assign multi-label event categories to high-sentiment-intensity tweets. We
align these labeled sentiment signals with forward returns over 1-to-7-day
horizons to evaluate their statistical efficacy and market tradability. Our
experiments reveal that certain event labels consistently yield negative alpha,
with Sharpe ratios as low as -0.38 and information coefficients exceeding 0.05,
all statistically significant at the 95\% confidence level. This study
establishes the feasibility of transforming unstructured social media text into
structured, multi-label event variables. A key contribution of this work is its
commitment to transparency and reproducibility; all code and methodologies are
made publicly available. Our results provide compelling evidence that social
media sentiment is a valuable, albeit noisy, signal in financial forecasting
and underscore the potential of open-source frameworks to democratize
algorithmic trading research.
Ссылки и действия
Дополнительные ресурсы: