Event-Aware Sentiment Factors from LLM-Augmented Financial Tweets: A Transparent Framework for Interpretable Quant Trading

2508.07408v1 q-fin.ST, cs.CL, cs.LG 2025-08-13
Авторы:

Yueyi Wang, Qiyao Wei

Резюме на русском

#### Контекст Область исследования связана с использованием бо LLM (large language model) для автоматической аннотации твитов по компаниям, с целью выявления сигналов для стратегий альфа-трейдинга. Данная область имеет важное значение в связи с ростом интереса к неструктурированным данным, таким как социальные медиа, как источник новых сигналов для финансового прогнозирования. Несмотря на значительный прогресс в области обработки естественного языка, существуют сложности при трансформации неструктурированного текста в упорядоченные множественные меток событий. Выявление этих событий, а также их связь с финансовыми показателями, является ключевым заданием для создания новых альфа-сигналов. Еще одна проблема заключается в том, что многие существующие подходы недостаточно транспаренты, что ограничивает их научную значимость и применяемость. #### Метод Методология основывается на следующих этапах: 1. **Извлечение и подготовка данных**: Используется корпус твитов, относящихся к компаниям, в который внедрен теггинг на основе лингвистических моделей для выявления ключевых слов и фраз, относящихся к сентименту. 2. **Автоматическая аннотация с помощью LLM**: Используется модель, которая автоматически ставит множественные метки событий для твитов с высоким уровнем сентимента. 3. **Трансформация данных**: Метки событий сопоставляются с данными о ценах активов за периоды времени от 1 до 7 дней. 4. **Оценка эффективности**: Данные связываются с финансовыми показателями, включая нормированные нормальные возвраты (normalized forward returns), Sharpe ratio и информационные коэффициенты (IC). 5. **Прозрачность и репликабильность**: Весь код и методология, использованные в исследовании, доступны в открытом доступе, чтобы обеспечить исчерпывающую проверку результатов. #### Результаты Проведены эксперименты, на основе которых выявлены следующие результаты: 1. **Аннотация событий**: Большая часть твитов была успешно трансформирована в множественные метки событий (например, "earnings", "mergers", "product launches"). 2. **Статистическая связь**: Несколько событий, связанных с отрицательным альфа, были выявлены с высокой статистической значимостью (например, Sharpe ratio -0.38 и IC > 0.05). 3. **Торговаемость**: Определены ситуации, в которых некоторые событийные метки демонстрируют значительный потенциал для торговых стратегий. 4. **Прозрачность**: Все методы, результаты и код доступны в открытом доступе, чтобы обеспечить репликацию исследования. #### Значимость Исследование продемонстрировало значительный потенциал Бо LLM в области

Abstract

In this study, we wish to showcase the unique utility of large language models (LLMs) in financial semantic annotation and alpha signal discovery. Leveraging a corpus of company-related tweets, we use an LLM to automatically assign multi-label event categories to high-sentiment-intensity tweets. We align these labeled sentiment signals with forward returns over 1-to-7-day horizons to evaluate their statistical efficacy and market tradability. Our experiments reveal that certain event labels consistently yield negative alpha, with Sharpe ratios as low as -0.38 and information coefficients exceeding 0.05, all statistically significant at the 95\% confidence level. This study establishes the feasibility of transforming unstructured social media text into structured, multi-label event variables. A key contribution of this work is its commitment to transparency and reproducibility; all code and methodologies are made publicly available. Our results provide compelling evidence that social media sentiment is a valuable, albeit noisy, signal in financial forecasting and underscore the potential of open-source frameworks to democratize algorithmic trading research.

Ссылки и действия