CrunchLLM: Multitask LLMs for Structured Business Reasoning and Outcome Prediction
2509.10698v1
cs.LG, cs.CV
2025-09-17
Авторы:
Rabeya Tus Sadia, Qiang Cheng
Резюме на русском
## Контекст
Определение успешности стартапа, то есть достижения экстоформы (акквариума или IPO), является ключевым вопросом в исследованиях по энтрепренериальной деятельности и инновациям. Данные Crunchbase содержат как структурированную информацию (например, раунды финансирования, отрасли, сети инвесторов), так и неструктурированный текст (например, описания компаний). Однако эффективное использование такого гибридного набора данных для прогнозирования выхода стартапов остается сложной задачей. Традиционные методы машинного обучения, ориентированные только на структурированные признаки, обычно демонстрируют умеренную точность. С другой стороны, большие языковые модели (LLMs) обладают сильными возможностями в логическом рассуждении, но сталкиваются с проблемами адаптации к конкретной сфере бизнеса.
## Метод
CrunchLLM представляет собой доменно-адаптивную модель языкового моделирования, специализированную для прогнозирования успешности стартапов. Она объединяет структурированные атрибуты компаний, такие как финансовые данные и инвесторские сети, с неструктурированным текстовым контентом, таким как описания компаний. Методология CrunchLLM включает в себя параметрно-эффективную оптимизацию пунктов и техники обобщенного тренирования моделей, чтобы приспособить основные модели языкового моделирования к конкретным задачам в сфере бизнеса. Эта модель активно использует взаимодействие между структурированными и неструктурированными данными, что позволяет повысить точность прогнозирования.
## Результаты
Эксперименты проводились на датасете Crunchbase, включающем подробные данные о стартапах и их результатах. Модель CrunchLLM показала точность более 80% при прогнозировании успешности стартапов, что значительно превосходит результаты традиционных классификаторов и других базовых моделей языкового моделирования. Более того, CrunchLLM создает интерпретируемые логические следы, которые объясняют свои прогнозы, обеспечивая деконструкцию и доверие в процессе принятия решений.
## Значимость
Результаты модели CrunchLLM имеют практическое применение в таких областях, как финансовая аналитика, инвестиционная стратегия и политика инноваций. Особенно ценным является ее способность обеспечивать прозрачность и доверие в результатах, что крайне важно в сфере финансовых принятий решений. Кроме того, CrunchLLM может стать полезным инструментом для выявления ключевых факторов успеха в стартапах, который будет полезен как для практиков, так и для исследователей.
## Выводы
CrunchLLM демонстрирует эффективность адаптации LLMs к конк
Abstract
Predicting the success of start-up companies, defined as achieving an exit
through acquisition or IPO, is a critical problem in entrepreneurship and
innovation research. Datasets such as Crunchbase provide both structured
information (e.g., funding rounds, industries, investor networks) and
unstructured text (e.g., company descriptions), but effectively leveraging this
heterogeneous data for prediction remains challenging. Traditional machine
learning approaches often rely only on structured features and achieve moderate
accuracy, while large language models (LLMs) offer rich reasoning abilities but
struggle to adapt directly to domain-specific business data. We present
\textbf{CrunchLLM}, a domain-adapted LLM framework for startup success
prediction. CrunchLLM integrates structured company attributes with
unstructured textual narratives and applies parameter-efficient fine-tuning
strategies alongside prompt optimization to specialize foundation models for
entrepreneurship data. Our approach achieves accuracy exceeding 80\% on
Crunchbase startup success prediction, significantly outperforming traditional
classifiers and baseline LLMs. Beyond predictive performance, CrunchLLM
provides interpretable reasoning traces that justify its predictions, enhancing
transparency and trustworthiness for financial and policy decision makers. This
work demonstrates how adapting LLMs with domain-aware fine-tuning and
structured--unstructured data fusion can advance predictive modeling of
entrepreneurial outcomes. CrunchLLM contributes a methodological framework and
a practical tool for data-driven decision making in venture capital and
innovation policy.
Ссылки и действия
Дополнительные ресурсы: