CrunchLLM: Multitask LLMs for Structured Business Reasoning and Outcome Prediction

2509.10698v1 cs.LG, cs.CV 2025-09-17
Авторы:

Rabeya Tus Sadia, Qiang Cheng

Резюме на русском

## Контекст Определение успешности стартапа, то есть достижения экстоформы (акквариума или IPO), является ключевым вопросом в исследованиях по энтрепренериальной деятельности и инновациям. Данные Crunchbase содержат как структурированную информацию (например, раунды финансирования, отрасли, сети инвесторов), так и неструктурированный текст (например, описания компаний). Однако эффективное использование такого гибридного набора данных для прогнозирования выхода стартапов остается сложной задачей. Традиционные методы машинного обучения, ориентированные только на структурированные признаки, обычно демонстрируют умеренную точность. С другой стороны, большие языковые модели (LLMs) обладают сильными возможностями в логическом рассуждении, но сталкиваются с проблемами адаптации к конкретной сфере бизнеса. ## Метод CrunchLLM представляет собой доменно-адаптивную модель языкового моделирования, специализированную для прогнозирования успешности стартапов. Она объединяет структурированные атрибуты компаний, такие как финансовые данные и инвесторские сети, с неструктурированным текстовым контентом, таким как описания компаний. Методология CrunchLLM включает в себя параметрно-эффективную оптимизацию пунктов и техники обобщенного тренирования моделей, чтобы приспособить основные модели языкового моделирования к конкретным задачам в сфере бизнеса. Эта модель активно использует взаимодействие между структурированными и неструктурированными данными, что позволяет повысить точность прогнозирования. ## Результаты Эксперименты проводились на датасете Crunchbase, включающем подробные данные о стартапах и их результатах. Модель CrunchLLM показала точность более 80% при прогнозировании успешности стартапов, что значительно превосходит результаты традиционных классификаторов и других базовых моделей языкового моделирования. Более того, CrunchLLM создает интерпретируемые логические следы, которые объясняют свои прогнозы, обеспечивая деконструкцию и доверие в процессе принятия решений. ## Значимость Результаты модели CrunchLLM имеют практическое применение в таких областях, как финансовая аналитика, инвестиционная стратегия и политика инноваций. Особенно ценным является ее способность обеспечивать прозрачность и доверие в результатах, что крайне важно в сфере финансовых принятий решений. Кроме того, CrunchLLM может стать полезным инструментом для выявления ключевых факторов успеха в стартапах, который будет полезен как для практиков, так и для исследователей. ## Выводы CrunchLLM демонстрирует эффективность адаптации LLMs к конк

Abstract

Predicting the success of start-up companies, defined as achieving an exit through acquisition or IPO, is a critical problem in entrepreneurship and innovation research. Datasets such as Crunchbase provide both structured information (e.g., funding rounds, industries, investor networks) and unstructured text (e.g., company descriptions), but effectively leveraging this heterogeneous data for prediction remains challenging. Traditional machine learning approaches often rely only on structured features and achieve moderate accuracy, while large language models (LLMs) offer rich reasoning abilities but struggle to adapt directly to domain-specific business data. We present \textbf{CrunchLLM}, a domain-adapted LLM framework for startup success prediction. CrunchLLM integrates structured company attributes with unstructured textual narratives and applies parameter-efficient fine-tuning strategies alongside prompt optimization to specialize foundation models for entrepreneurship data. Our approach achieves accuracy exceeding 80\% on Crunchbase startup success prediction, significantly outperforming traditional classifiers and baseline LLMs. Beyond predictive performance, CrunchLLM provides interpretable reasoning traces that justify its predictions, enhancing transparency and trustworthiness for financial and policy decision makers. This work demonstrates how adapting LLMs with domain-aware fine-tuning and structured--unstructured data fusion can advance predictive modeling of entrepreneurial outcomes. CrunchLLM contributes a methodological framework and a practical tool for data-driven decision making in venture capital and innovation policy.

Ссылки и действия