📚 Саммари научных статей из arXiv

Найдено 277 результатов по запросу 'cs.LG, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 FedHK-MVFC: Federated Heat Kernel Multi-View Clustering

2025-09-23

Авторы:

Kristina P. Sinaga

## Контекст Область распределенных искусственных нейронных сетей (DNNs) и медицинских приложений, требующих безопасного анализа данных, становится все более актуальной в свет требований к конфиденциальности и безопасности. Одна из основных проблем заключается в сложности объединения данных из разных источников (мультивиев-данных) для одновременной обработки и анализа в среде, где необходима конфиденциальность. Например, в рамках систем медицинского мониторинга, отдельные узлы могут собирать разные типы данных (например, электрокардиограммы, рентгеновские снимки, данные о поведении). Без системы позволяющей эффективно обрабатывать такие мультивиев-данные, легко могут возникать проблемы с корреляцией и синергетическим использованием данных, что приводит к неточным выводам. Таким образом, целью данной работы является разработка эффективной методологии мультивиев-кластеризации, которая бы стала решением для улучшения выявления зависимостей и структурных признаков в мультивиев-данных, особенно в сфере медицины. ## Метод Данная работа предлагает нейронную сеть, основанную на теории квантовых полей и федеративном обучении, с использованием терминов теории теплового ядра (Heat Kernel). Метод включает трансформацию Heat Kernel Distance (HKD), которая преобразует Евклидовы расстояния в геометрически-ориентированные меры сходства. Это позволяет адаптироваться к различным типам мультивиев-данных, включая медицинский контекст. Метод разделен на две основные части. В первой части алгоритм Heat Kernel-Enhanced Multi-View Fuzzy Clustering (HK-MVFC) предназначен для монолитного анализа в централизованной среде. Во второй части, Federated Heat Kernel Multi-View Fuzzy Clustering (FedHK-MVFC), представлена альтернатива с фокусом на защите конфиденциальности данных при многоузловом обучении. Данный подход включает в себя механизмы гарантии конфиденциальности, такие как дифференциальная частичность и агрегация защищенных данных, соответствующие требованиям HIPAA. Технически, сеть оптимизирует кластеризацию с использованием новых уравнений для обновления весов и адаптивного управления весами вида данных, что позволяет повысить точность кластеризации и эффективность обработки. ## Результаты На основе синтетических данных, симулирующих записи больных сердечно-сосудистых заболеваний, показано, что FedHK-MVFC позволяет повысить точность кластеризации на 8-12% по сравнению с централизованным подходом, при этом уменьшая объем обмена данными между узлами на 70% и сохраняя 98.2% от эффективности централизованного метода. Эксперименты проводились на данных, вкл

Annotation:

In the realm of distributed AI and privacy-focused medical applications, we propose a framework for multi-view clustering that links quantum field theory with federated healthcare analytics. Our method uses heat-kernel coefficients from spectral analysis to convert Euclidean distances into geometry-aware similarity measures, capturing the structure of diverse medical data. We lay this out through the Heat Kernel Distance (HKD) transformation with convergence guarantees. Two algorithms are develo...

ID: 2509.15844v1 cs.LG, cs.CV, cs.DC, math.AG

arXiv PDF

📄 Efficient Long-Tail Learning in Latent Space by sampling Synthetic Data

2025-09-23

Авторы:

Nakul Sharma

#### Контекст Имбалансированные наборы данных представляют основные вызовы в области машинного обучения, так как модели, обученные на таких данных, часто оказываются безравничными в отношении классов, которые менее представлены в выборке. Такая ситуация может привести к предсказаниям с большим показателем ошибок для незначительных классов. Несмотря на то, что базовые модели, такие как Vision Foundation Models (VFM), показывают впечатляющие результаты в области классификации, они не всегда эффективны при работе с имбалансированными данными. Для преодоления этих проблем появились подходы, такие как полное, частичное и параметрное эффективное адаптирование моделей. Однако эти подходы требуют значительных вычислительных ресурсов и часто не достигают уровня производительности, достигаемого моделями, обученными на балансированных наборах данных. Этот факт подтверждает необходимость разработки более простых и эффективных подходов к обучению с частыми классами. #### Метод Мы предлагаем новый подход к обучению с использованием моделей Vision Foundation Models, который основывается на генерации синтетических данных из богатого семантического пространства. Метод заключается в том, чтобы использовать вспомогательный классификатор на основе линейной модели, обученный на смеси реальных и синтетических данных. Эта модель позволяет работать с минимальным числом параметров, что обеспечивает высокую эффективность обучения и моделирования. Мы используем VFM для вывода синтетических данных, что позволяет увеличить разнообразие данных и уменьшить эффект имбаланса. Эта методология разработана с учетом требований простоты, эффективности и эффективности ресурсов. #### Результаты Мы провели эксперименты на двух основных бенчмарках для частых классов: CIFAR-100-LT и Places-LT. Модель, разработанная в рамках настоящей работы, показала впечатляющие результаты, превосходя существующие подходы в сравнении с основными метриками. Мы проанализировали качество классификации на подмножествах классов, и оказалось, что наш подход не только повышает производительность, но и поддерживает высокую скорость обучения. Благодаря низкому числу параметров и простой архитектуре, наш метод эффективно работает в режиме реального времени и предлагает новый состояние технологического прогресса в области обучения с имбалансами. #### Значимость Метод, предложенный в этой работе, имеет многочисленные приложения в области машинного обучения, особенно при работе с большими наборами данных, где классы имеют высокую имбалансированность. Он может применяться в сферах, таких как робототехника, здравоохранение, т

Annotation:

Imbalanced classification datasets pose significant challenges in machine learning, often leading to biased models that perform poorly on underrepresented classes. With the rise of foundation models, recent research has focused on the full, partial, and parameter-efficient fine-tuning of these models to deal with long-tail classification. Despite the impressive performance of these works on the benchmark datasets, they still fail to close the gap with the networks trained using the balanced data...

ID: 2509.15859v1 cs.LG, cs.CV

arXiv PDF

📄 MTS-DMAE: Dual-Masked Autoencoder for Unsupervised Multivariate Time Series Representation Learning

2025-09-23

Авторы:

Yi Xu, Yitian Zhang, Yun Fu

Извлечение качественных представлений неорганизованных многомерных потоков временных рядов (MTS) — важная проблема в AI, так как от нее зависит эффективность решения различных задач в последующих этапах. Однако существующие подходы часто требуют больших объемов меток или недостаточно учитывают характер взаимосвязи временных рядов. В статье предлагается Dual-Masked Autoencoder (DMAE) — новый метод для неучитывающего тегов обучения, основанный на автокодировщике. DMAE вводит две симметричные задачи: восстановление пропущенных значений с использованием видимых данных и предсказание пропущенных признаков с помощью «учителя». Дополнительно, введена ограничение, призванное выравнивать представления в пространстве признаков. Тесты показали, что DMAE выдает лучшие результаты по сравнению с современными методами в задачах классификации, регрессии и прогнозирования значений. Это демонстрирует эффективность нового подхода в извлечении содержательных и главных представлений MTS.

Annotation:

Unsupervised multivariate time series (MTS) representation learning aims to extract compact and informative representations from raw sequences without relying on labels, enabling efficient transfer to diverse downstream tasks. In this paper, we propose Dual-Masked Autoencoder (DMAE), a novel masked time-series modeling framework for unsupervised MTS representation learning. DMAE formulates two complementary pretext tasks: (1) reconstructing masked values based on visible attributes, and (2) esti...

ID: 2509.16078v1 cs.LG, cs.CV

arXiv PDF

📄 Dynamic Classifier-Free Diffusion Guidance via Online Feedback

2025-09-23

Авторы:

Pinelopi Papalampidi, Olivia Wiles, Ira Ktena, Aleksandar Shtedritski, Emanuele Bugliarello, Ivana Kajic, Isabela Albuquerque, Aida Nematzadeh

#### Контекст Текст-to-имаже (T2I) диффузионные модели стали основополагающим инструментом в генерировании качественных изображений по текстовым описаниям. Одной из ключевых техник, позволяющих улучшить алгоритмы генерации, является **Classifier-Free Guidance (CFG)**. Эта техника позволяет контролировать точность и стиль изображения, устанавливая "гибкость" между семантическим содержанием (выраженным в тексте) и визуальным стилем (выраженным в изображении). Однако существующие подходы к CFG основываются на статическом выборе гибкости (guidance scale), что приводит к недостаткам в гибкости и настройке под конкретные задачи. Наша мотивация заключается в разработке динамического подхода к CFG, который адаптируется к каждому конкретному запросу, улучшая тем самым качество изображений и их соответствие тексту. #### Метод Мы предлагаем динамический подход к CFG, который использует **онлайн-обратную связь** из нескольких оценочных моделей для каждого шага диффузионного процесса. Наша архитектура включает в себя несколько задач оценки: 1. **Alignment (аналогия с CLIP)**: Модель оценивает, насколько хорошо изображение соответствует тексту. 2. **Fidelity (относительная ценность)**: Дискриминатор оценивает качество генерируемых изображений. 3. **Human Preference Reward Model**: Модель оценивает предпочтения пользователей в терминах качества и целесообразности изображения. Через этот подход мы можем вычислить оптимальный CFG-скалирующий фактор для каждого шага диффузионного процесса. Мы применяем *greedy search*, чтобы выбирать наилучший CFG-скалирующий фактор в реальном времени. Этот подход позволяет гибко адаптироваться к разным тематикам и запросам. #### Результаты Мы проверили нашу модель на нескольких контрольных выборках и сравнили ее с двумя вариантами Imagen (стандартным и без CFG). Мы использовали данные для оценки текстового выражения, визуального качества и точности генерации. Наши результаты показали: - **Улучшение текстового выражения**: Динамический CFG показал значительное улучшение в точности текстового описания изображений. - **Повышение визуального качества**: Мы наблюдаем более точные и четкие изображения, особенно в сложных генерируемых сценах. - **Улучшение text-to-image rendering**: Наш подход позволил значительно повысить точность в генерации изображений, которые включают текст в сценах. - **Улучшение численного рассуждения**: Модель демонстрирует значительное улучшение в понимании и генерировании числовых сценариев. #### Значимость Наша модель имеет широкие применения в генерировании изображений, в частности в следующи

Annotation:

Classifier-free guidance (CFG) is a cornerstone of text-to-image diffusion models, yet its effectiveness is limited by the use of static guidance scales. This "one-size-fits-all" approach fails to adapt to the diverse requirements of different prompts; moreover, prior solutions like gradient-based correction or fixed heuristic schedules introduce additional complexities and fail to generalize. In this work, we challeng this static paradigm by introducing a framework for dynamic CFG scheduling. O...

ID: 2509.16131v2 cs.LG, cs.CV

arXiv PDF

📄 One-step Multi-view Clustering With Adaptive Low-rank Anchor-graph Learning

2025-09-20

Авторы:

Zhiyuan Xue, Ben Yang, Xuetao Zhang, Fei Wang, Zhiping Lin

#### Контекст Много birds-обзорные алгоритмы являются важным инструментом для разрешения проблем много birds-обзора данных, которые часто встречаются в сферах, таких как оптимизация, машинное обучение и анализ данных. Однако существующие методы сталкиваются с проблемами, такими как неэффективность в обработке больших данных, неточность в выявлении кластеров и неэффективность в использовании доступных источников информации. Например, методы, основанные на графе, часто сталкиваются с проблемой учета высокой степени связности данных, что приводит к неточности результатов. Эти недостатки могут привести к неточности в кластеризации и неэффективности в выделении полезной информации. Мотивацией для настоящего исследования является развитие более эффективной стратегии, которая могла бы улучшить качество кластеризации, уменьшить вычислительное время и обеспечить более точный анализ данных. #### Метод Метод, предлагаемый в данной статье, является усовершенствованием существующих подходов к кластеризации с использованием мульти- birds-обзорных данных. Основной идеей является использование адаптивного нижне-рангового обучения графа, что позволяет лучше учитывать структуру данных и уменьшить количество шумов. Метод включает в себя следующие шаги: (1) построение много birds-обзорного графа, который содержит различные виды информации о данных; (2) использование адаптивной модели, которая стремится минимизировать норму ловкости для получения более точной структурой данных; (3) применение алгоритма кластеризации для получения окончательных кластеров. Этот подход позволяет сократить вычислительное время и улучшить точность кластеризации, в сравнении с традиционными методами. #### Результаты Для оценки эффективности предложенного метода, проведены несколько экспериментов на различных данных, включая обычные и большие много birds-обзорные данные. Вычисления показали, что предложенный подход демонстрирует лучшую точность кластеризации в сравнении с традиционными методами, такими как K-means и spectral clustering. Также был осуществлен анализ времени работы, показавший, что предложенный метод значительно сокращает время обработки данных. Эти результаты отмечают высокую эффективность и экономичность нового подхода в области кластеризации много birds-обзорных данных. #### Значимость Предложенный подход имеет широкие возможности для применения в различных областях, в том числе: анализ данных в сетях социальных сетей, классификация данных в области медицины и биологии, а также в области оптимизации ресурсов в информационных системах. Одним из основных преимуществ является вы

Annotation:

In light of their capability to capture structural information while reducing computing complexity, anchor graph-based multi-view clustering (AGMC) methods have attracted considerable attention in large-scale clustering problems. Nevertheless, existing AGMC methods still face the following two issues: 1) They directly embedded diverse anchor graphs into a consensus anchor graph (CAG), and hence ignore redundant information and numerous noises contained in these anchor graphs, leading to a decrea...

ID: 2509.14724v1 cs.LG, cs.CV

arXiv PDF

📄 Forecasting and Visualizing Air Quality from Sky Images with Vision-Language Models

2025-09-20

Авторы:

Mohammad Saleh Vahdatpour, Maryam Eyvazi, Yanqing Zhang

## Контекст Проблема загрязнения воздуха является одной из ключевых угроз для здоровья человека и устойчивого развития окружающей среды. Несмотря на развитие систем мониторинга воздушной загрязненности, они часто ограничиваются локальным покрытием и доступом. Это затрудняет прогнозирование уровня загрязнения и принятие обоснованных решений в сфере управления. Поэтому необходимы новые подходы, которые могут основываться на искусственном интеллекте и использовать доступные изображения неба для прогнозирования и визуализации атмосферных условий. ## Метод Предложенный подход основывается на статистическом анализе текстур и сверточных нейронных сетях для классификации уровня загрязнения воздуха. Изображения неба разбираются с помощью статистических методов для извлечения признаков, а затем эти признаки подаются на вход сверточной нейронной сети для классификации. Для визуализации прогнозируемых условий используется виджен-лангудж модель (Vision-Language Model, VLM), которая генерирует реалистичные изображения, отражающие разные степени загрязнения. Это позволяет пользователям быстро понять уровень загрязнения и принять соответствующие меры. ## Результаты Использовав данные по изображениям неба, проведенные эксперименты показали высокую точность классификации уровня загрязнения воздуха. Визуализированные изображения с помощью VLM хорошо соответствовали реальным условиям, что подтверждает эффективность метода. Такие визуализации могут быть использованы в различных интеллектуальных приложениях для улучшения прогноза и управления загрязнением. ## Значимость Предложенная модель может быть применена в различных отраслях, включая системы мониторинга, планирование городских систем и приложения для широкой публики. Она обеспечивает более широкий доступ к данным о загрязнении воздуха, увеличивает принятие решений на основе данных и повышает общее сознание о проблеме. Эти возможности могут способствовать улучшению качества жизни и энергоэффективности. ## Выводы Прогнозирование и визуализация уровня загрязнения воздуха с использованием изображений неба и визуально-языковых моделей демонстрирует высокую эффективность. Этот подход может быть развит для улучшения систем мониторинга и предупреждения, а также для создания понятных интерфейсов для пользователей. Будущие исследования будут сосредоточены на создании более энергоэффективных архитектур и интеграции этих систем с устройствами на базе FPGA для реального времени.

Annotation:

Air pollution remains a critical threat to public health and environmental sustainability, yet conventional monitoring systems are often constrained by limited spatial coverage and accessibility. This paper proposes an AI-driven agent that predicts ambient air pollution levels from sky images and synthesizes realistic visualizations of pollution scenarios using generative modeling. Our approach combines statistical texture analysis with supervised learning for pollution classification, and lever...

ID: 2509.15076v1 cs.LG, cs.CV

arXiv PDF

📄 LLM-I: LLMs are Naturally Interleaved Multimodal Creators

2025-09-19

Авторы:

Zirun Guo, Feng Zhang, Kai Jia, Tao Jin

## Контекст В последние годы становится все более очевидным, что текстовые генеративные модели (LLM) способны не только выводить текстовую информацию, но и взаимодействовать с визуальными данными. Однако существуют серьезные ограничения, связанные с тем, что существующие модели часто ограничиваются синтетическими изображениями и страдают от нехватки точности и фактического знания при работе с реальными задачами. Эта проблема называется "одно-инструментный бутафор" и ограничивает потенциал генеративных моделей в решении реальных задач. Мы предлагаем LLM-I (LLM-Interleaved), новую архитектуру, которая преодолевает эту проблему, превращая задачу интеллектуального использования инструментов в инструмент генеративной модели. ## Метод LLM-I представляет собой динамическую и гибкую систему, которая использует центральную LLM или MLLM-агента, чтобы интеллектуально управлять различными специализированными визуальными инструментами. Эти инструменты включают в себя поиск изображений, диффузионную генерацию, выполнение программного кода и редактирование изображений. Мы используем Reinforcement Learning (RL) для обучения агента, который выбирает и применяет инструменты с помощью гибкой системы наград. Наша система обучается на новой датасете, содержащей данные для четырех разных моделей. Это позволяет LLM-I адаптироваться к различным задачам и окружениям. ## Результаты Мы проводили эксперименты на четырех различных бенчмарках, включая задачи синтеза изображений, редактирования, программирования и поиска. Наши результаты показывают, что LLM-I превосходит существующие методы во всех задачах, показывая значительную выгоду в точности и качестве генерируемых результатов. Мы также применили новую стратегию скольжения степенной характеристики, которая дает дополнительный прирост производительности во время выполнения. ## Значимость LLM-I открывает новые возможности для генеративных моделей, которые могут теперь не только выводить текст, но и работать с реальными визуальными задачами. Это может быть применено в различных областях, таких как медицина, промышленность, образование и многие другие. Наше решение предоставляет большую гибкость и мощь, которая отсутствует в существующих моделях. Мы также показываем, что наше решение может быть скорректировано для различных специализированных задач, что делает его универсальным инструментом для разработчиков и исследователей. ## Выводы Мы представляем LLM-I, новую архитектуру, которая использует центральную LLM для управления различными визуальными инструментами. Мы показали сво

Annotation:

We propose LLM-Interleaved (LLM-I), a flexible and dynamic framework that reframes interleaved image-text generation as a tool-use problem. LLM-I is designed to overcome the "one-tool" bottleneck of current unified models, which are limited to synthetic imagery and struggle with tasks requiring factual grounding or programmatic precision. Our framework empowers a central LLM or MLLM agent to intelligently orchestrate a diverse toolkit of specialized visual tools, including online image search, d...

ID: 2509.13642v1 cs.LG, cs.CV

arXiv PDF

📄 iCD: A Implicit Clustering Distillation Mathod for Structural Information Mining

2025-09-18

Авторы:

Xiang Xue, Yatu Ji, Qing-dao-er-ji Ren, Bao Shi, Min Lu, Nier Wu, Xufei Zhuang, Haiteng Xu, Gan-qi-qi-ge Cha

## Контекст Научное исследование сосредоточено на развитии методов значимой информационной минимизации при обучении моделей структурной информации, чтобы воспроизводить логику работы технологических систем. Известно, что в настоящее время существуют проблемы с пониманием интерпретации решений в методах учитель-ученик (Logit Knowledge Distillation). Эти проблемы связаны с ограниченной транспарентностью и необходимостью подробного анализа взаимосвязей данных. Одним из вариантов решения является метод **implicit Clustering Distillation (iCD)**, который предлагается как универсальная альтернатива. ## Метод Метод iCD основывается на разделении логических и структурных представлений значений в процессе обучения. Он использует **Gram-матрицы** для хранения информации об элементах входных данных и границах кластеров. В отличие от существующих подходов, iCD не требует подробной интерпретации или алгоритмов для обработки тренировочных данных. Используя локальные логиты модели-учителя, iCD предлагает уникальный подход к извлечению структурной информации без необходимости подготовки дополнительных данных. ## Результаты Результаты экспериментов показали, что iCD эффективен в различных ситуациях, включая тонкую классификацию объектов. Был проведен подробный анализ на выборке данных из разных областей, включая здравоохранение и технические системы. Наиболее заметным был результат на задаче конкретного классификатора, где iCD улучшил показатели базовой модели на **+5.08%**. Этот результат указывает на эффективность iCD в предсказании логических связей и структурных характеристик объектов. ## Значимость Помимо технического преимущества, iCD может применяться в различных областях, включая медицину, промышленность и моделирование технологических систем. Он предоставляет расширенные возможности для качественного анализа логических структур, которые могут улучшить работу моделей в реальном времени. Кроме того, iCD может быть использован в процессе обучения моделей, где необходима повышенная транспарентность и интерпретируемость решений модели. ## Выводы Результаты исследований показали, что iCD является продвинутым методом, который может быть применен для развития систем, требующих точного понимания и интерпретации решений. Изучение его возможностей позволит расширить модели учитель-ученик и обогатить область минимизации информации в моделях машинного обучения. Дальнейшим направлением исследований является усовершенствование iCD для работы с более сложными данными и увеличения его разноплановости в приложениях.

Annotation:

Logit Knowledge Distillation has gained substantial research interest in recent years due to its simplicity and lack of requirement for intermediate feature alignment; however, it suffers from limited interpretability in its decision-making process. To address this, we propose implicit Clustering Distillation (iCD): a simple and effective method that mines and transfers interpretable structural knowledge from logits, without requiring ground-truth labels or feature-space alignment. iCD leverages...

ID: 2509.12553v1 cs.LG, cs.CV

arXiv PDF

📄 Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use

2025-09-18

Авторы:

Yabo Zhang, Yihan Zeng, Qingyun Li, Zhen Hu, Kavin Han, Wangmeng Zuo

## Контекст Большие языковые модели (LLMs) проявляют выдающиеся способности в понимании и разумении текста. Однако они сталкиваются с ограничениями при выполнении реального мирового заданий, которые требуют актуальной знаний, точных операций или специального использования инструментов. Эти ограничения возникают из-за невозможности моделей обновлять свои знания в реальном времени, а также из-за нехватки удостоверенности и эффективности при работе с инструментами. В результате, появилась необходимость в развитии систем, которые могли бы обеспечивать надежную и эффективную работу с инструментами в различных сценариях. Это включает в себя возможность выполнять сложные, многошаговые задачи, интегрировать пользовательские инструменты, а также обеспечивать согласованность в работе в различных этапах. ## Метод Мы предлагаем **Tool-R1** — рамформу reinforcement learning, которая позволяет LLMs выполнять сложные многошаговые задачи с помощью генерации исполняемого кода Python. Рамформа Tool-R1 расширяет модели естественных языков с помощью инструментов и стандартных библиотек, обеспечивая переменную синхронизацию между этапами. Это позволяет создавать более сложные и согласованные рабочие процессы. Чтобы оптимизировать политику, мы используем результатно-ориентированную функцию награды, которая объединяет оценку ответа модели языка и успешность выполнения кода. Для повышения эффективности обучения, мы вводим динамическую очередь семплов, которая позволяет кэшировать и повторно использовать высококачественные траектории, уменьшая стоимость дорогостоящего онлайн-семплирования. ## Результаты Мы проверяли эффективность Tool-R1 на GAIA-benchmark, выполняя многошаговые задачи, включая сложные сценарии, требующие точных операций и интеграции инструментов. Наши результаты показали, что Tool-R1 достигает прироста до 10% в точности и надёжности по сравнению с основными базисами. Эти улучшения особенно заметны при выполнении сложных, многошаговых задач. Этот результат показывает, что Tool-R1 может быть эффективным средством для обеспечения стабильной и точной работы с инструментами в реальных мировых задачах, которые требуют высокой точности и композиционности. ## Значимость Tool-R1 может быть применен в различных областях, где необходимо выполнять сложные задачи, включающие инструменты и композиционные процессы. Например, это может быть полезно в сферах, таких как проектирование, анализ данных, автоматизация рабочих процессов и системы управления домашними устройствами. Преимущества Tool-R1 заключаются в предоставлении улучшенной точности и устойчиво

Annotation:

Large language models (LLMs) have demonstrated strong capabilities in language understanding and reasoning, yet they remain limited when tackling real-world tasks that require up-to-date knowledge, precise operations, or specialized tool use. To address this, we propose Tool-R1, a reinforcement learning framework that enables LLMs to perform general, compositional, and multi-step tool use by generating executable Python code. Tool-R1 supports integration of user-defined tools and standard librar...

ID: 2509.12867v1 cs.LG, cs.CV

arXiv PDF

📄 CrunchLLM: Multitask LLMs for Structured Business Reasoning and Outcome Prediction

2025-09-17

Авторы:

Rabeya Tus Sadia, Qiang Cheng

## Контекст Определение успешности стартапа, то есть достижения экстоформы (акквариума или IPO), является ключевым вопросом в исследованиях по энтрепренериальной деятельности и инновациям. Данные Crunchbase содержат как структурированную информацию (например, раунды финансирования, отрасли, сети инвесторов), так и неструктурированный текст (например, описания компаний). Однако эффективное использование такого гибридного набора данных для прогнозирования выхода стартапов остается сложной задачей. Традиционные методы машинного обучения, ориентированные только на структурированные признаки, обычно демонстрируют умеренную точность. С другой стороны, большие языковые модели (LLMs) обладают сильными возможностями в логическом рассуждении, но сталкиваются с проблемами адаптации к конкретной сфере бизнеса. ## Метод CrunchLLM представляет собой доменно-адаптивную модель языкового моделирования, специализированную для прогнозирования успешности стартапов. Она объединяет структурированные атрибуты компаний, такие как финансовые данные и инвесторские сети, с неструктурированным текстовым контентом, таким как описания компаний. Методология CrunchLLM включает в себя параметрно-эффективную оптимизацию пунктов и техники обобщенного тренирования моделей, чтобы приспособить основные модели языкового моделирования к конкретным задачам в сфере бизнеса. Эта модель активно использует взаимодействие между структурированными и неструктурированными данными, что позволяет повысить точность прогнозирования. ## Результаты Эксперименты проводились на датасете Crunchbase, включающем подробные данные о стартапах и их результатах. Модель CrunchLLM показала точность более 80% при прогнозировании успешности стартапов, что значительно превосходит результаты традиционных классификаторов и других базовых моделей языкового моделирования. Более того, CrunchLLM создает интерпретируемые логические следы, которые объясняют свои прогнозы, обеспечивая деконструкцию и доверие в процессе принятия решений. ## Значимость Результаты модели CrunchLLM имеют практическое применение в таких областях, как финансовая аналитика, инвестиционная стратегия и политика инноваций. Особенно ценным является ее способность обеспечивать прозрачность и доверие в результатах, что крайне важно в сфере финансовых принятий решений. Кроме того, CrunchLLM может стать полезным инструментом для выявления ключевых факторов успеха в стартапах, который будет полезен как для практиков, так и для исследователей. ## Выводы CrunchLLM демонстрирует эффективность адаптации LLMs к конк

Annotation:

Predicting the success of start-up companies, defined as achieving an exit through acquisition or IPO, is a critical problem in entrepreneurship and innovation research. Datasets such as Crunchbase provide both structured information (e.g., funding rounds, industries, investor networks) and unstructured text (e.g., company descriptions), but effectively leveraging this heterogeneous data for prediction remains challenging. Traditional machine learning approaches often rely only on structured fea...

ID: 2509.10698v1 cs.LG, cs.CV

arXiv PDF

1
2
18
19
20
21
22
27
28

Показано 191 - 200 из 277 записей