📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Residual Reservoir Memory Networks

2025-08-15

Авторы:

Matteo Pinna, Andrea Ceni, Claudio Gallicchio

## Контекст Residual Reservoir Memory Networks (ResRMNs) — это новая класса необученных рекуррентных нейронных сетей (Recurrent Neural Networks, RNNs), основанная на парадигме Reservoir Computing (RC). Исследование сетей RC направлено на решение задач обработки и анализа временных рядов, которые характеризуются высокой нелинейностью и динамичностью. Традиционные RNNs часто сталкиваются с проблемами во время обучения, такими как vanishing gradients. Reservoir Computing предлагает альтернативный подход, где только нейронный генератор (reservoir) обучается, а веса выходного слоя остаются неизменными. Однако существуют ограничения в способности традиционных RC-моделей к эффективной долгосрочной передаче информации (long-term dependencies). ResRMNs предлагают решение этой проблемы, объединяя линейную память резервуара с нелинейным резервуаром, использующим резидентные ортогональные связи по временной оси для повышения долгосрочной передачи сигнала. ## Метод ResRMNs основываются на идее совмещения линейного резервуара с нелинейным резервуаром. Линейный резервуар обеспечивает широкую разнообразию внутри системы, в то время как нелинейный резервуар с помощью ортогональных связей по временной оси улучшает долгосрочную передачу информации. Эта конфигурация позволяет сети эффективно обрабатывать задачи, требующие высокой точности в долгосрочной зависимости. Архитектура ResRMNs включает в себя несколько ключевых компонентов: линейный резервуар, нелинейный резервуар с ортогональными связями и выходной слой. Методы линейной стабильности используются для исследования динамики состояний резервуара. Эксперименты проводятся на различных наборах данных, включая временные ряды и задачи классификации пикселей. ## Результаты В ходе экспериментов на временных рядах и задачах классификации пикселей ResRMNs показали высокую точность и стабильность. Они существенно превосходят другие модели RC в области долгосрочной передачи сигналов и точности классификации. Использовались различные настройки для ортогональных связей в нелинейном резервуаре, чтобы оптимизировать результаты. Эти результаты подтверждают эффективность ResRMNs в решении задач обработки временных рядов и дальнейшее исследование возможностей этой модели. ## Значимость ResRMNs могут применяться в различных областях, таких как предсказание временных рядов, обработка сигналов и глубокое обучение с долгосрочными зависимостями. Их преимущество в том, что они обеспечивают более стабильную и точную обработку данных в задачах, требующих долгосрочной зависимости. Это делает их полезными для приложений в различных сферах, таких как прогнозирование, робототехника и анализ

Annotation:

We introduce a novel class of untrained Recurrent Neural Networks (RNNs) within the Reservoir Computing (RC) paradigm, called Residual Reservoir Memory Networks (ResRMNs). ResRMN combines a linear memory reservoir with a non-linear reservoir, where the latter is based on residual orthogonal connections along the temporal dimension for enhanced long-term propagation of the input. The resulting reservoir state dynamics are studied through the lens of linear stability analysis, and we investigate d...

ID: 2508.09925v1 cs.LG, cs.AI, I.2.6

arXiv PDF

📄 HSA-Net: Hierarchical and Structure-Aware Framework for Efficient and Scalable Molecular Language Modeling

2025-08-14

Авторы:

Zihang Shao, Wentao Lei, Lei Wang, Wencai Ye, Li Liu

## Контекст Molecular representation learning является основополагающей задачей для решения таких прикладных задач, как молекулярная капшн и предсказание молекулярных свойств. Несмотря на то, что Graph Neural Networks (GNN) стали одним из главных инструментов для этих задач, они сталкиваются со сложностями, в том числе проблемой over-smoothing, когда глубокие слои GNN приводят к схематизации функций узлов. Эта проблема особенно актуальна при работе с глубокими GNN-моделями. Несмотря на введение методов проекции функций с помощью cross-attention, они не всегда эффективно работают в глубоких слоях. Это побудило авторов исследовать альтернативные подходы, включая Граф-Mamba, но даже он не может успешно справиться с взаимодействием глобальных и локальных структур. Другими словами, существует глобально-локальное взаимодействие, которое необходимо учитывать. Мотивируясь этим, авторы предлагают HSA-Net — метод, который решает эту проблему. ## Метод HSA-Net является инновационным фреймворком, основанным на двух модулях. Во-первых, **Hierarchical Adaptive Projector (HAP)** обеспечивает динамическую проекцию функций узлов, используя cross-attention для глубоких слоев и Graph-Mamba для локальных характеристик. Во-вторых, **Source-Aware Fusion (SAF)** включает в себя механизм выбора экспертов, который адаптивно объединяет проекции и учитывает характеристики этих проекций. Это позволяет HSA-Net эффективно объединять глобальные и локальные сведения, которые необходимы для точного и структурированного представления молекул. ## Результаты Данные для экспериментов были получены из различных баз данных, таких как ZINC и QM9. На этих данных HSA-Net показал лучшие результаты по сравнению с состояниями искусства (SOTA) в задачах моделирования языка молекул. Точность предсказания молекулярных свойств и капшнов на порядок была выше. Эти результаты доказывают, что HSA-Net не только улучшает общую точность, но и способствует менее однородному представлению молекул, что важно для сложных задач моделирования. ## Значимость HSA-Net может быть применен в различных областях, включая моделирование молекул, синтез молекул и другие аспекты химического проектирования. Основные преимущества в том, что он устраняет проблемы, связанные с глобально-локальным взаимодействием, и обеспечивает более точное представление молекул. Это может существенно повысить эффективность в таких областях, как молекулярный синтез или предсказание свойств. Будущие исследования могут ориентироваться на расширение HSA-Net для более широкого класса задач, включая биологические системы и стимулированные молекулярные симуляции. ## Выводы HSA-Net устанавливает но

Annotation:

Molecular representation learning, a cornerstone for downstream tasks like molecular captioning and molecular property prediction, heavily relies on Graph Neural Networks (GNN). However, GNN suffers from the over-smoothing problem, where node-level features collapse in deep GNN layers. While existing feature projection methods with cross-attention have been introduced to mitigate this issue, they still perform poorly in deep features. This motivated our exploration of using Mamba as an alternati...

ID: 2508.08334v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 Fuzzy-Pattern Tsetlin Machine

2025-08-14

Авторы:

Artem Hnilov

## Контекст Исследование функционирования и развития методов машинного обучения направлено на улучшение точности, эффективности и гибкости систем. Одним из актуальных направлений является развитие алгоритмов, основанных на использовании логических правил и нечетких множеств. Технологии Tsetlin Machine (TM), опирающиеся на такие принципы, показали себя как эффективные в обработке сложных данных. Однако существующие методы требуют большого количества классов для достижения высокой точности, что ограничивает их применение в реальных ситуациях, требующих быстрого и эффективного обучения. В этом контексте возникала необходимость в разработке альтернативных подходов, которые бы снизили требования к ресурсам и увеличили скорость обучения, не теряя в точности. ## Метод Предлагаемый подход, Fuzzy-Pattern Tsetlin Machine (FPTM), представляет собой расширение стандартной TM, с использованием нечеткой оценки классов. Основное отличие заключается в том, что в отличие от строгого подхода, где класс считается недействительным при ошибке любого из бинарных литералов, нечеткая оценка позволяет каждому литералу вкладывать пропорциональный вклад в оценку класса. Эта нечеткая стратегия делает классы более устойчивыми к ошибкам и позволяет использовать меньшее количество классов, чем в стандартных TM. Такой подход упрощает архитектуру и повышает эффективность обучения, обеспечивая лучшую точность и более низкие требования к памяти и ресурсам. ## Результаты Исследования показали, что FPTM позволяет получать высокую точность с минимальными ресурсами. На IMDb-датасете он достиг 90.15% точности при использовании только одного класса на класс, что является значительным уменьшением по сравнению с традиционными методами. FPTM показал скорость обучения до 316 раз выше, чем у стандартных TM, и требовал значительно меньшего объема памяти. На Fashion-MNIST точность достигла 92.18%, 93.19% и 94.68% при использовании соответственно 2, 20 и 8000 классов. На Amazon Sales dataset с 20% шумом FPTM достиг 85.22%, что значительно превосходит результаты Graph Tsetlin Machine и Graph Convolutional Neural Network. Эта производительность обеспечивается быстрой обработкой данных, что позволяет применять FPTM в реальном времени. ## Значимость Предложенный подход имеет широкие области применения, включая анализ текстов, обработку изображений и задачи рекомендации. В отличие от стандартных методов, FPTM позволяет достигать высокой точности с низкими требованиями к ресурсам, что делает его применимым в ситуациях, требующих эффективной обработки данных в реальном времени. Это открывает возможности для

Annotation:

The "all-or-nothing" clause evaluation strategy is a core mechanism in the Tsetlin Machine (TM) family of algorithms. In this approach, each clause - a logical pattern composed of binary literals mapped to input data - is disqualified from voting if even a single literal fails. Due to this strict requirement, standard TMs must employ thousands of clauses to achieve competitive accuracy. This paper introduces the Fuzzy-Pattern Tsetlin Machine (FPTM), a novel variant where clause evaluation is fuz...

ID: 2508.08350v1 cs.LG, cs.AI

arXiv PDF

📄 C-MAG: Cascade Multimodal Attributed Graphs for Supply Chain Link Prediction

2025-08-14

Авторы:

Yunqing Li, Zixiang Tang, Jiaying Zhuang, Zhenyu Yang, Farhad Ameri, Jianbang Zhang

## Контекст На сегодняшний день, связь производителей с подходящими поставщиками является ключевым фактором для эффективности и устойчивости глобальных цепей поставок. Однако существующие методы сталкиваются с рядом ограничений, включая нехватку точных данных о производителях, недостаточную учету многомерных аспектов, таких как сертификаты, географические ограничения, а также отсутствие интеллектуальной обработки разнообразных типов данных (например, текстовых и изображений). Эти проблемы приводят к неточностям в прогнозировании связей между производителями и поставщиками, что определяет мотивацию для разработки более глубоких и эффективных подходов в этой области. ## Метод C-MAG представляет собой двухэтапную архитектуру, ориентированную на улучшение прогнозирования связей в контексте богатых многомодальных графов. В первом этапе, **Cascade Attributed Graph Embedding (CAGE)**, происходит сбор и агрегация текстовых и визуальных атрибутов в интерфейсные групповые представления. Это достигается с помощью модально-специфических моделей, позволяющих обрабатывать различные типы данных. Во втором этапе, **Multiscale Heterogeneous Graph Propagation (MHGP)**, эти представления распространяются по графу производителей и поставщиков с помощью многоуровневого механизма передачи сообщений. Это позволяет учитывать контекстные связи и повышать точность прогнозирования связей. ## Результаты Исследование было проведено на бенчмарке PMGraph, содержащем 8 888 производителей, 70 000 продуктов, 110 000 связей производитель-продукт и 29 000 изображений продуктов. Эксперименты показали, что C-MAG превосходит существующие подходы в метриках accuracy и F1-score, существенно повышая точность прогнозирования связей. Также были проведены эксперименты для оценки устойчивости модели к шумавым данным, в которых C-MAG подтвердила свою высокую надежность. ## Значимость Результаты C-MAG могут быть применены в различных сферах, включая поиск подходящих поставщиков, оптимизацию цепей поставок и предсказание потенциальных партнерских отношений. Основные преимущества C-MAG заключаются в учете многомодальности, эффективном взаимодействии с графовыми данными и высокой точности в прогнозировании связей. Этот подход может способствовать улучшению процессов принятия решений в глобальных цепях поставок, уменьшению затрат и повышению устойчивости к рискам. ## Выводы C-MAG устанавливает новый порог эффективности в области прогнозирования связей в цепях поставок, используя многомодальные графы. Будущие

Annotation:

Workshop version accepted at KDD 2025 (AI4SupplyChain). Connecting an ever-expanding catalogue of products with suitable manufacturers and suppliers is critical for resilient, efficient global supply chains, yet traditional methods struggle to capture complex capabilities, certifications, geographic constraints, and rich multimodal data of real-world manufacturer profiles. To address these gaps, we introduce PMGraph, a public benchmark of bipartite and heterogeneous multimodal supply-chain graph...

ID: 2508.08071v2 cs.LG, cs.AI, J.1; I.2.4; H.2.8

arXiv PDF

📄 Fast weight programming and linear transformers: from machine learning to neurobiology

2025-08-14

Авторы:

Kazuki Irie, Samuel J. Gershman

## Контекст Область исследования, охватывающая искусственные нейронные сети (АНС), сфокусирована на развитии моделей, эффективных для решения задач машинного обучения, в том числе языкового моделирования. Несмотря на успехы, существуют проблемы, такие как ограниченная способность моделей внимательно относиться к последним данным и неэффективность в памяти. Задача программирования синаптических весов (fast weights) возникла как попытка решить эти проблемы, предлагая модели, которые могут адаптироваться динамически к входным данным. Эти модели, известные как Fast Weight Programmers (FWPs), ориентированы на моделирование синаптической пластичности в мозгу, что делает их полезными как для машинного обучения, так и для понимания принципов работы мозга. ## Метод FWPs — это вид Рекуррентных Нейронных Сетей (RNN), в которых синаптические веса (fast weights) меняются динамически в зависимости от входных данных. Эти веса служат для краткосрочного хранения информации и контролируются другой сетью (программистом), которая обучается с помощью градиентного спуска. Метод заключается в использовании матричной формы синаптических весов, что позволяет эффективно обрабатывать последовательные данные. Архитектура модели включает в себя необходимые узлы для вычисления и обновления весов, а также сеть-программировальный модуль, контролирующий эти изменения. Эта модель требует оптимизации как для сети-программировального модуля, так и для самой FWPs. ## Результаты Эксперименты проводились на различных задачах языкового моделирования, включая задачи с текстовыми данными. Данные были разбиты на подвыборки для обучения и тестирования. Результаты показали, что модель FWPs может эффективно обрабатывать данные, адаптируясь к изменениям в последовательностях и показывая высокую точность в решении задач. Улучшения относились к обнаружению контекста в данных и уменьшению времени обучения по сравнению с традиционными моделями RNN. ## Значимость FWPs имеют широкие применения в машинном обучении, в том числе в моделировании языка, классификации и анализе последовательных данных. Одним из основных преимуществ является их возможность эффективного обращения с динамическими данными, что обеспечивает более гибкую и точную модель. Также, их подход к программированию синаптических весов может быть применен в нейробиологии для изучения синаптической пластичности в мозгу, подчеркивая естественное соответствие между искусственным и натуральным интеллектом. ## Выводы FWPs представляют собой прорыв в области моделей RNN, предоставляя мощные инструменты для решения задач машинного обучения и динамического анализа последовательных данных. Бу

Annotation:

Recent advances in artificial neural networks for machine learning, and language modeling in particular, have established a family of recurrent neural network (RNN) architectures that, unlike conventional RNNs with vector-form hidden states, use two-dimensional (2D) matrix-form hidden states. Such 2D-state RNNs, known as Fast Weight Programmers (FWPs), can be interpreted as a neural network whose synaptic weights (called fast weights) dynamically change over time as a function of input observati...

ID: 2508.08435v1 cs.LG, cs.AI, q-bio.NC

arXiv PDF

📄 M3-Net: A Cost-Effective Graph-Free MLP-Based Model for Traffic Prediction

2025-08-14

Авторы:

Guangyin Jin, Sicong Lai, Xiaoshuai Hao, Mingtao Zhang, Jinlei Zhang

#### Контекст Интеллектуальные системы передвижения требуют точного прогноза трафика для обеспечения безопасности, эффективности и удобства. Однако существующие методы часто полагаются на сложные структуры графов или интерпретируют трафик как поток данных в сетевой модели. Это приводит к высоким затратам на вычисления, сложности в реализации и ограниченности в обработке данных. Такие риски ограничивают применимость глубоких методов в реальных системах. Общей мотивацией является развитие простого, эффективного и точного подхода к прогнозированию трафика, который может легко развернуться в больших системах. #### Метод Модель M3-Net представляет собой простую, но эффективную архитектуру на основе Multilayer Perceptron (MLP). Она использует временные ряды и спатки-временные признаки, обрабатывая их с помощью time-series embeddings и space-time embeddings. Основной инновацией является внедрение MLP-Mixer с механизмом Mixture of Experts (MoE). Этот подход разделяет вычисления между несколькими экспертами, что повышает эффективность и уменьшает требования к вычислительным ресурсам. Модель легко адаптируется к различным типам трафика и может обрабатывать высокомерностьные данные без требования дорогостоящих структур графов. #### Результаты На трёх тестовых датасетах (PEMS-BAY, METR-LA и T-Drive) показатели M3-Net показали значительное превосходство по метрикам MAE, RMSE и MAPE по сравнению с современными моделями. На PEMS-BAY, например, она показала MAE в 1.83, что лучше чем другие модели. Эксперименты проводились с использованием разных длин прогноза, включая 12 и 24 шагов вперёд. Модель также продемонстрировала её высокую эффективность при работе с большим количеством данных, сохраняя низкие затраты на вычисления. #### Значимость M3-Net может быть применена в различных сферах, включая управление трафиком, анализ данных городских систем транспорта и мониторинг транспортной инфраструктуры. Она обеспечивает высокую точность с минимальными требованиями к вычислительным ресурсам, что делает её привлекательной для реального применения. Её можно применить в системах реального времени, где оперативная обработка данных является критически важной. Это делает M3-Net значительной добавлением в область глубокого обучения для трафика. #### Выводы М3-Net демонстрирует значительную эффективность в прогнозировании трафика, обеспечивая сбалансированное соотношение точности и сложности вычислений. Она может легко заменять сложные граф-решения в транспортных системах. Будущее исследование будет сконцентрировано на улучшении модели для более сложных с

Annotation:

Achieving accurate traffic prediction is a fundamental but crucial task in the development of current intelligent transportation systems.Most of the mainstream methods that have made breakthroughs in traffic prediction rely on spatio-temporal graph neural networks, spatio-temporal attention mechanisms, etc. The main challenges of the existing deep learning approaches are that they either depend on a complete traffic network structure or require intricate model designs to capture complex spatio-t...

ID: 2508.08543v1 cs.LG, cs.AI

arXiv PDF

📄 UQGNN: Uncertainty Quantification of Graph Neural Networks for Multivariate Spatiotemporal Prediction

2025-08-14

Авторы:

Dahai Yu, Dingyi Zhuang, Lin Jiang, Rongchao Xu, Xinyue Ye, Yuheng Bu, Shenhao Wang, Guang Wang

#### Контекст Spatiotemporal prediction является ключевым компонентом многих реальных приложений, таких как урбанизация, оптимизация транспортных систем, быстродействие при чрезвычайных ситуациях и контроль эпидемий. Однако, существующие модели детерминированными характеризуются, то есть, они предсказывают только среднее значение без оценки неопределенности. Это может привести к неточным и небезопасным результатам. Несмотря на то, что недавние исследования предложили модели, которые оценивают неопределенность, они ограничиваются одним феноменом, таким как транспорт, криминал или экономические данные. Нет же общих подходов для корреляции различных городских феноменов. Мы предлагаем **UQGNN (Uncertainty Quantification of Graph Neural Networks)**, которая адресует эти проблемы, объединяя прогнозирование и оценку неопределенности в одной модели. #### Метод UQGNN основывается на **Graph Neural Network (GNN)** и включает два ключевых модуля: (i) **Interaction-aware Spatiotemporal Embedding Module**, который использует многомерные диффузионные сверточные сети и сети временной конвульюции для достаточного извлечения зависимостей между пространственными и временными факторами; (ii) **Multivariate Probabilistic Prediction Module**, который оценивает ожидаемые значения и соответствующие неопределенности. Мы используем диффузионную графовую сеть для представления пространственных связей, а временную сеть конвульюции для учета исторических трендов. Модель распределенно построена для предсказания нескольких переменных в пространственно-временном пространстве. #### Результаты Мы проверили UQGNN на четырех реальных датасетах: Shenzhen, New York City, и Chicago, включающих в себя несколько связанных феноменов, таких как транспортные потоки, климат и демография. Наша модель показала значительный выигрыш в прогностической точности и оценке неопределенности по сравнению с состоятельными моделями. На датасете из Shenzhen, например, UQGNN достигла 5% усовершенствований в обеих метриках. Эти результаты подтверждают эффективность модели в объединении учета неопределенности и прогнозирования сложных пространственно-временных явлений. #### Значимость Модель UQGNN может применяться в различных областях, таких как машинное обучение, городская планирования, оптимизация транспорта, и мониторинг экологических явлений. Она предоставляет точные прогнозы и оценивает неопределенность, что улучшает надежность решений. Это значительное улучшение по сравнению с детерминированными моделями. Будущие исследования будут сосредоточены на расширении модели для обработки более высокомасштабных данных и включении более разнообразных феноменов. #### Выводы Мы представили UQGNN, первый под

Annotation:

Spatiotemporal prediction plays a critical role in numerous real-world applications such as urban planning, transportation optimization, disaster response, and pandemic control. In recent years, researchers have made significant progress by developing advanced deep learning models for spatiotemporal prediction. However, most existing models are deterministic, i.e., predicting only the expected mean values without quantifying uncertainty, leading to potentially unreliable and inaccurate outcomes....

ID: 2508.08551v1 cs.LG, cs.AI

arXiv PDF

📄 MiGrATe: Mixed-Policy GRPO for Adaptation at Test-Time

2025-08-14

Авторы:

Peter Phan, Dhruv Agarwal, Kavitha Srinivas, Horst Samulowitz, Pavan Kapanipathi, Andrew McCallum

#### Контекст Много платформенных языковых моделей (LLMs) становятся важной частью решения задач смешанного типа, таких как программная синтезирование, оптимизация молекул и поиск абстрактных решений. Однако применение этих моделей к задачам поиска многоугольников часто сталкивается с проблемами баланса между исследованием новых решений и использованием высокооплачиваемых решений. Традиционные подходы, такие как in-context learning, либо неэффективны в этих задачах, либо требуют большого количества ресурсов для поиска индивидуально настроенных решений. Дополнительно, некоторые методы, такие как test-time training (TTT), широко используются для улучшения решений, но часто требуют ручной подготовки специальной данных, что снижает их выгоду в процессе интеграции. Наша мотивация заключается в создании метода, который использует LLMs для решения сложных задач без необходимости подготовки данных заранее. #### Метод Мы предлагаем метод **MiGrATe** (Mixed-Policy GRPO for Adaptation at Test-Time), который работает как гибкий поисковый алгоритм, используя LLMs в качестве ядра поиска. Метод MiGrATe оперирует с помощью процедуры сборки групп микшированной политики (mixed-policy group construction procedure), которая сочетает в себе два типа сбора данных: greedy sampling (выбор лучших решений из прошлых итераций) и neighborhood sampling (поиск решений, структурно похожих на высокооплачиваемые). Эти две техники дают возможность применить больше внимания к высокооплачиваемым решениям и поддерживать эксплорaцию новых решений при использовании LLMs. Метод MiGrATe также включает в себя применение GRPO (Group Policy Optimization) для оптимизации групповой политики в реальном времени. #### Результаты Мы провели эксперименты на трех реальных задачах: поиск слов, оптимизация молекул и индукция программ+абстракций на датасетом ARC. Метод MiGrATe показал значительное улучшение качества решений в сравнении с традиционными TTT-методами и методами, не использовавшими тестируемую данную. Благодаря использованию смешанных политик в поиске, MiGrATe удалось эффективно оптимизировать решения без необходимости дополнительной подготовки данных, что демонстрирует мощь TTT-подходов для решения задач поиска без внешнего наблюдения. #### Значимость Метод MiGrATe может быть применен в сложных сетевых задачах, таких как оптимизация программ, поиск решений в лабораториях и молекул, а также в области моделирования абстрактных решений. Он предлагает значительные преимущества, включая более эффективное применение LLMs для решения задач без ручной подготовки данных, а также гибкость применения к разнообразным задачам. Метод MiGrATe может иметь будущее в широком спектре приложений, включая лаборатории, где требуется эффективное

Annotation:

Large language models (LLMs) are increasingly being applied to black-box optimization tasks, from program synthesis to molecule design. Prior work typically leverages in-context learning to iteratively guide the model towards better solutions. Such methods, however, often struggle to balance exploration of new solution spaces with exploitation of high-reward ones. Recently, test-time training (TTT) with synthetic data has shown promise in improving solution quality. However, the need for hand-cr...

ID: 2508.08641v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models

2025-08-14

Авторы:

Jiaxin Ju, Yizhen Zheng, Huan Yee Koh, Can Wang, Shirui Pan

#### Контекст Аккуратная предсказание свойств молекул является ключевой проблемой в области химии, материаловедения и наук о лекарствах. Существующие методы, такие как фингерпринты и графовые нейронные сети (GNN), достигли выдающихся результатов, оперируя функциональными признаками молекул. Однако они часто игнорируют значительные объемы семантической и контекстуальной информации, накопленной в течение десятков лет исследований. Недавние достижения в области больших языковых моделей (LLM) показали, что они обладают выдающимися рассудочными способностями и могут применяться к различным задачам в научных дисциплинах. Идея: LLMs могут генерировать богатые представления молекул, если будут способны обобщаться в разных сферах. #### Метод Мы предлагаем $\text{M}^{2}$LLM — продолжение продолжение идеи "многоперспективного" узнавания, которая интегрирует три основных перспективы молекул: 1) микроскопическая — структурная модель, 2) макроскопическая — задачи, с которыми связана молекула, 3) абстрактная — правила, определяющие свойства молекул. Данные представления соединены динамически, чтобы можно было приспособится к разным задачам. Благодаря тому, что LLM генерирует молекулярные представления, характеризующиеся векторами, и применяет расширенные методы рассуждения, $\text{M}^{2}$LLM показывает новый уровень качества в задачах классификации и регрессии. #### Результаты Мы провели эксперименты на нескольких бенчмарках, проверяя $\text{M}^{2}$LLM на задачах классификации и регрессии. Результаты показали, что модель достигла лидирующих показателей, превосходя существующие методы. Особенно выдающимся оказался показатель качества представлений, которые были получены благодаря возможностям LLM в генерации и анализе молекулярных данных. Это демонстрирует, что LLMs могут значительно улучшить обработку и предсказание молекулярных свойств. #### Значимость $\text{M}^{2}$LLM может применяться во многих областях — от науки о лекарствах до материаловедения. Особым преимуществом является ее универсальность и адаптивность к различным задачам. Функциональность, связанная с генерацией и обобщением молекулярных представлений, позволяет получать точные результаты. Это может способствовать развитию новых лекарств, ускорению циклов исследований и повышению эффективности технологий в материаловедении. #### Выводы $\text{M}^{2}$LLM достигает новых высот в предсказании свойств молекул, используя три перспективы и новые возможности LLMs. Будущие исследования будут сфокусированы на повышении точности и о

Annotation:

Accurate molecular property prediction is a critical challenge with wide-ranging applications in chemistry, materials science, and drug discovery. Molecular representation methods, including fingerprints and graph neural networks (GNNs), achieve state-of-the-art results by effectively deriving features from molecular structures. However, these methods often overlook decades of accumulated semantic and contextual knowledge. Recent advancements in large language models (LLMs) demonstrate remarkabl...

ID: 2508.08657v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Generative Modeling for Robust Deep Reinforcement Learning on the Traveling Salesman Problem

2025-08-14

Авторы:

Michael Li, Eric Bae, Christopher Haberland, Natasha Jaques

## Контекст Туристский продавец (TSP) — это классическая задача комбинаторной оптимизации, которая имеет многочисленные практические приложения, включая управление логистическими сетями, геномную обработку и проектирование цепей поставок. Хотя классические интеллектуальные алгоритмы (например, генетические алгоритмы или линейная ассоциация) могут достичь близкой к оптимальности для малых TSP-проблем, они становятся вычислительно нереалистичными для больших проблем. Задачи реального мира, такие как динамическая перепланировка последних миль доставки, требуют решателя с быстрым временем вывода. Исследователи работают над специализированными нейронными сетевыми решениями, однако эти методы часто сталкиваются с проблемами общей применимости. Особенно трудно проблемах генеральной адаптивности в TSP, когда тренировочные данные могут быть недостаточно представительными для реальных распределений. Наша работа направлена на решение этих проблем, создав модель, которая обеспечивает устойчивость к различным распределениям в TSP. ## Метод Мы предлагаем Combinatorial Optimization with Generative Sampling (COGS), метод генерирующей модели для решения TSP. Модель обучается на данных, сгенерированных специальной статистической моделью TSP. Это позволяет добиться более широкого покрытия области возможных распределений в TSP, чем это могло быть в случае использования реальных TSP-проблем. COGS включает в себя алгоритм обучения, который минимизирует потери в тренировочной выборке, а также включает в себя механизм интерполяции для улучшения общей гибкости. Мы также представляем TSPLib50 — новую библиотеку реальных данных TSP, которая позволяет протестировать устойчивость модели к ненатренированным распределениям. Модель оценивается на синтетических TSP-данных и TSPLib50, и её производительность сравнивается с современными нейронными базовыми решениями. ## Результаты Мы проверили COGS на нескольких синтетических данных и на TSPLib50. Наши результаты показали, что COGS превосходит состояние технологий нейронных базовых решений в тестах на робастность распределения. Особенно заметны повышенные результаты в ситуациях стандартного вывода. Мы также показали, что COGS может лучше предсказывать решения в реальных TSP-данных, чем существующие модели. Это демонстрируется на TSPLib50, где COGS показывает существенные улучшения в сравнении с другими современными алгоритмами. Мы также проанализировали, насколько модель может устойчиво решать все возможные проблемы в TSPLib50. ## Значимость Мы предлагаем модель COGS, которая позволяет улучшить устойчивость решений TSP к различным распределениям, что является клю

Annotation:

The Traveling Salesman Problem (TSP) is a classic NP-hard combinatorial optimization task with numerous practical applications. Classic heuristic solvers can attain near-optimal performance for small problem instances, but become computationally intractable for larger problems. Real-world logistics problems such as dynamically re-routing last-mile deliveries demand a solver with fast inference time, which has led researchers to investigate specialized neural network solvers. However, neural netw...

ID: 2508.08718v1 cs.LG, cs.AI

arXiv PDF

1
2
269
270
271
272
273
290
291

Показано 2701 - 2710 из 2901 записей