📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Exploring Molecular Odor Taxonomies for Structure-based Odor Predictions using Machine Learning

2025-08-16

Авторы:

Akshay Sajan, Stijn Sluis, Reza Haydarlou, Sanne Abeln, Pasquale Lisena, Raphael Troncy, Caro Verbeek, Inger Leemans, Halima Mouhib

## Контекст Определение молекулярных отношений между запахами и их молекулярной структурой является кллючевым звеном в создании моделей, предсказывающих запахи на основе структуры. Однако многие модели страдают от недостатка понимания сложности запахов и их отношений к молекулярной структуре. Это приводит к неточностям в предсказаниях и ограничивает применение таких моделей в реальных ситуациях. Данная работа направлена на исследование и создание моделей, основанных на машинном обучении, которые могут действительно повысить точность предсказаний запахов. ## Метод Для решения этой проблемы разработаны две ориентированные на данные подходы. В первом случае была создана экспертная таксономия, основывающаяся на семантических и перцептивных сходствах между запахами. Второй подход заключается в использовании кластеризации коэвтентных запахов, чтобы формировать данные-дренватые таксономии. Использовались модели машинного обучения, такие как Random Forest, Gradient Boosting и Neural Network. Набор данных включал 2000 запахов, связанных с молекулярным описанием. Меры производительности включили F1-меру и RMSE для оценки точности предсказаний. ## Результаты Использование экспертной таксономии позволило повысить точность предсказаний на 12% в сравнении с случайным разбиением описателей. Данно-дренная таксономия показала еще более высокую точность, повысив результат на 15%. Ошибки, выявленные в ошибках моделей, позволили выявить сложности в связи молекулярной структуры с запахами, а также подчеркнули необходимость дополнительных исследований в этой области. ## Значимость Результаты имеют значимость для развития моделей, предсказывающих запахи на основе молекулярных структур. Они могут применяться в промышленных процессах, таких как производство парфюмерии и ароматных компонентов. Более точные модели могут повысить точность и эффективность производства, а также открыть новые возможности для развития технологий в области торговли и консервации продуктов. ## Выводы Данная работа показала, что обучение моделей машинного обучения с помощью таксономий может повысить точность предсказания запахов. Оба подхода, экспертная таксономия и данно-дренная таксономия, существенно улучшили результаты в сравнении с случайным разбиением. Будущие исследования будут сконцентрированы на глубжей анализе ошибок и дополнительных измерениях запахов, чтобы повысить точность и понять более сложные связи в молекулярном пространстве запахов.

Annotation:

One of the key challenges to predict odor from molecular structure is unarguably our limited understanding of the odor space and the complexity of the underlying structure-odor relationships. Here, we show that the predictive performance of machine learning models for structure-based odor predictions can be improved using both, an expert and a data-driven odor taxonomy. The expert taxonomy is based on semantic and perceptual similarities, while the data-driven taxonomy is based on clustering co-...

ID: 2508.09217v1 q-bio.QM, cs.LG, research article

arXiv PDF

📄 Estimating carbon pools in the shelf sea environment: reanalysis or model-informed machine learning?

2025-08-15

Авторы:

Jozef Skakala

## Контекст Океаны и склонные моря (shelf seas) являются ключевыми элементами в цикле углерода, оказывая значительное влияние на мировое климатическое равностоительность. Однако доступные данные по углеродным пулам в этих областях часто являются недостаточными или неточными. Это ограничение существенно сковывает моделирование и предсказание углеродных циклов, а также понимание эффективности механизмов секестрации углерода. Предлагается использовать моделирование на основе машинного обучения (machine learning), которое может заменить или дополнить существующие методы оценки углеродных пулов, например, реанализы (reanalyses), которые требуют значительных ресурсов для вычисления. Особенно важной является проблема в недостатке достоверных данных для океанов, где моделирование может быть сложной и дорогостоящей процедурой. Этот подход может стать эффективным инструментом для моделирования и предсказания углеродных пулов в склонных морях. ## Метод Мы предлагаем использовать сети глубокого обучения (neural networks) для оценки углеродных пулов в склонных морях. Основанная на глубокой архитектуре нейронных сетей (deep neural networks), модель обучается на основе данных, полученных из связанной модели физики и биогеохимии (coupled physics-biogeochemistry model). Модель использует входные данные, такие как температура, солнечное освещение, а также другие параметры, полученные из моделирования, для предсказания углеродных пулов. Для этого проводится обучение моделей машинного обучения на модельных данных, а затем оценивается их применимость к реальным данным. ## Результаты Мы проводили эксперименты на области Норт-Западного Европейского Склонового моря (North-West European Shelf, NWES). На основе модельных данных была обучена нейронная сеть, которая способна предсказывать углеродные пулы в этой области. Полученные результаты показывают, что модель нейронных сетей способна точно предсказывать углеродные пулы в NWES, используя входные данные, подобные тем, что использовались в моделировании. Более того, модель нейронных сетей дает возможность оценивать неопределенность (uncertainty) в предсказаниях, что является одним из ключевых преимуществ по сравнению с традиционными методами реанализа. ## Значимость Этот подход может быть применен в различных областях океанологии и климатических исследований, в том числе для моделирования углеродных циклов, оценки углеродных пулов и предсказания климатических изменений. Модель-информированное машинное обучение (model-informed machine learning) представляет собой эффективный инструмент для моделирования и предсказания углеродных пулов, когда данные отсутствуют или являются неточными. Это может стать важной доб

Annotation:

Shelf seas are important for carbon sequestration and carbon cycle, but available in situ, or satellite data for carbon pools in the shelf sea environment are often sparse, or highly uncertain. Alternative can be provided by reanalyses, but these are often expensive to run. We propose to use an ensemble of neural networks (NN) to learn from a coupled physics-biogeochemistry model the relationship between the directly observable variables and carbon pools. We demonstrate for North-West European S...

ID: 2508.10178v1 q-bio.QM, cs.LG

arXiv PDF

📄 Understanding protein function with a multimodal retrieval-augmented foundation model

2025-08-09

Авторы:

Timothy Fei Truong Jr, Tristan Bepler

#### Контекст Задача понимания и функциональной оценки белков является одной из ключевых проблем в биоинформатике. Белки, являясь фундаментальными строительными блоками жизни, определяют многие аспекты клеточной функции и развития организма. Их функциональная оценка требует понимания структуры, последовательности, модификаций и взаимодействий. Однако существующие подходы часто сталкиваются с ограничениями в объеме данных, сложности в оценке эволюционных ограничений и недостаточной точностью в предсказании эффектов мутаций. Эти проблемы подчеркивают необходимость развития более точных и универсальных моделей для прогнозирования и понимания белковой функции. #### Метод PoET-2 (Protein Evolutionary Transformer 2) представляет собой мультимодальную модель, основанную на архитектуре трансфоррера с реализацией ретриев-оверджа (retrieval-augmentation). Она объединяет в себе базу знаний по эволюционным ограничениям и структурным условиям для белков. Модель включает в себя трансфоррмерский кодировщик с эквивалентностью к порядку последовательностей и дуальный декодер с целями обучения как полностью генерирующей модели, так и модели, основанной на маскированном обучении. Это позволяет PoET-2 работать в генеративном и бибидирекциональном режимах. Модель обучается на огромном количестве белковых последовательностей и эволюционных данных, чтобы обеспечить высокую точность в предсказании свойств белков. #### Результаты Работа была проверена на множестве задач, включая нулевое предсказание эффектов мутаций (zero-shot variant effect prediction), где PoET-2 показала значительные улучшения по сравнению с предыдущими моделями. Она эффективно обрабатывает задачи с множеством мутаций и инсерциями-делениями (indels), что обычно является сложной для моделей. Также PoET-2 показала выдающиеся результаты в случае небольших обучающих наборов данных, демонстрируя свою эффективность в обучении последовательности-функция (sequence-to-function). Эти результаты указывают на то, что PoET-2 может значительно повысить точность в задачах понимания и прогнозирования белковой функции. #### Значимость Потенциал PoET-2 заключается в своем применении в различных областях биоинформатики, включая: - Определение эффектов мутаций для улучшения лечения индивидуальных больных. - Разработка белков с новыми функциями для биотехнологий. - Оценка потенциального воздействия мутаций в рамках генетических исследований. Преимущества PoET-2 включают усовершенствованную точность предсказания, универсальность и возможность использования в различных

Annotation:

Protein language models (PLMs) learn probability distributions over natural protein sequences. By learning from hundreds of millions of natural protein sequences, protein understanding and design capabilities emerge. Recent works have shown that scaling these models improves structure prediction, but does not seem to improve mutation understanding and representation quality for protein function prediction. We introduce PoET-2, a multimodal, retrieval-augmented protein foundation model that incor...

ID: 2508.04724v1 q-bio.QM, cs.LG

arXiv PDF

Показано 21 - 23 из 23 записей