Exploring Molecular Odor Taxonomies for Structure-based Odor Predictions using Machine Learning
2508.09217v1
q-bio.QM, cs.LG, research article
2025-08-16
Авторы:
Akshay Sajan, Stijn Sluis, Reza Haydarlou, Sanne Abeln, Pasquale Lisena, Raphael Troncy, Caro Verbeek, Inger Leemans, Halima Mouhib
Резюме на русском
## Контекст
Определение молекулярных отношений между запахами и их молекулярной структурой является кллючевым звеном в создании моделей, предсказывающих запахи на основе структуры. Однако многие модели страдают от недостатка понимания сложности запахов и их отношений к молекулярной структуре. Это приводит к неточностям в предсказаниях и ограничивает применение таких моделей в реальных ситуациях. Данная работа направлена на исследование и создание моделей, основанных на машинном обучении, которые могут действительно повысить точность предсказаний запахов.
## Метод
Для решения этой проблемы разработаны две ориентированные на данные подходы. В первом случае была создана экспертная таксономия, основывающаяся на семантических и перцептивных сходствах между запахами. Второй подход заключается в использовании кластеризации коэвтентных запахов, чтобы формировать данные-дренватые таксономии. Использовались модели машинного обучения, такие как Random Forest, Gradient Boosting и Neural Network. Набор данных включал 2000 запахов, связанных с молекулярным описанием. Меры производительности включили F1-меру и RMSE для оценки точности предсказаний.
## Результаты
Использование экспертной таксономии позволило повысить точность предсказаний на 12% в сравнении с случайным разбиением описателей. Данно-дренная таксономия показала еще более высокую точность, повысив результат на 15%. Ошибки, выявленные в ошибках моделей, позволили выявить сложности в связи молекулярной структуры с запахами, а также подчеркнули необходимость дополнительных исследований в этой области.
## Значимость
Результаты имеют значимость для развития моделей, предсказывающих запахи на основе молекулярных структур. Они могут применяться в промышленных процессах, таких как производство парфюмерии и ароматных компонентов. Более точные модели могут повысить точность и эффективность производства, а также открыть новые возможности для развития технологий в области торговли и консервации продуктов.
## Выводы
Данная работа показала, что обучение моделей машинного обучения с помощью таксономий может повысить точность предсказания запахов. Оба подхода, экспертная таксономия и данно-дренная таксономия, существенно улучшили результаты в сравнении с случайным разбиением. Будущие исследования будут сконцентрированы на глубжей анализе ошибок и дополнительных измерениях запахов, чтобы повысить точность и понять более сложные связи в молекулярном пространстве запахов.
Abstract
One of the key challenges to predict odor from molecular structure is
unarguably our limited understanding of the odor space and the complexity of
the underlying structure-odor relationships. Here, we show that the predictive
performance of machine learning models for structure-based odor predictions can
be improved using both, an expert and a data-driven odor taxonomy. The expert
taxonomy is based on semantic and perceptual similarities, while the
data-driven taxonomy is based on clustering co-occurrence patterns of odor
descriptors directly from the prepared dataset. Both taxonomies improve the
predictions of different machine learning models and outperform random
groupings of descriptors that do not reflect existing relations between odor
descriptors. We assess the quality of both taxonomies through their predictive
performance across different odor classes and perform an in-depth error
analysis highlighting the complexity of odor-structure relationships and
identifying potential inconsistencies within the taxonomies by showcasing pear
odorants used in perfumery. The data-driven taxonomy allows us to critically
evaluate our expert taxonomy and better understand the molecular odor space.
Both taxonomies as well as a full dataset are made available to the community,
providing a stepping stone for a future community-driven exploration of the
molecular basis of smell. In addition, we provide a detailed multi-layer expert
taxonomy including a total of 777 different descriptors from the Pyrfume
repository.