Hyperbolic Multimodal Representation Learning for Biological Taxonomies
2508.16744v1
cs.LG, cs.CL, cs.CV
2025-08-27
Авторы:
ZeMing Gong, Chuanqi Tang, Xiaoliang Huo, Nicholas Pellegrino, Austin T. Wang, Graham W. Taylor, Angel X. Chang, Scott C. Lowe, Joakim Bruslund Haurum
Резюме на русском
## Контекст
Таксономическая классификация — основной аспект биологических исследований, включающий классификацию биологических образцов в иерархические структуры на основе различных видов доказательств, таких как генетические данные и изображения. Эта задача является важной для таких областей, как экологический мониторинг, выявление новых видов и консервация. Однако существуют сложности с обработкой многомодальных данных и точной классификацией видов, особенно в условиях открытого мира и для выделения тонких различий между видами. Наша мотивация заключается в исследовании возможностей гиперболических сетей для повышения точности и эффективности таксономической классификации, учитывая сложности, связанные с многомодальным пространством.
## Метод
Мы предлагаем протокол обучения, основанный на гиперболических сетях, для создания объединенного пространства для многомодальных данных. Наша модель состоит из двух основных компонент: **а) контрастирующий механизм**, объединяющий изображения и генетические данные в единое пространство, и **б) стековая модель стандартности**, которая учитывает тело знаний и вариации между видами. Мы используем гиперболическую проекцию для эмбединга данных, что позволяет сохранить естественные иерархии в пространстве. Этот подход обеспечивает представление видов, которое учитывает как гетерогенные типы данных, так и структуру таксономической иерархии.
## Результаты
Наши эксперименты проводились на большом датасете BIOSCAN-1M, включающем изображения, генетические данные и текстовые метки для множества видов. Мы сравнили нашу гиперболическую модель с традиционными моделями на основе Евклидова пространства. Наша модель показала высокую точность в классификации большинства видов, а также достигла особенно высокого результата при классификации новых видов, используя DNA-баркоды. Мы также проверили модель на условиях открытого мира, показав, что у нее есть компромиссы в тонкой классификации и в общей гибкости. Однако, гиперболическое пространство демонстрирует более естественное представление иерархии, что улучшает общую точность.
## Значимость
Наш подход имеет широкие применения в области биологии и экологии, включая экологический мониторинг, выявление новых видов и консервационные мероприятия. Он предоставляет более точное и структурированное представление данных, что помогает улучшить выявление новых видов и отслеживание экосистем. Хотя у нас есть ограничения в тонкой классификации и в открытом мире, наш подход является прорывным в построении пространств для таксономических моделей. М
Abstract
Taxonomic classification in biodiversity research involves organizing
biological specimens into structured hierarchies based on evidence, which can
come from multiple modalities such as images and genetic information. We
investigate whether hyperbolic networks can provide a better embedding space
for such hierarchical models. Our method embeds multimodal inputs into a shared
hyperbolic space using contrastive and a novel stacked entailment-based
objective. Experiments on the BIOSCAN-1M dataset show that hyperbolic embedding
achieves competitive performance with Euclidean baselines, and outperforms all
other models on unseen species classification using DNA barcodes. However,
fine-grained classification and open-world generalization remain challenging.
Our framework offers a structure-aware foundation for biodiversity modelling,
with potential applications to species discovery, ecological monitoring, and
conservation efforts.
Ссылки и действия
Дополнительные ресурсы: