Beyond Visual Similarity: Rule-Guided Multimodal Clustering with explicit domain rules

2509.20501v1 cs.LG, cs.CV 2025-09-26
Авторы:

Kishor Datta Gupta, Mohd Ariful Haque, Marufa Kamal, Ahmed Rafi Hasan, Md. Mahfuzur Rahman, Roy George

Резюме на русском

## Контекст Область исследования связана с развитием методов кластеризации для решения проблем, возникающих при использовании традиционных подходов. Традиционные методы кластеризации основываются на сходстве входных данных, ограничивая способность поймать структурные и семантические характеристики, которые крайне важны во многих прикладных областях. Недостаток этих методов приводит к моделям, которые либо неточны в понимании семантики данных, либо неэффективны в некоторых прикладных задачах. Эти проблемы мотивируют разработку более рациональных подходов, которые могут учитывать дополнительные знания о домене и автоматически включать их в процесс кластеризации. ## Метод Для решения вышеуказанных проблем предлагается новая методология, которая интегрирует правила домена в процесс обучения. Фреймворк, названный Domain Aware Rule Triggered Variational Autoencoder (DARTVAE), является правило-ориентированным многомодальным фреймворком кластеризации. Он включает в себя доменные консервативные ограничения непосредственно в процессе вывода представления. DARTVAE продвигает архитектуру VAE, включив в нее правила домена, семантические представления и данные в единую латентную плоскость. Для соблюдения этих правил включена функция потерь, которая включает в себя меру реконструкции, дивергенцию Кульбака-Лейблера, согласованность и нарушения правил. Это отличает DARTVAE от других методов, которые либо игнорируют правила во время обучения, либо применяют их как пост-обработку. В DARTVAE правила становятся первостепенными сигналами обучения, что позволяет декодировать более оперативно интерпретируемые кластеры. ## Результаты Эксперименты проводились на данных с высокой разнообразием по применениям, в том числе с данными об авиационных технологиях и автомобильных технологиях. Результаты показали, что DARTVAE позволяет создавать более оперативно понятные кластеры. Например, он может отделять летательные аппараты без наблюдателя (UAVs), объединять воедино самолеты с пониженным радиовозможностью (stealth aircraft) и разделять кроссоверы (SUVs) от седанов. Эти результаты не только соответствуют оперативным потребностям, но и повышают метрики кластеризации, которые обычно используются для оценки качества. Однако DARTVAE имеет некоторые ограничения. Например, генерируемые с помощью Лангуажных Моделей (LLMs) правила могут быть неточными или противоречивыми, что может повлиять на качество кластеризации. Кроме того, слишком много правил может привести к переобучению модели. Несмотря на это, DARTVAE показывает сильные результаты в области кластеризации, где требуется глубокое понимание домена. ## Значимость DARTVAE может бы

Abstract

Traditional clustering techniques often rely solely on similarity in the input data, limiting their ability to capture structural or semantic constraints that are critical in many domains. We introduce the Domain Aware Rule Triggered Variational Autoencoder (DARTVAE), a rule guided multimodal clustering framework that incorporates domain specific constraints directly into the representation learning process. DARTVAE extends the VAE architecture by embedding explicit rules, semantic representations, and data driven features into a unified latent space, while enforcing constraint compliance through rule consistency and violation penalties in the loss function. Unlike conventional clustering methods that rely only on visual similarity or apply rules as post hoc filters, DARTVAE treats rules as first class learning signals. The rules are generated by LLMs, structured into knowledge graphs, and enforced through a loss function combining reconstruction, KL divergence, consistency, and violation penalties. Experiments on aircraft and automotive datasets demonstrate that rule guided clustering produces more operationally meaningful and interpretable clusters for example, isolating UAVs, unifying stealth aircraft, or separating SUVs from sedans while improving traditional clustering metrics. However, the framework faces challenges: LLM generated rules may hallucinate or conflict, excessive rules risk overfitting, and scaling to complex domains increases computational and consistency difficulties. By combining rule encodings with learned representations, DARTVAE achieves more meaningful and consistent clustering outcomes than purely data driven models, highlighting the utility of constraint guided multimodal clustering for complex, knowledge intensive settings.

Ссылки и действия