Conditional Multidimensional Scaling with Incomplete Conditioning Data
2509.16627v1
stat.ML, cs.LG
2025-09-24
Авторы:
Anh Tuan Bui
Резюме на русском
## Контекст
Пространственные данные часто имеют множество измерений, и их анализ требует эффективных методов для извлечения структуры и понимания связей между данными. Одним из таких методов является многомерная шкалировка, которая преобразует высокомерные данные в низкомерные, сохраняя информацию о расстояниях (или других мерных характеристиках) между объектами. Классические методы многомерной шкалировки, такие как традиционная многомерная шкалировка или стрельновая многомерная шкалировка, требуют полного набора данных о расстояниях. Однако в реальных ситуациях полное наблюдение может быть недоступно из-за проблем сбора данных, ограничений времени или бюджетных ограничений. Такие недостатки могут серьёзно сковывать эффективность и достоверность анализа. Таким образом, есть необходимость в развитии методов, которые могут работать в условиях неполного набора данных, улучшая гибкость и ценность многомерной шкалировки.
## Метод
В этой работе предлагается усовершенствованный подход к многомерной шкалировке, который может работать даже при отсутствии полного набора данных. Метод использует доступные данные о некоторых измерениях для оценки недостающих. Основной идеей является осуществление оценки многомерной шкалировки при условии имеющихся данных, чтобы получить более точную и сигнализирующую низкомерную конфигурацию. Данный подход также включает в себя возможность импутации (заполнения) отсутствующих данных, что позволяет увеличить значимость модели в решении проблемных задач. Алгоритм реализован в виде функции в пакете cml R, который доступен через CRAN. Этот подход может быть применён в различных областях, где данные часто не полны, включая образование, экономику и биологию.
## Результаты
Чтобы проверить эффективность метода, проведены эксперименты на синтетических и реальных данных. Метод протестирован на наборе данных с отсутствующими данными, где используются различные методы оценки, такие как приближение расстояний и оценка точности восстановления. Результаты показали, что метод не только выдаёт точные результаты при наличии полного набора данных, но и существенно улучшает результаты при отсутствии части измерений. Также была проверена возможность импутации, и показано, что модель даёт точные значения для отсутствующих данных, что позволяет улучшить решения проблемных задач.
## Значимость
Этот метод глубоко влияет на работу в области многомерной шкалировки, где полные данные могут быть недоступны. Он позволяет сократить время и стоимость сбора данных, улучшить качество вывода и дать более полное представление о связя
Abstract
Conditional multidimensional scaling seeks for a low-dimensional
configuration from pairwise dissimilarities, in the presence of other known
features. By taking advantage of available data of the known features,
conditional multidimensional scaling improves the estimation quality of the
low-dimensional configuration and simplifies knowledge discovery tasks.
However, existing conditional multidimensional scaling methods require full
data of the known features, which may not be always attainable due to time,
cost, and other constraints. This paper proposes a conditional multidimensional
scaling method that can learn the low-dimensional configuration when there are
missing values in the known features. The method can also impute the missing
values, which provides additional insights of the problem. Computer codes of
this method are maintained in the cml R package on CRAN.
Ссылки и действия
Дополнительные ресурсы: