Robust and Adaptive Spectral Method for Representation Multi-Task Learning with Contamination
2509.06575v1
stat.ML, cs.LG, stat.ME
2025-09-10
Авторы:
Yian Huang, Yang Feng, Zhiliang Ying
Резюме на русском
## Контекст
Работа посвящена развитию методов многозадачного обучения (MTL), которые стремятся эффективно обучать несколько задач одновременно, совместно используя структуру, общую для всех задач. Однако, практическое применение таких методов часто ограничивается существующими проблемами, такими как наличие контamination (выбросов или адверсарных задач), неоднородность задач и недостаток предварительной информации о зависимости между задачами. Существующие подходы, в том числе и теоретические, часто основываются на предположении о чистых данных или незначительном количестве контamination. Фактический выбор в реальных ситуациях часто становится нарушенным, что приводит к подрыву эффективности таких методов. Целью данной работы является разработка метода, который может эффективно быть применен в ситуациях с подложенными задачами, незначительным количеством контamination и неоднородностью внутри задач.
## Метод
Разработанный метод, Robust and Adaptive Spectral (RAS), является адаптивным и устойчивым по отношению к контamination. Он основывается на использовании спектральных методов для выделения основной группы взаимосвязанных задач, а также на адаптивном контроле того, как зависимость между задачами может быть выражена в данных. Метод не требует предварительного знания о количестве контamination или размерности общего пространства, что делает его универсальным и легким в реализации. Основной идеей заключается в том, что RAS адаптивно извлекает информацию из данных, не поддающихся влиянию контamination, и сохраняет точность, необходимую для эффективного обучения.
## Результаты
Эксперименты для проверки подхода RAS проводились на различных синтетических и реальных данных, включая задачи классификации и регрессии. Для этих задач были созданы ситуации с разным уровнем контamination, включая адверсарные задачи и незначительность основного вклада задач. Результаты показали, что RAS показывает высокую точность и устойчивость, даже при 80% контamination. Также было проведено сравнение с другими подходами в MTL, показав преимущества RAS в области сильно загрязненных данных.
## Значимость
Разработанный подход имеет широкие применения в области многозадачного обучения, где требуется хранить эффективность даже при высоком количестве контamination. Он может применяться в различных сферах, таких как обработка языка, моделирование экономических данных, и даже медицинской интеллектуальной обработке данных. Основное преимущество RAS заключается в его устойчивости к загрязненным данным, что позволяет избежать негативного переобучения, которое может быть вызвано контamination. Это открывает новые возможности для применения MTL в реальных, часто за
Abstract
Representation-based multi-task learning (MTL) improves efficiency by
learning a shared structure across tasks, but its practical application is
often hindered by contamination, outliers, or adversarial tasks. Most existing
methods and theories assume a clean or near-clean setting, failing when
contamination is significant. This paper tackles representation MTL with an
unknown and potentially large contamination proportion, while also allowing for
heterogeneity among inlier tasks. We introduce a Robust and Adaptive Spectral
method (RAS) that can distill the shared inlier representation effectively and
efficiently, while requiring no prior knowledge of the contamination level or
the true representation dimension. Theoretically, we provide non-asymptotic
error bounds for both the learned representation and the per-task parameters.
These bounds adapt to inlier task similarity and outlier structure, and
guarantee that RAS performs at least as well as single-task learning, thus
preventing negative transfer. We also extend our framework to transfer learning
with corresponding theoretical guarantees for the target task. Extensive
experiments confirm our theory, showcasing the robustness and adaptivity of
RAS, and its superior performance in regimes with up to 80\% task
contamination.