Reliable Programmatic Weak Supervision with Confidence Intervals for Label Probabilities
2508.03896v1
stat.ML, cs.LG
2025-08-09
Авторы:
Verónica Álvarez, Santiago Mazuelas, Steven An, Sanjoy Dasgupta
Резюме на русском
#### Контекст
Объектом исследования является проблема получения прогнозируемых меток для данных с помощью weak supervision, когда данные сами не помечены. Этот подход использует множество weak labeling functions (LFs), которые дают неточные лейблы или неоднозначные приближения. Такие алгоритмы важно для областей, где ручное маркирование требует больших затрат времени или денег. Однако существующие методы не могут оценивать надежность полученных прогнозов. Это ограничение приводит к недостоверности результатов и их неполному использованию. Мотивация для разработки нового подхода заключается в повышении достоверности прогнозов и оценки их надежности.
#### Метод
Предлагаемый подход основывается на использовании неопределенности в weak labeling functions. Он использует множества неоднородных распределений, каждое из которых описывает возможные лейблы для каждой функции. Эти множества объединяются в совокупность, которая охватывает все возможные распределения. Это позволяет оценить доверительные интервалы для меток. Метод использует методы нейронных сетей для обучения моделей на основе этих множеств неопределенности. Архитектура решения включает в себя нейронные сети, которые могут обрабатывать множества распределений и генерировать доверительные интервалы для прогнозов.
#### Результаты
На нескольких бенчмарк-датасетах проведены эксперименты с новым методом и сравнение с текущими технологиями. Результаты показали, что предлагаемый подход дает более точные прогнозы с доверительными интервалами, сравниваясь с существующими методами. Также были проанализированы свойства доверительных интервалов, которые подтвердили их надежность или помогли выявить слабые места. Эти результаты показали, что новый подход значительно улучшает надёжность и практичность weak supervision.
#### Значимость
Предложенный подход может быть применен в областях машинного обучения, где данные легко получаются, но бюджет на ручное маркирование ограничен. Это включает такие области, как медицина, юриспруденция, искусственный интеллект, где надежные прогнозы необходимы для работы систем. Новый подход даёт способ оценивать надежность меток, что значительно улучшает качество решений, использующих такие методы. Более того, предложенный подход может быть расширен для работы с разнообразными типами данных и задачами.
#### Выводы
Новый подход, основанный на доверительных интервалах для прогнозов в weak supervision, демонстрирует значительные улучшения по отношению к достоверности и точности. Он показал эффективность на многих датасетах и областях приложений. Будущие работы будут сфокусированы на расширении подхода для работы с более сложными моделями и приклад
Abstract
The accurate labeling of datasets is often both costly and time-consuming.
Given an unlabeled dataset, programmatic weak supervision obtains probabilistic
predictions for the labels by leveraging multiple weak labeling functions (LFs)
that provide rough guesses for labels. Weak LFs commonly provide guesses with
assorted types and unknown interdependences that can result in unreliable
predictions. Furthermore, existing techniques for programmatic weak supervision
cannot provide assessments for the reliability of the probabilistic predictions
for labels. This paper presents a methodology for programmatic weak supervision
that can provide confidence intervals for label probabilities and obtain more
reliable predictions. In particular, the methods proposed use uncertainty sets
of distributions that encapsulate the information provided by LFs with
unrestricted behavior and typology. Experiments on multiple benchmark datasets
show the improvement of the presented methods over the state-of-the-art and the
practicality of the confidence intervals presented.
Ссылки и действия
Дополнительные ресурсы: