Reliable Programmatic Weak Supervision with Confidence Intervals for Label Probabilities

2508.03896v1 stat.ML, cs.LG 2025-08-09
Авторы:

Verónica Álvarez, Santiago Mazuelas, Steven An, Sanjoy Dasgupta

Резюме на русском

#### Контекст Объектом исследования является проблема получения прогнозируемых меток для данных с помощью weak supervision, когда данные сами не помечены. Этот подход использует множество weak labeling functions (LFs), которые дают неточные лейблы или неоднозначные приближения. Такие алгоритмы важно для областей, где ручное маркирование требует больших затрат времени или денег. Однако существующие методы не могут оценивать надежность полученных прогнозов. Это ограничение приводит к недостоверности результатов и их неполному использованию. Мотивация для разработки нового подхода заключается в повышении достоверности прогнозов и оценки их надежности. #### Метод Предлагаемый подход основывается на использовании неопределенности в weak labeling functions. Он использует множества неоднородных распределений, каждое из которых описывает возможные лейблы для каждой функции. Эти множества объединяются в совокупность, которая охватывает все возможные распределения. Это позволяет оценить доверительные интервалы для меток. Метод использует методы нейронных сетей для обучения моделей на основе этих множеств неопределенности. Архитектура решения включает в себя нейронные сети, которые могут обрабатывать множества распределений и генерировать доверительные интервалы для прогнозов. #### Результаты На нескольких бенчмарк-датасетах проведены эксперименты с новым методом и сравнение с текущими технологиями. Результаты показали, что предлагаемый подход дает более точные прогнозы с доверительными интервалами, сравниваясь с существующими методами. Также были проанализированы свойства доверительных интервалов, которые подтвердили их надежность или помогли выявить слабые места. Эти результаты показали, что новый подход значительно улучшает надёжность и практичность weak supervision. #### Значимость Предложенный подход может быть применен в областях машинного обучения, где данные легко получаются, но бюджет на ручное маркирование ограничен. Это включает такие области, как медицина, юриспруденция, искусственный интеллект, где надежные прогнозы необходимы для работы систем. Новый подход даёт способ оценивать надежность меток, что значительно улучшает качество решений, использующих такие методы. Более того, предложенный подход может быть расширен для работы с разнообразными типами данных и задачами. #### Выводы Новый подход, основанный на доверительных интервалах для прогнозов в weak supervision, демонстрирует значительные улучшения по отношению к достоверности и точности. Он показал эффективность на многих датасетах и областях приложений. Будущие работы будут сфокусированы на расширении подхода для работы с более сложными моделями и приклад

Abstract

The accurate labeling of datasets is often both costly and time-consuming. Given an unlabeled dataset, programmatic weak supervision obtains probabilistic predictions for the labels by leveraging multiple weak labeling functions (LFs) that provide rough guesses for labels. Weak LFs commonly provide guesses with assorted types and unknown interdependences that can result in unreliable predictions. Furthermore, existing techniques for programmatic weak supervision cannot provide assessments for the reliability of the probabilistic predictions for labels. This paper presents a methodology for programmatic weak supervision that can provide confidence intervals for label probabilities and obtain more reliable predictions. In particular, the methods proposed use uncertainty sets of distributions that encapsulate the information provided by LFs with unrestricted behavior and typology. Experiments on multiple benchmark datasets show the improvement of the presented methods over the state-of-the-art and the practicality of the confidence intervals presented.

Ссылки и действия