Locally Pareto-Optimal Interpretations for Black-Box Machine Learning Models

2508.15220v1 cs.LG, cs.AI, cs.LO 2025-08-23

Авторы:

Aniruddha Joshi, Supratik Chakraborty, S Akshay, Shetal Shah, Hazem Torfah, Sanjit Seshia

Резюме на русском

#### Контекст Чтобы развить надежные интерпретации для черных-ящиков машинного обучения, необходимо сбалансировать два взаимоисключающих цели: точность и понятность. Объединение этих целей является ключевым для создания доверяемых интерпретаций. Несмотря на развитие многообъективных подходов к синтезу интерпретаций, многие из них не гарантируют парето-оптимальности результатов. Некоторые методы, обеспечивающие такие гарантии, часто сталкиваются с проблемами масштабируемости при исследовании парето-оптимального пространства. Наша мотивация заключается в развитии методологии, которая обеспечивает парето-оптимальные интерпретации, сочетая скорость вычислений с формальными гарантиями. #### Метод Мы предлагаем фреймворк, основанный на локальных гарантиях оптимальности, для более эффективного синтеза интерпретаций. Метод начинается с использования многообъективных методов, таких как Multi-Objective Monte Carlo Tree Search, для синтеза наилучших вариантов интерпретаций в силу точности и понятности. Затем, используя SAT-решатель, мы проверяем локальную оптимальность каждой интерпретации. Этот подход позволяет быстрее искать интерпретации с формальной гарантией оптимальности, чем методы с глобальными гарантиями. Мы используем несколько бенчмарков для сравнения нашего подхода с другими методами, показывая, что наш метод позволяет получить интерпретации, почти идеально соответствующие глобальным гарантиям, но с меньшим временем работы. #### Результаты Мы проводили эксперименты на нескольких наборах данных, включая стандартные бенчмарки для многообъективных интерпретаций. Наши результаты показывают, что фреймворк обеспечивает очень высокую точность и понятность, приближающуюся к результатам методов с глобальными гарантиями. Эксперименты также показывают, что наш подход значительно эффективнее при синтезе интерпретаций в больших пространствах решений. #### Значимость Модель может быть применена в качестве альтернативы глобальным методам синтеза интерпретаций, но с гораздо более высокой масштабируемостью. Она идеально подходит для задач, где требуется быстрое получение интерпретаций и гарантий парето-оптимальности. Наши результаты открывают новые возможности для достижения более высокого уровня доверия к машинным обучению, особенно в приложениях, требующих прозрачности интерпретации. #### Выводы Мы успешно развили метод, который сочетает в себе локальные гарантии оптимальности и многообъективный подход к интерпретациям чер

Abstract

Creating meaningful interpretations for black-box machine learning models involves balancing two often conflicting objectives: accuracy and explainability. Exploring the trade-off between these objectives is essential for developing trustworthy interpretations. While many techniques for multi-objective interpretation synthesis have been developed, they typically lack formal guarantees on the Pareto-optimality of the results. Methods that do provide such guarantees, on the other hand, often face severe scalability limitations when exploring the Pareto-optimal space. To address this, we develop a framework based on local optimality guarantees that enables more scalable synthesis of interpretations. Specifically, we consider the problem of synthesizing a set of Pareto-optimal interpretations with local optimality guarantees, within the immediate neighborhood of each solution. Our approach begins with a multi-objective learning or search technique, such as Multi-Objective Monte Carlo Tree Search, to generate a best-effort set of Pareto-optimal candidates with respect to accuracy and explainability. We then verify local optimality for each candidate as a Boolean satisfiability problem, which we solve using a SAT solver. We demonstrate the efficacy of our approach on a set of benchmarks, comparing it against previous methods for exploring the Pareto-optimal front of interpretations. In particular, we show that our approach yields interpretations that closely match those synthesized by methods offering global guarantees.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Locally Pareto-Optimal Interpretations for Black-Box Machine Learning Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Expressive Temporal Specifications for Reward Monitoring

Message Passing on the Edge: Towards Scalable and Expressive GNNs

Neural Logic Networks for Interpretable Classification

Навигация