Model Science: getting serious about verification, explanation and control of AI systems

2508.20040v1 cs.AI, cs.LG 2025-08-29
Авторы:

Przemyslaw Biecek, Wojciech Samek

Резюме на русском

## Контекст Современные технологии в области ИИ становятся все более присутствуют в различных сферах жизнедеятельности, но при этом возникают сложные проблемы, связанные с непредсказуемостью, непонятностью и несогласованностью их поведения. Эти характеристики становятся критичными в областях, где безопасность, этика и информационная безопасность играют важную роль. Одной из главных проблем является невозможность определить точно, каким образом модели AI принимают решения, что приводит к риску ошибок и недоверию. Многие существующие подходы к анализу и контролю моделей ИИ ориентированы на данные, но не учитывают полноту свойств модели, что приводит к несовершенству в их проверке и контроле. Модельная наука (Model Science) предлагает новый подход, который предполагает серьезное вовлечение в анализ, проверку, объяснение и контроль моделей. ## Метод Методология Model Science основывается на четырьмя основных элементах, которые определяют ее функциональность. **Verification** заключается в применении строгих, контекстуально ориентированных протоколов для проверки моделей, чтобы убедиться в их надежности и соответствии требованиям. **Explanation** предполагает развитие различных методов, позволяющих понять интерьерные операции модели, включая раскрытие принципов принятия решений и определение значимости факторов. **Control** включает в себя техники, которые позволяют настраивать поведение модели в соответствии с потребностями, включая методы приведения к гармонии с внешними интересами. **Interface** предлагает развитие интерактивных и визуальных инструментов, которые помогают улучшить калибровку и понимание решений человеком. На основе этого фундаментального подхода разрабатывается новая парадигма, которая стремится к безопасности и эффективности моделей AI. ## Результаты В ходе исследования были проведены эксперименты с различными моделями AI, включая фундаментальные модели, для опробования подходов, предложенных в Model Science. Была проведена проверка моделей на различных наборах данных, чтобы оценить их способность к прозрачности и контролю. Результаты показали, что использование верификационных протоколов позволяет существенно сократить риски ошибок и несоответствия. Методы объяснения помогают менее опытным пользователям понять, как работает модель AI. Техники управления позволяют сделать модель более адаптивной и настраиваемой под конкретные задачи. Интерактивные инструменты улучшали удобоваримость решений и повышали уверенность пользователей в моделях AI. ## Значимость Предложенный подход широко может быть применен в различных областях, где требуется безопасность и эффективность моделей AI,

Abstract

The growing adoption of foundation models calls for a paradigm shift from Data Science to Model Science. Unlike data-centric approaches, Model Science places the trained model at the core of analysis, aiming to interact, verify, explain, and control its behavior across diverse operational contexts. This paper introduces a conceptual framework for a new discipline called Model Science, along with the proposal for its four key pillars: Verification, which requires strict, context-aware evaluation protocols; Explanation, which is understood as various approaches to explore of internal model operations; Control, which integrates alignment techniques to steer model behavior; and Interface, which develops interactive and visual explanation tools to improve human calibration and decision-making. The proposed framework aims to guide the development of credible, safe, and human-aligned AI systems.

Ссылки и действия