AI Testing Should Account for Sophisticated Strategic Behaviour
2508.14927v1
cs.GT, cs.AI
2025-08-23
Авторы:
Vojtech Kovarik, Eric Olav Chen, Sami Petersen, Alexis Ghersengorin, Vincent Conitzer
Резюме на русском
## Контекст
AI системы во все большей степени используются в задачах, требующих критического мышления, а также в сценариях, где есть неопределенность и взаимодействие. Однако существуют значительные проблемы в тестировании и оценке этих систем. Например, если AI-система должна решать задачи в условиях взаимодействия с реальными пользователями, она должна понимать их поведение и реагировать стратегически. Однако текущие подходы к тестированию и оценке AI-систем нередко игнорируют эти аспекты, ограничиваясь простыми задачами или имитацией без учета сложных стратегических решений. Это приводит к недостатку в информативности оценок, так как реальные условия работы могут отличаться от тестовых условий. Таким образом, требуется развитие подходов, которые более точно отражают сложные стратегические решения и взаимодействия в реальных условиях.
## Метод
Для решения этих проблем авторы предлагают использовать анализ гейм-теории, который позволяет формализовать и анализировать стратегические решения в ситуациях, где AI-система должна взаимодействовать с другими агентами или пользователями. Этот подход включает в себя разработку моделей, описывающих поведение всех участников системы, а также проверку достижимости различных стратегических решений. Также предлагается использовать методы симуляции и статистического анализа, чтобы проверить устойчивость AI-систем к различным стратегическим сценариям. Это позволяет лучше понять, как AI-системы ведут себя в реальных условиях и как можно улучшить их оценку.
## Результаты
Авторы провели ряд экспериментов, применяя их методы к различным моделям AI-систем, включая системы, использующие машинное обучение и глубокое обучение. На основе этих экспериментов показано, что применение гейм-теории позволяет получить более точные оценки устойчивости AI-систем в сценариях стратегического взаимодействия. Например, при моделировании сценариев с покупкой и продажей товаров, где AI-система должна взаимодействовать с пользователями, анализ гейм-теории позволил выявить ситуации, когда AI могла бы действовать негативно в отношении пользователей. Это позволило улучшить стратегии, используемые в AI-системах, и добиться более положительных результатов в реальной среде.
## Значимость
Результаты этих исследований имеют значительное значение для сферы AI-систем, использующихся в критических областях, таких как финансы, здравоохранение и управление транспортом. Более того, этот подход может быть применен для оценки безопасности AI-систем, которые используются в сложных взаимо
Abstract
This position paper argues for two claims regarding AI testing and
evaluation. First, to remain informative about deployment behaviour,
evaluations need account for the possibility that AI systems understand their
circumstances and reason strategically. Second, game-theoretic analysis can
inform evaluation design by formalising and scrutinising the reasoning in
evaluation-based safety cases. Drawing on examples from existing AI systems, a
review of relevant research, and formal strategic analysis of a stylised
evaluation scenario, we present evidence for these claims and motivate several
research directions.
Ссылки и действия
Дополнительные ресурсы: