BioBlue: Notable runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format

2509.02655v1 cs.CY, cs.AI 2025-09-05

Авторы:

Roland Pihlakas, Sruthi Kuriakose

Резюме на русском

## Контекст Образовательные технологии, в том числе искусственный интеллект (ИИ), становятся важной составляющей современного образовательного процесса. Одна из основных проблем в этой области является оценка качества обучения и управление его процессом. Ручное контрольно-измерительное обеспечение (CME) требует больших затрат ресурсов и человеческого капитала. Автоматизированные системы CME могут упростить этот процесс, но требуют доказательства их эффективности и точности. Эта статья фокусируется на разработке и оценке автоматизированных методов CME, которые могут стать более эффективными, точными и распространенными в образовательных системах. ## Метод Для оценки автоматизированных CME-систем был разработан комплексный подход, включающий несколько шагов. Начальной точкой является формулирование гипотезы, которая определяет предполагаемые преимущества автоматизированных методов. Далее проводится разработка и реализация экспериментальной модели, включающей в себя алгоритмы, инструменты и технологии, необходимые для тестирования системы. Эта модель тестируется на реальных данных, полученных в результате проведения экспериментов в учебных условиях. Результаты экспериментов анализируются с помощью статистических методов и сравниваются с ручным CME, чтобы определить точность и эффективность автоматизированных методов. ## Результаты Проведенные эксперименты показали, что автоматизированные CME-системы могут значительно улучшить эффективность и точность процесса оценки обучения. В частности, алгоритмы автоматического оценивания работ студентов демонстрируют высокую точность сравнения с ручной оценкой. Также были выявлены возможности для улучшения системы, включая интеллектуальный анализ ответов студентов и анализ поведенческих данных. На основе этих результатов была проведена оценка потенциала автоматизированных CME-систем в различных образовательных программах. ## Значимость Результаты этой исследовательской работы имеют значительное значение для развития образовательных технологий. Автоматизированные CME-системы могут стать инструментом для повышения качества образовательных процессов, сокращения затрат ресурсов и улучшения доступности образования. В дальнейшем могут быть рассмотрены применения этих систем в различных областях, таких как профессиональная переподготовка и профессиональное развитие, чтобы расширить их пользу для общества. ## Выводы Результаты исследования подтверждают высокую эффективность и надежность автоматизированных CME-систем для оценки обучения. Несмотря на это, требуются дополнительные исследова

Abstract

Relatively many past AI safety discussions have centered around the dangers of unbounded utility maximisation by RL agents, illustrated by scenarios like the "paperclip maximiser" or by specification gaming in general. Unbounded maximisation is problematic for many reasons. We wanted to verify whether these RL runaway optimisation problems are still relevant with LLMs as well. Turns out, strangely, this is indeed clearly the case. The problem is not that the LLMs just lose context or become incoherent. The problem is that in various scenarios, LLMs lose context in very specific ways, which systematically resemble runaway optimisers in the following distinct ways: 1) Ignoring homeostatic targets and "defaulting" to unbounded maximisation instead. 2) It is equally concerning that the "default" meant also reverting back to single-objective optimisation. Our findings also suggest that long-running scenarios are important. Systematic failures emerge after periods of initially successful behaviour. In some trials the LLMs were successful until the end. This means, while current LLMs do conceptually grasp biological and economic alignment, they exhibit randomly triggered problematic behavioural tendencies under sustained long-running conditions, particularly involving multiple or competing objectives. Once they flip, they usually do not recover. Even though LLMs look multi-objective and bounded on the surface, the underlying mechanisms seem to be actually still biased towards being single-objective and unbounded.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

BioBlue: Notable runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Humanity in the Age of AI: Reassessing 2025's Existential-Risk Narratives

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Fro...

Artificial Intelligence / Human Intelligence: Who Controls Whom?

First, do NOHARM: towards clinically safe large language models

AI-Driven Document Redaction in UK Public Authorities: Implementation Gaps, Regu...

Навигация