The Self-Execution Benchmark: Measuring LLMs' Attempts to Overcome Their Lack of Self-Execution

2508.12277v1 cs.CL, cs.AI 2025-08-19
Авторы:

Elon Ezra, Ariel Weizman, Amos Azaria

Резюме на русском

## Контекст Large language models (LLMs) становятся все более важной частью технологического ландшафта, применяясь в различных сферах, от поиска информации до создания текстов и даже программирования. Однако несмотря на их мощь, эти модели не могут выполнять сами себя. Они не в состоянии предсказать, какие ответы они дадут на заданные вопросы, или какие свойства их выхода могут возникнуть. Это ограничение в их возможностях становится видно, когда их судят по способности к самостоятельному управлению своим поведением во время работы. Мы исследуем возможность LLMs предсказать свои собственные ответы и выходы, чтобы протестировать их мощь и ограничения. ## Метод Мы предлагаем **Self-Execution Benchmark** (SEB), который оценивает способность моделей предсказать свои собственные ответы. Этот бенчмарк включает задачи, требующие моделей предсказать, например, будет ли ответ сложен для модели, она будет отвечать или отказаться, какие типы связей она может делать. Мы проводим эксперименты с различными моделями разных размеров и способностей, измеряя их возможности сравнивая их с результатами классических моделей. Мы также исследуем, насколько размер модели или её характеристики влияют на результаты. ## Результаты Мы проводили эксперименты с несколькими моделями разных размеров, протестировав их на SEB. Наши результаты показывают, что в большинстве случаев модели предсказывают свои ответы неточно или не очень точно. Мы также обнаружили, что увеличение размера модели не приводит к повышению точности предсказаний. Например, даже модели с большим количеством параметров не всегда способны точно предсказать, какие сложности они могут столкнуться с собой в процессе работы. ## Значимость Эта работа имеет важное значение для понимания ограничений LLMs в предсказании своих процессов работы. Это может привести к развитию новых методов, которые позволят моделям более точно представлять свой собственный поток работы. Эти результаты также могут быть полезны в области самостоятельного управления моделями, где необходимо глубокое понимание модели своих ограничений. ## Выводы Мы установили, что LLMs сейчас не могут точно представлять свои собственные ограничения и свое поведение в процессе работы. Это важное ограничение, которое необходимо устранить, чтобы модели могли более эффективно управлять своим поведением в задачах, требующих самостоятельности. Наша работа открывает путь к будущим исследованиям в области предсказания поведения моделей, где могут быть разработаны новые подходы к обучению и эволюции моделей.

Abstract

Large language models (LLMs) are commonly evaluated on tasks that test their knowledge or reasoning abilities. In this paper, we explore a different type of evaluation: whether an LLM can predict aspects of its own responses. Since LLMs lack the ability to execute themselves, we introduce the Self-Execution Benchmark, which measures a model's ability to anticipate properties of its output, such as whether a question will be difficult for it, whether it will refuse to answer, or what kinds of associations it is likely to produce. Our experiments show that models generally perform poorly on this benchmark, and that increased model size or capability does not consistently lead to better performance. These results suggest a fundamental limitation in how LLMs represent and reason about their own behavior.

Ссылки и действия