Not Yet AlphaFold for the Mind: Evaluating Centaur as a Synthetic Participant

2508.07887v1 cs.LG, cs.AI 2025-08-13
Авторы:

Sabrina Namazova, Alessandra Brondetta, Younes Strittmatter, Matthew Nassar, Sebastian Musslick

Резюме на русском

## Контекст Симуляторы (simulators) широко используются в научных исследованиях для моделирования реальных феноменов и ускорения экспериментальных исследований. Особенно удачно это продемонстрировано в химии, где симулятор AlphaFold, получивший Нобелевскую премию, может предсказывать структуру белков на основе аминокислотных последовательностей. Благодаря этому, ученые могут быстро прототипировать взаимодействия молекул, найти цели для лекарств и изучать функции белков. Однако в области психологии и биологии поведения такого успеха еще не было. Бинз и его коллеги представили Centaur, широко используемую модель языка, настроенную на данные от 160 экспериментов. Целью их работы было получение системы, которая могла бы работать как модель развития умственных процессов и симулятор поведения. Однако, несмотря на то, что Centaur достиг высокой точности предсказаний, его поведение отличается от поведения реальных участников, что снижает его ценность в качестве модели и симулятора поведения. Таким образом, Centaur может быть полезен для моделирования, но еще далек от того, чтобы стать верным аналогом человеческого участника в экспериментах. ## Метод Centaur был создан на основе широко известной модели языка (LLM), подвергнутой дополнительной обучению на основе 160 экспериментов. Основная цель этого новый подхода заключается в том, чтобы система могла не только анализировать информацию, но и генерировать поведение, похожее на человеческое. Метод состоял в том, чтобы система прошла подборку на основе человеческих данных, чтобы далее моделировать поведение в различных ситуациях. Однако, несмотря на то, что Centaur может скорее предсказывать поведение, он не должен был быть принят как полноценный симулятор поведения, так как пока не может представлять собой надежное зеркало реальных человеческих процессов. ## Результаты В результате экспериментов Centaur показал высокую точность в предсказании поведения, однако его производительность в тестах, которые отражают поведение реальных участников, оставалась ниже ожидаемого уровня. Несмотря на то, что модель может предсказывать результаты в разных экспериментах с высокой точностью, она не может полностью соответствовать реальному поведению человека в этих тестах. Это отклонение значительно снижает ценность Centaur в качестве модели поведения и симулятора. Из экспериментов также выяснилось, что Centaur не отражает некоторые факторы, которые влияют на поведение человека, например, эмоциональные реакции и контекст. ## Значимость Centaur может быть полезен в определенных областях, например, для моделирования и анализа поведения в некоторых экспериментах. Однако, несмотря на это, он не может быть принят в кач

Abstract

Simulators have revolutionized scientific practice across the natural sciences. By generating data that reliably approximate real-world phenomena, they enable scientists to accelerate hypothesis testing and optimize experimental designs. This is perhaps best illustrated by AlphaFold, a Nobel-prize winning simulator in chemistry that predicts protein structures from amino acid sequences, enabling rapid prototyping of molecular interactions, drug targets, and protein functions. In the behavioral sciences, a reliable participant simulator - a system capable of producing human-like behavior across cognitive tasks - would represent a similarly transformative advance. Recently, Binz et al. introduced Centaur, a large language model (LLM) fine-tuned on human data from 160 experiments, proposing its use not only as a model of cognition but also as a participant simulator for "in silico prototyping of experimental studies", e.g., to advance automated cognitive science. Here, we review the core criteria for a participant simulator and assess how well Centaur meets them. Although Centaur demonstrates strong predictive accuracy, its generative behavior - a critical criterion for a participant simulator - systematically diverges from human data. This suggests that, while Centaur is a significant step toward predicting human behavior, it does not yet meet the standards of a reliable participant simulator or an accurate model of cognition.

Ссылки и действия