Flexible inference of learning rules from de novo learning data using neural networks
2509.04661v1
cs.LG, cs.NE
2025-09-09
Авторы:
Yuhan Helena Liu, Victor Geadah, Jonathan Pillow
Резюме на русском
## Контекст
Изучение как животные учатся, является центральной проблемой в нейронауках, особенно в связи с развитием животных-или человеческих-алгоритмов искусственного интеллекта. Однако многие существующие подходы предполагают определенные параметрические модели для нормализации норм обучения (например, Q-learning, policy gradient) или ограничены в простых задачах, таких как bandit tasks, которые не включают в себя научение новых ввода-вывода совершенно с нуля. Несмотря на это, животные часто должны научиться новым поведениям с нуля, что представляет богатый вызов для науки о познании. Мы стремимся к решению этой проблемы, предлагая фундаментальный подход к оценке норм обучения непосредственно из данных поведения животных в ходе их обучения, что требует моделей норм обучения, достаточно гибких для внедрения субоптимальности, зависимости от истории и разнообразия внешних стимулов без внедрения строгих моделей.
## Метод
Мы предлагаем два модели для оценки норм обучения. Первый - непараметрический, основывается на глубокой нейронной сети (DNN), которая параметризирует подпроцессы норм обучения в каждом эксперименте. Эта модель позволяет представить подвижность и интеграцию внешних стимулов, а также учитывать субоптимальность. Второй модель - рекуррентный (RNN), который добавляет возможность зависимости обновлений норм обучения от истории попыток. Мы проводим эмпирическую валидацию в симуляционных условиях, показывая, что модели могут восстановить значения норм обучения, которые являются знаковыми.
## Результаты
Мы применяем нашу модель к реальным данным из исследований мышей, научающихся выполнять задачи сенсорного принятия решений в течение нескольких недель. Наши модели предсказывали поведение на новых данных, которые не были использованы во время обучения. Оцененные нормы обучения показали асимметричность в обновлениях после удачных и неудачных попыток, а также зависимость от истории попыток, согласующуюся с моделью не-марковского обучения.
## Значимость
Мы предлагаем гибкий фреймворк для оценки норм обучения, который может быть использован в различных научных и прикладных задачах. Наши результаты могут информировать обучение животных в экспериментах, а также помочь в развитии цифровых двойников поведения для моделирования и исследования. Мы также открываем возможности для более детального понимания мозговых механизмов обучения.
## Выводы
Мы представили новую модель для оценки норм обучения, которая может применяться к данным о поведении в ходе де-ново обучения. Наши результаты не только улучшают моделирование поведения, но и открывают пути для повышения
Abstract
Understanding how animals learn is a central challenge in neuroscience, with
growing relevance to the development of animal- or human-aligned artificial
intelligence. However, most existing approaches assume specific parametric
forms for the learning rule (e.g., Q-learning, policy gradient) or are limited
to simplified settings like bandit tasks, which do not involve learning a new
input-output mapping from scratch. In contrast, animals must often learn new
behaviors de novo, which poses a rich challenge for learning-rule inference. We
target this problem by inferring learning rules directly from animal
decision-making data during de novo task learning, a setting that requires
models flexible enough to capture suboptimality, history dependence, and rich
external stimulus integration without strong structural priors. We first
propose a nonparametric framework that parameterizes the per-trial update of
policy weights with a deep neural network (DNN), and validate it by recovering
ground-truth rules in simulation. We then extend to a recurrent variant (RNN)
that captures non-Markovian dynamics by allowing updates to depend on trial
history. Applied to a large behavioral dataset of mice learning a sensory
decision-making task over multiple weeks, our models improved predictions on
held-out data. The inferred rules revealed asymmetric updates after correct
versus error trials and history dependence, consistent with non-Markovian
learning. Overall, these results introduce a flexible framework for inferring
biological learning rules from behavioral data in de novo learning tasks,
providing insights to inform experimental training protocols and the
development of behavioral digital twins.
Ссылки и действия
Дополнительные ресурсы: