Flexible inference of learning rules from de novo learning data using neural networks

2509.04661v1 cs.LG, cs.NE 2025-09-09
Авторы:

Yuhan Helena Liu, Victor Geadah, Jonathan Pillow

Резюме на русском

## Контекст Изучение как животные учатся, является центральной проблемой в нейронауках, особенно в связи с развитием животных-или человеческих-алгоритмов искусственного интеллекта. Однако многие существующие подходы предполагают определенные параметрические модели для нормализации норм обучения (например, Q-learning, policy gradient) или ограничены в простых задачах, таких как bandit tasks, которые не включают в себя научение новых ввода-вывода совершенно с нуля. Несмотря на это, животные часто должны научиться новым поведениям с нуля, что представляет богатый вызов для науки о познании. Мы стремимся к решению этой проблемы, предлагая фундаментальный подход к оценке норм обучения непосредственно из данных поведения животных в ходе их обучения, что требует моделей норм обучения, достаточно гибких для внедрения субоптимальности, зависимости от истории и разнообразия внешних стимулов без внедрения строгих моделей. ## Метод Мы предлагаем два модели для оценки норм обучения. Первый - непараметрический, основывается на глубокой нейронной сети (DNN), которая параметризирует подпроцессы норм обучения в каждом эксперименте. Эта модель позволяет представить подвижность и интеграцию внешних стимулов, а также учитывать субоптимальность. Второй модель - рекуррентный (RNN), который добавляет возможность зависимости обновлений норм обучения от истории попыток. Мы проводим эмпирическую валидацию в симуляционных условиях, показывая, что модели могут восстановить значения норм обучения, которые являются знаковыми. ## Результаты Мы применяем нашу модель к реальным данным из исследований мышей, научающихся выполнять задачи сенсорного принятия решений в течение нескольких недель. Наши модели предсказывали поведение на новых данных, которые не были использованы во время обучения. Оцененные нормы обучения показали асимметричность в обновлениях после удачных и неудачных попыток, а также зависимость от истории попыток, согласующуюся с моделью не-марковского обучения. ## Значимость Мы предлагаем гибкий фреймворк для оценки норм обучения, который может быть использован в различных научных и прикладных задачах. Наши результаты могут информировать обучение животных в экспериментах, а также помочь в развитии цифровых двойников поведения для моделирования и исследования. Мы также открываем возможности для более детального понимания мозговых механизмов обучения. ## Выводы Мы представили новую модель для оценки норм обучения, которая может применяться к данным о поведении в ходе де-ново обучения. Наши результаты не только улучшают моделирование поведения, но и открывают пути для повышения

Abstract

Understanding how animals learn is a central challenge in neuroscience, with growing relevance to the development of animal- or human-aligned artificial intelligence. However, most existing approaches assume specific parametric forms for the learning rule (e.g., Q-learning, policy gradient) or are limited to simplified settings like bandit tasks, which do not involve learning a new input-output mapping from scratch. In contrast, animals must often learn new behaviors de novo, which poses a rich challenge for learning-rule inference. We target this problem by inferring learning rules directly from animal decision-making data during de novo task learning, a setting that requires models flexible enough to capture suboptimality, history dependence, and rich external stimulus integration without strong structural priors. We first propose a nonparametric framework that parameterizes the per-trial update of policy weights with a deep neural network (DNN), and validate it by recovering ground-truth rules in simulation. We then extend to a recurrent variant (RNN) that captures non-Markovian dynamics by allowing updates to depend on trial history. Applied to a large behavioral dataset of mice learning a sensory decision-making task over multiple weeks, our models improved predictions on held-out data. The inferred rules revealed asymmetric updates after correct versus error trials and history dependence, consistent with non-Markovian learning. Overall, these results introduce a flexible framework for inferring biological learning rules from behavioral data in de novo learning tasks, providing insights to inform experimental training protocols and the development of behavioral digital twins.

Ссылки и действия