Fisher information flow in artificial neural networks
2509.02407v1
cs.LG, physics.data-an
2025-09-06
Авторы:
Maximilian Weimar, Lukas M. Rachbauer, Ilya Starshynov, Daniele Faccio, Linara Adilova, Dorian Bouchet, Stefan Rotter
Резюме на русском
## Контекст
Анализ и оценка неизвестных параметров из входных данных широко распространены в физике и других областях наук. Оценка этих параметров часто зависит от того, насколько эффективно система сохраняет и передает информацию о неизвестных предметных свойствах. Одним из ключевых показателей эффективности является Fisher information, который измеряет степень передачи информации о параметрах через физическую систему. С растущим применением Artificial Neural Networks (ANNs) в различных задачах, включая визуальный анализ и обработку изображений, возникает необходимость понимания, как эти сети обрабатывают и передают Fisher information. Наша мотивация заключается в разработке метода, позволяющего отслеживать Fisher information flow внутри ANN, чтобы оптимизировать его использование и избежать проблем, таких как overfitting.
## Метод
Мы развиваем метод, который позволяет отслеживать Fisher information flow в сети нейронных сетей, действующей в задаче оценки параметров. Метод включает в себя моделирование оптимального flow внутри сети при помощи дифференциальных уравнений и распространения Fisher information от входа до выхода. Мы используем методы линейных систем и нейросетевых анализов, чтобы выявлять внутренний параметрический flow и определять точки максимального и минимального значения Fisher information. Эта модель позволяет отслеживать и оптимизировать систему в реальном времени, определяя момент максимальной эффективности сети.
## Результаты
Мы проводим эксперименты на нескольких ANNs с различными архитектурами и задачами, включая задачу оценки параметров на основе изображений. Мы отслеживаем Fisher information flow внутри сетей, проводя анализ в матрицах информационных потоков. Наши результаты показывают, что сети, достигшие оптимального Fisher information flow, достигают наиболее высокой точности в оценке параметров. Мы также проверяем, что при overfitting происходит Fisher information loss, что демонстрируется в наших экспериментах. Наши результаты показывают, что Fisher information flow может быть использован для определения оптимального момента для остановки обучения сети, устраняя необходимость в отдельной validation dataset.
## Значимость
Метод, представленный в нашей работе, имеет широкие применения в области оценки параметров в физике и других областях науки, где используются ANNs. Наша работа демонстрирует, что Fisher information flow может быть использован в качестве обоснованного и модельно-свободного метода для оптимизации обучения сетей нейронных сетей. Это позволяет избежать затрат на дополнительные данные для validation, обеспечивая эффективность обучения. Мы также показываем, что наш метод может быть применен к реальным физическим системам, включая задачи визуальной обработки данных, что демонстрирует его практическую значимость.
## Выводы
Мы предлагаем м
Abstract
The estimation of continuous parameters from measured data plays a central
role in many fields of physics. A key tool in understanding and improving such
estimation processes is the concept of Fisher information, which quantifies how
information about unknown parameters propagates through a physical system and
determines the ultimate limits of precision. With Artificial Neural Networks
(ANNs) gradually becoming an integral part of many measurement systems, it is
essential to understand how they process and transmit parameter-relevant
information internally. Here, we present a method to monitor the flow of Fisher
information through an ANN performing a parameter estimation task, tracking it
from the input to the output layer. We show that optimal estimation performance
corresponds to the maximal transmission of Fisher information, and that
training beyond this point results in information loss due to overfitting. This
provides a model-free stopping criterion for network training-eliminating the
need for a separate validation dataset. To demonstrate the practical relevance
of our approach, we apply it to a network trained on data from an imaging
experiment, highlighting its effectiveness in a realistic physical setting.
Ссылки и действия
Дополнительные ресурсы: