Fisher information flow in artificial neural networks

2509.02407v1 cs.LG, physics.data-an 2025-09-06

Авторы:

Maximilian Weimar, Lukas M. Rachbauer, Ilya Starshynov, Daniele Faccio, Linara Adilova, Dorian Bouchet, Stefan Rotter

Резюме на русском

## Контекст Анализ и оценка неизвестных параметров из входных данных широко распространены в физике и других областях наук. Оценка этих параметров часто зависит от того, насколько эффективно система сохраняет и передает информацию о неизвестных предметных свойствах. Одним из ключевых показателей эффективности является Fisher information, который измеряет степень передачи информации о параметрах через физическую систему. С растущим применением Artificial Neural Networks (ANNs) в различных задачах, включая визуальный анализ и обработку изображений, возникает необходимость понимания, как эти сети обрабатывают и передают Fisher information. Наша мотивация заключается в разработке метода, позволяющего отслеживать Fisher information flow внутри ANN, чтобы оптимизировать его использование и избежать проблем, таких как overfitting. ## Метод Мы развиваем метод, который позволяет отслеживать Fisher information flow в сети нейронных сетей, действующей в задаче оценки параметров. Метод включает в себя моделирование оптимального flow внутри сети при помощи дифференциальных уравнений и распространения Fisher information от входа до выхода. Мы используем методы линейных систем и нейросетевых анализов, чтобы выявлять внутренний параметрический flow и определять точки максимального и минимального значения Fisher information. Эта модель позволяет отслеживать и оптимизировать систему в реальном времени, определяя момент максимальной эффективности сети. ## Результаты Мы проводим эксперименты на нескольких ANNs с различными архитектурами и задачами, включая задачу оценки параметров на основе изображений. Мы отслеживаем Fisher information flow внутри сетей, проводя анализ в матрицах информационных потоков. Наши результаты показывают, что сети, достигшие оптимального Fisher information flow, достигают наиболее высокой точности в оценке параметров. Мы также проверяем, что при overfitting происходит Fisher information loss, что демонстрируется в наших экспериментах. Наши результаты показывают, что Fisher information flow может быть использован для определения оптимального момента для остановки обучения сети, устраняя необходимость в отдельной validation dataset. ## Значимость Метод, представленный в нашей работе, имеет широкие применения в области оценки параметров в физике и других областях науки, где используются ANNs. Наша работа демонстрирует, что Fisher information flow может быть использован в качестве обоснованного и модельно-свободного метода для оптимизации обучения сетей нейронных сетей. Это позволяет избежать затрат на дополнительные данные для validation, обеспечивая эффективность обучения. Мы также показываем, что наш метод может быть применен к реальным физическим системам, включая задачи визуальной обработки данных, что демонстрирует его практическую значимость. ## Выводы Мы предлагаем м

Abstract

The estimation of continuous parameters from measured data plays a central role in many fields of physics. A key tool in understanding and improving such estimation processes is the concept of Fisher information, which quantifies how information about unknown parameters propagates through a physical system and determines the ultimate limits of precision. With Artificial Neural Networks (ANNs) gradually becoming an integral part of many measurement systems, it is essential to understand how they process and transmit parameter-relevant information internally. Here, we present a method to monitor the flow of Fisher information through an ANN performing a parameter estimation task, tracking it from the input to the output layer. We show that optimal estimation performance corresponds to the maximal transmission of Fisher information, and that training beyond this point results in information loss due to overfitting. This provides a model-free stopping criterion for network training-eliminating the need for a separate validation dataset. To demonstrate the practical relevance of our approach, we apply it to a network trained on data from an imaging experiment, highlighting its effectiveness in a realistic physical setting.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Fisher information flow in artificial neural networks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Learnability Window in Gated Recurrent Neural Networks

Temporal Graph Neural Networks for Early Anomaly Detection and Performance Predi...

GAMMA_FLOW: Guided Analysis of Multi-label spectra by MAtrix Factorization for L...

Detail Across Scales: Multi-Scale Enhancement for Full Spectrum Neural Represent...

Stochastic Clock Attention for Aligning Continuous and Ordered Sequences

Навигация