Knowledge Integration for Physics-informed Symbolic Regression Using Pre-trained Large Language Models

2509.03036v1 cs.LG, cs.AI, cs.IR, cs.SC 2025-09-05
Авторы:

Bilge Taskin, Wenxiong Xie, Teddy Lazebnik

Резюме на русском

## Контекст Физико-ориентированная символьная регрессия (PiSR) является мощным инструментом для автоматизированного научного открытия, позволяющим выводить уравнения, описывающие физические динамики, из экспериментальных данных. Она обеспечивает объединение математической модели и физических законов, что улучшает общность, точность и понятность полученных уравнений. Однако, существующие методы PiSR часто требуют специальных формализаций и ручного конструирования признаков, что ограничивает их применение, оставляя их доступность ограниченной для широкой кругов научных специалистов. Это приводит к необходимости в развитии методик, которые могут автоматизировать интеграцию доменного знания в процесс PiSR, сделав его более удобным и эффективным для разнообразных научных задач. ## Метод Мы предлагаем интегрировать предварительно обученные большие языковые модели (LLMs) в процесс PiSR для автоматической интеграции доменного знания. Наш подход добавляет новый терм в функцию потерь PiSR, который оценивает символьное уравнение, предложенное символьной регрессией, с помощью LLM. Это позволяет языковой модели анализировать символьное уравнение и выражать свое мнение о его соответствии физическому контексту. Мы использовали методы символьной регрессии DEAP, gplearn и PySR в сочетании с LLMs Falcon, Mistral и LLama 2. Для оценки подхода, мы проводили эксперименты на трех физических динамиках: движении предмета под воздействием гравитации, простым гармоническим движению и электромагнитным волной. ## Результаты Эксперименты показали, что интеграция LLMs в PsiSR повышает точность восстановления физических динамик, улучшает устойчивость моделей к шумам и усложненным данным. Особенно заметно улучшение в ситуациях, когда данные имели большой шум или неоднозначности. Мы также провели исследования воздействия промпто-инжиниринга, то есть того, насколько хорошо формулированы инструкции, предъявляемые модели. Наши результаты показали, что более подробные и информативные промпты могут значительно повысить эффективность решения задач. ## Значимость Наш подход может быть применен в различных областях, где требуется автоматизированное выявление правил и законов, таких как физика, биология, инженерия и даже финансы. Он обеспечивает доступ к более точным и обоснованным моделям, которые могут использоваться для получения новых научных открытий. Кроме того, метод снижает необходимость в ручной работе с моделями, делая их более доступными для научных сообществ, не обладающих особыми знаниями в области машинного обуч

Abstract

Symbolic regression (SR) has emerged as a powerful tool for automated scientific discovery, enabling the derivation of governing equations from experimental data. A growing body of work illustrates the promise of integrating domain knowledge into the SR to improve the discovered equation's generality and usefulness. Physics-informed SR (PiSR) addresses this by incorporating domain knowledge, but current methods often require specialized formulations and manual feature engineering, limiting their adaptability only to domain experts. In this study, we leverage pre-trained Large Language Models (LLMs) to facilitate knowledge integration in PiSR. By harnessing the contextual understanding of LLMs trained on vast scientific literature, we aim to automate the incorporation of domain knowledge, reducing the need for manual intervention and making the process more accessible to a broader range of scientific problems. Namely, the LLM is integrated into the SR's loss function, adding a term of the LLM's evaluation of the SR's produced equation. We extensively evaluate our method using three SR algorithms (DEAP, gplearn, and PySR) and three pre-trained LLMs (Falcon, Mistral, and LLama 2) across three physical dynamics (dropping ball, simple harmonic motion, and electromagnetic wave). The results demonstrate that LLM integration consistently improves the reconstruction of physical dynamics from data, enhancing the robustness of SR models to noise and complexity. We further explore the impact of prompt engineering, finding that more informative prompts significantly improve performance.

Ссылки и действия