Knowledge Integration for Physics-informed Symbolic Regression Using Pre-trained Large Language Models
2509.03036v1
cs.LG, cs.AI, cs.IR, cs.SC
2025-09-05
Авторы:
Bilge Taskin, Wenxiong Xie, Teddy Lazebnik
Резюме на русском
## Контекст
Физико-ориентированная символьная регрессия (PiSR) является мощным инструментом для автоматизированного научного открытия, позволяющим выводить уравнения, описывающие физические динамики, из экспериментальных данных. Она обеспечивает объединение математической модели и физических законов, что улучшает общность, точность и понятность полученных уравнений. Однако, существующие методы PiSR часто требуют специальных формализаций и ручного конструирования признаков, что ограничивает их применение, оставляя их доступность ограниченной для широкой кругов научных специалистов. Это приводит к необходимости в развитии методик, которые могут автоматизировать интеграцию доменного знания в процесс PiSR, сделав его более удобным и эффективным для разнообразных научных задач.
## Метод
Мы предлагаем интегрировать предварительно обученные большие языковые модели (LLMs) в процесс PiSR для автоматической интеграции доменного знания. Наш подход добавляет новый терм в функцию потерь PiSR, который оценивает символьное уравнение, предложенное символьной регрессией, с помощью LLM. Это позволяет языковой модели анализировать символьное уравнение и выражать свое мнение о его соответствии физическому контексту. Мы использовали методы символьной регрессии DEAP, gplearn и PySR в сочетании с LLMs Falcon, Mistral и LLama 2. Для оценки подхода, мы проводили эксперименты на трех физических динамиках: движении предмета под воздействием гравитации, простым гармоническим движению и электромагнитным волной.
## Результаты
Эксперименты показали, что интеграция LLMs в PsiSR повышает точность восстановления физических динамик, улучшает устойчивость моделей к шумам и усложненным данным. Особенно заметно улучшение в ситуациях, когда данные имели большой шум или неоднозначности. Мы также провели исследования воздействия промпто-инжиниринга, то есть того, насколько хорошо формулированы инструкции, предъявляемые модели. Наши результаты показали, что более подробные и информативные промпты могут значительно повысить эффективность решения задач.
## Значимость
Наш подход может быть применен в различных областях, где требуется автоматизированное выявление правил и законов, таких как физика, биология, инженерия и даже финансы. Он обеспечивает доступ к более точным и обоснованным моделям, которые могут использоваться для получения новых научных открытий. Кроме того, метод снижает необходимость в ручной работе с моделями, делая их более доступными для научных сообществ, не обладающих особыми знаниями в области машинного обуч
Abstract
Symbolic regression (SR) has emerged as a powerful tool for automated
scientific discovery, enabling the derivation of governing equations from
experimental data. A growing body of work illustrates the promise of
integrating domain knowledge into the SR to improve the discovered equation's
generality and usefulness. Physics-informed SR (PiSR) addresses this by
incorporating domain knowledge, but current methods often require specialized
formulations and manual feature engineering, limiting their adaptability only
to domain experts. In this study, we leverage pre-trained Large Language Models
(LLMs) to facilitate knowledge integration in PiSR. By harnessing the
contextual understanding of LLMs trained on vast scientific literature, we aim
to automate the incorporation of domain knowledge, reducing the need for manual
intervention and making the process more accessible to a broader range of
scientific problems. Namely, the LLM is integrated into the SR's loss function,
adding a term of the LLM's evaluation of the SR's produced equation. We
extensively evaluate our method using three SR algorithms (DEAP, gplearn, and
PySR) and three pre-trained LLMs (Falcon, Mistral, and LLama 2) across three
physical dynamics (dropping ball, simple harmonic motion, and electromagnetic
wave). The results demonstrate that LLM integration consistently improves the
reconstruction of physical dynamics from data, enhancing the robustness of SR
models to noise and complexity. We further explore the impact of prompt
engineering, finding that more informative prompts significantly improve
performance.