An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

2509.13471v1 cs.SE, cs.AI 2025-09-19
Авторы:

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha, Saeid Tizpaz-Niari

Резюме на русском

## Контекст Область использования Легкоразмерных Моделей Языка (LLM) в задачах юридического характера становится все более актуальной, однако существуют значительные проблемы, связанные с надежностью. Одна из них — задача применения LLMs в юридически критических ситуациях, где необходимо точно интерпретировать законодательство. Классические задачи, такие как перевод текстов законов в экзекутабельный код, требуют высокой точности, чтобы избежать ошибок, которые могут привести к серьезным последствиям. Большинство задач в этой области связаны с проблемой "oracle problem", когда фактический вывод зависит от точного понимания юридических текстов, что усложняет процесс тестирования систем. В этом контексте появляется идея использования LLMs для создания легально-критического программного обеспечения, где необходима высокая целостность и точность. ## Метод Для решения этой задачи разработан агентный подход, основанный на агентной архитектуре, в которой LLM используется как сервисный агент. Архитектура включает в себя несколько компонентов: 1. **LLM для генерации тестовых сценариев**: генерирует метаморфические тестовые сценарии на основе юридических текстов. 2. **Метаморфические связи высшего порядка**: используются для сравнения выводов системы на похожих случаях. 3. **Лингвистический анализ**: позволяет понять, какие метаморфические тестовые сценарии действительно значимы для конкретной задачи. 4. **Система многоагентной системы**: включает в себя агенты, которые осуществляют различные задачи, такие как генерация тестовых сценариев, выполнение кода и выполнение метаморфического тестирования. ## Результаты В экспериментах была использована модель GPT-4o-mini для генерирования тестовых сценариев и проверки кода. Наиболее заметный результат заключается в том, что данная модель показала лучший результат в сравнении с другими лидирующими моделями, такими как GPT-4o и Claude 3.5. За счет использования метаморфического тестирования, система смогла достичь значительного повышения надежности и точности. Это продемонстрировано значительным приростом проходной скорости (pass rate) для сложных задач связанных с нормативным кодом, когда используется меньшая модель GPT-4o-mini. ## Значимость Этот подход показывает возможность использовать LLM в юридически критических задачах, таких как подготовка налоговых отчетов. Он может применяться в различных юридических сферах, где необходима точная интерпретация закона. Преимущества этого подхода заключаются в улучшении надежности и точности в сравнении с другими методами. Будущие

Abstract

Large language models (LLMs) show promise for translating natural-language statutes into executable logic, but reliability in legally critical settings remains challenging due to ambiguity and hallucinations. We present an agentic approach for developing legal-critical software, using U.S. federal tax preparation as a case study. The key challenge is test-case generation under the oracle problem, where correct outputs require interpreting law. Building on metamorphic testing, we introduce higher-order metamorphic relations that compare system outputs across structured shifts among similar individuals. Because authoring such relations is tedious and error-prone, we use an LLM-driven, role-based framework to automate test generation and code synthesis. We implement a multi-agent system that translates tax code into executable software and incorporates a metamorphic-testing agent that searches for counterexamples. In experiments, our framework using a smaller model (GPT-4o-mini) achieves a worst-case pass rate of 45%, outperforming frontier models (GPT-4o and Claude 3.5, 9-15%) on complex tax-code tasks. These results support agentic LLM methodologies as a path to robust, trustworthy legal-critical software from natural-language specifications.

Ссылки и действия