An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software
2509.13471v1
cs.SE, cs.AI
2025-09-19
Авторы:
Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha, Saeid Tizpaz-Niari
Резюме на русском
## Контекст
Область использования Легкоразмерных Моделей Языка (LLM) в задачах юридического характера становится все более актуальной, однако существуют значительные проблемы, связанные с надежностью. Одна из них — задача применения LLMs в юридически критических ситуациях, где необходимо точно интерпретировать законодательство. Классические задачи, такие как перевод текстов законов в экзекутабельный код, требуют высокой точности, чтобы избежать ошибок, которые могут привести к серьезным последствиям. Большинство задач в этой области связаны с проблемой "oracle problem", когда фактический вывод зависит от точного понимания юридических текстов, что усложняет процесс тестирования систем. В этом контексте появляется идея использования LLMs для создания легально-критического программного обеспечения, где необходима высокая целостность и точность.
## Метод
Для решения этой задачи разработан агентный подход, основанный на агентной архитектуре, в которой LLM используется как сервисный агент. Архитектура включает в себя несколько компонентов:
1. **LLM для генерации тестовых сценариев**: генерирует метаморфические тестовые сценарии на основе юридических текстов.
2. **Метаморфические связи высшего порядка**: используются для сравнения выводов системы на похожих случаях.
3. **Лингвистический анализ**: позволяет понять, какие метаморфические тестовые сценарии действительно значимы для конкретной задачи.
4. **Система многоагентной системы**: включает в себя агенты, которые осуществляют различные задачи, такие как генерация тестовых сценариев, выполнение кода и выполнение метаморфического тестирования.
## Результаты
В экспериментах была использована модель GPT-4o-mini для генерирования тестовых сценариев и проверки кода. Наиболее заметный результат заключается в том, что данная модель показала лучший результат в сравнении с другими лидирующими моделями, такими как GPT-4o и Claude 3.5. За счет использования метаморфического тестирования, система смогла достичь значительного повышения надежности и точности. Это продемонстрировано значительным приростом проходной скорости (pass rate) для сложных задач связанных с нормативным кодом, когда используется меньшая модель GPT-4o-mini.
## Значимость
Этот подход показывает возможность использовать LLM в юридически критических задачах, таких как подготовка налоговых отчетов. Он может применяться в различных юридических сферах, где необходима точная интерпретация закона. Преимущества этого подхода заключаются в улучшении надежности и точности в сравнении с другими методами. Будущие
Abstract
Large language models (LLMs) show promise for translating natural-language
statutes into executable logic, but reliability in legally critical settings
remains challenging due to ambiguity and hallucinations. We present an agentic
approach for developing legal-critical software, using U.S. federal tax
preparation as a case study. The key challenge is test-case generation under
the oracle problem, where correct outputs require interpreting law. Building on
metamorphic testing, we introduce higher-order metamorphic relations that
compare system outputs across structured shifts among similar individuals.
Because authoring such relations is tedious and error-prone, we use an
LLM-driven, role-based framework to automate test generation and code
synthesis. We implement a multi-agent system that translates tax code into
executable software and incorporates a metamorphic-testing agent that searches
for counterexamples. In experiments, our framework using a smaller model
(GPT-4o-mini) achieves a worst-case pass rate of 45%, outperforming frontier
models (GPT-4o and Claude 3.5, 9-15%) on complex tax-code tasks. These results
support agentic LLM methodologies as a path to robust, trustworthy
legal-critical software from natural-language specifications.
Ссылки и действия
Дополнительные ресурсы: