📚 Саммари научных статей из arXiv

Найдено 1303 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 CoT-Space: A Theoretical Framework for Internal Slow-Thinking via Reinforcement Learning

2025-09-06

Авторы:

Zeyu Gan, Hao Yi, Yong Liu

## Контекст В последние годы Reinforcement Learning (RL) получил широкое распространение в области улучшения логических и реакционных способностей Large Language Models (LLMs). Однако существует значительный пробел в теоретическом понимании, поскольку традиционные токен-уровневые RL-фреймворки не учитывают природу многошаговых, сложных процессов мышления, таких как Chain-of-Thought (CoT). Проблема заключается в том, что существующие алгоритмы не могут точно описать или оптимизировать поведение LLMs в рамках многошаговых процессов мышления. Это приводит к неэффективности в решении задач, требующих рассуждений. Требуется новая теоретическая модель, которая бы глубоко рассматривала способность LLMs к мышлению и которая могла бы гарантировать более точное и оптимальное решение задач, включающих сложные многошаговые процессы. ## Метод Мы предлагаем **CoT-Space**, новый теоретический фреймворк, который перестраивает задачу LLMs с дискретной предсказательной модели на процесс оптимизации в непрерывном понятийном пространстве. Этот фреймворк включает в себя новую архитектуру, которая использует RL для оптимизации поведения LLMs внутри понятийного пространства, а не только для предсказания токенов. Мы также внедрили концепции шума и риска в модель, чтобы анализировать характеристики многошагового мышления. Это позволяет нам проанализировать, почему LLMs могут продолжать рассуждать даже когда решение уже найдено (overthinking). Мы также разработали методы для вычисления оптимальной длины Chain-of-Thought, чтобы достичь оптимального баланса между полнотой мышления и эффективностью. ## Результаты Мы провели ряд экспериментов для проверки нашего фреймворка. Использовались разные наборы данных, включая задачи сложных многошаговых рассуждений. Мы сравнили результаты нашего подхода с традиционными токен-уровневыми RL-моделями. Наши эксперименты показали, что CoT-Space не только улучшает долю правильных ответов, но и значительно сокращает время, затрачиваемое на решение задач, благодаря оптимальному расширению Chain-of-Thought. Мы также показали, что наша модель эффективно справляется с проблемой overthinking, уменьшая ненужные рассуждения и улучшая общую эффективность. ## Значимость Наш фреймворк имеет широкое применение в области машинного обучения, особенно в задачах, требующих сложных многошаговых рассуждений, таких как проблемы в области естественного языка, финансового анализа и даже робототехники. Он предоставляет значительные преимущества перед существующими моделями, такими как улучшение точности решений, эффективность и гибкость в различных сценариях. Мы видим потенциал CoT-Space в

Annotation:

Reinforcement Learning (RL) has become a pivotal approach for enhancing the reasoning capabilities of Large Language Models (LLMs). However, a significant theoretical gap persists, as traditional token-level RL frameworks fail to align with the reasoning-level nature of complex, multi-step thought processes like Chain-of-Thought (CoT). To address this challenge, we introduce CoT-Space, a novel theoretical framework that recasts LLM reasoning from a discrete token-prediction task to an optimizati...

ID: 2509.04027v1 cs.AI, cs.CL

arXiv PDF

📄 Towards an Action-Centric Ontology for Cooking Procedures Using Temporal Graphs

2025-09-06

Авторы:

Aarush Kumbhakern, Saransh Kumar Gupta, Lipika Dey, Partha Pratim Das

## Контекст Кулинарные процедуры, несмотря на их духовную и культурную значимость, представляют себе сложности в формализации и автоматизации. Одной из основных проблем является неоднозначность и сложность составления рецептов, которые могут включать в себя множество действий, перемещений, окружающих условий и взаимодействий. Это затрудняет создание универсальной модели для автоматического анализа и выполнения рецептов. Многие существующие подходы ориентированы на фрагментарное представление кулинарных процессов, не учитывая все сложности. Необходимо разработать модель, которая бы учитывала все составляющие кулинарных процедур и позволяла структурировать их для автоматизированного использования. ## Метод Мы предлагаем использовать **реляционную модель в виде структурных диаграмм**, а именно, **регламентных диаграмм** (Directed Action Graphs, DAGs), для формализации кулинарных процедур. Это позволяет представлять действия (например, «соединить ингредиенты»), перемещения (например, передача из одного контейнера в другой), промежуточные среды (например, горячий стол или холодильник), и конкурентные действия (например, варка и жарка одновременно). Эта модель также учитывает взаимосвязи между действиями и составляющими их компоненты. Для реализации, мы предлагаем **синтаксис, основанный на синтаксисе языка Prolog**, чтобы упростить синтаксический разбор и визуализацию процессов. Мы также использовали графы времени для описания последовательности действий, чтобы учитывать временные аспекты процессов. ## Результаты Мы проводили эксперименты, применяя нашу модель к моделированию сложного рецепта полного английского завтрака. Мы вручную структурировали рецепт, показав, что наша модель может нормализовать и анализировать текст рецепта, выделяя все важные элементы (действия, перемещения, окружающие условия). Эксперименты показали, что модель эффективно может анализировать и отображать сложные кулинарные процедуры, включая взаимодействия между действиями и последовательность их выполнения. Мы также продемонстрировали, что модель может быть расширена для формализации других типов рецептов. ## Значимость Наш подход имеет широкие возможности применения в различных областях. Он может использоваться в системах управления домашними кухонными устройствами, в создании интеллектуальных рецептов, в автоматизации производственных процессов в профессиональной кухне и даже в создании интерактивных систем для обучения кулинарному мастерству. Этот подход позволяет перейти от текстовых рецептов к структурированным моделям, что оперативно упрощ

Annotation:

Formalizing cooking procedures remains a challenging task due to their inherent complexity and ambiguity. We introduce an extensible domain-specific language for representing recipes as directed action graphs, capturing processes, transfers, environments, concurrency, and compositional structure. Our approach enables precise, modular modeling of complex culinary workflows. Initial manual evaluation on a full English breakfast recipe demonstrates the DSL's expressiveness and suitability for futur...

ID: 2509.04159v1 cs.AI, cs.CL

arXiv PDF

📄 Crossing the Species Divide: Transfer Learning from Speech to Animal Sounds

2025-09-06

Авторы:

Jules Cauzinille, Marius Miron, Olivier Pietquin, Masato Hagiwara, Ricard Marxer, Arnaud Rey, Benoit Favre

## Контекст Область исследования, посвященная методам обучения с малоизвестным наблюдением, набирает популярность в области обработки звука, в том числе для задач классификации животных и вредителей в сельскохозяйственных системах. Несмотря на прогресс в области самостоятельного обучения с использованием самостоятельных контекстов, эффективность таких методов на животных звуках остается достаточно неизученной. Установлено, что существуют специфические семантические и акустические особенности в животных звуках, которые могут снизить эффективность предварительно обученных моделей, ориентированных на звуковые данные. В статье рассматривается потенциал самостоятельного обучения с помощью говорения для системы классификации животных звуков. ## Метод В статье применяется методология, основанная на самостоятельном обучении для построения моделей, моделирующих звуки. Рассматриваются модели HuBERT, WavLM и XEUS, обученные на говорении, для генерирования богатых латентных представлений звуков животных. Были использованы техники линейной пробинга и расширенных архитектур для эффективного использования звуковых данных. Было осуществлено изучение представлений в акустической области, где были проанализированы влияние частотного диапазона и шума на результаты классификации. ## Результаты Исследования показали, что модели HuBERT, WavLM и XEUS могут эффективно генерировать латентные представления звуков животных, аналогичные результатам, полученным с использованием моделей, обученных на животных звуках. Было продемонстрировано, что линейная пробинга позволяет эффективно использовать звуковые представления, но с учетом временных данных результаты улучшаются. Также было проверено, что модели гибко реагируют на изменения частотного диапазона и шума, что демонстрирует их высокую резильтативность в трудных условиях. ## Значимость Высокая эффективность моделей, обученных на говорении, может быть использована в различных сельскохозяйственных приложениях, включая классификацию животных звуков и вредителей. Эти модели позволяют экономить время и ресурсы на подготовку данных, а также снижают необходимость в тщательном фине-тюнинге. Таким образом, создается возможность ускорения развития систем мониторинга и контроля животных в сельскохозяйственной сфере. ## Выводы Исследование показало, что модели, обученные на говорении, могут эффективно использоваться для классификации животных звуков. Однако для достижения максимальной эффективности требуется учесть актуальные свойства звуков

Annotation:

Self-supervised speech models have demonstrated impressive performance in speech processing, but their effectiveness on non-speech data remains underexplored. We study the transfer learning capabilities of such models on bioacoustic detection and classification tasks. We show that models such as HuBERT, WavLM, and XEUS can generate rich latent representations of animal sounds across taxa. We analyze the models properties with linear probing on time-averaged representations. We then extend the ap...

ID: 2509.04166v1 cs.LG, cs.AI, cs.CL, cs.SD, 68T07, I.5.4; I.2.6; H.5.5

arXiv PDF

📄 Psychologically Enhanced AI Agents

2025-09-06

Авторы:

Maciej Besta, Shriram Chandran, Robert Gerstenberger, Mathis Lindner, Marcin Chrapek, Sebastian Hermann Martschat, Taraneh Ghandi, Patrick Iff, Hubert Niewiadomski, Piotr Nyczyk, Jürgen Müller, Torsten Hoefler

## Контекст Область исследования, связанная с внедрением психологических признаков в агентов на основе бо LLM (Large Language Models), является важной направленностью в современной искусственной интеллектуальной системе. Одним из основных трудностей является то, что создание эффективных агентов с ясным управлением интерпретируемым поведением часто требует дорогостоящих и сложных методов, таких как файн-тюнинг. Эта проблема становится актуальной в ситуациях, где необходимо гарантировать транспарентность и легкость контроля над поведением AI-агентов. Недостаточная возможность регулировать поведение может привести к непредсказуемости и возможным ситуациям, не соответствующим этичным или практическим требованиям. Мотивацией для разработки этого проекта является желание улучшить эффективность и контролируемость AI-агентов, создавая фреймворк, который позволит легко управлять поведением агентов, придавая им психологические архетипы. ## Метод Методология, используемая в этой работе, основывается на применении теории MBTI (Myers-Briggs Type Indicator) для управления поведением агентов. Метод включает в себя "психологическую окраску" агентов с помощью предложений ввода (prompt engineering), чтобы имитировать определенные психологические типы. Подход включает в себя две основные основные течения психологии: чувственность (cognition) и воaffect (affect). Тест 16Personalities используется для автоматического определения и проверки психологического профиля, чтобы обеспечить постоянство характеристик. Эта методика распространяется на различные психологические фреймворки, включая Big Five, HEXACO или Enneagram. Архитектура заключается в том, чтобы использовать LLM-агентов, как объект взаимодействия, применяя структурированные протоколы взаимодействия, включая рефлексию до взаимодействия для улучшения разума и качества решений. ## Результаты Эксперименты проводились на различных задачах, включая генерацию текстов, разбор стратегий в играх и работу в сетях кооперативных агентов. Агенты, окрашенные в психологические типы, показали консистентность в поведении и улучшенную интерпретируемость, например, текстовые генераторы, оптимизированные для эмоциональных вкладов, показали сильное отличие в повествовательных задачах. Аналитически ориентированные агенты достигли лучших результатов в стратегических играх. Также показано, что саморефлексия перед взаимодействием улучшает качество сотрудничества и рациональность решений. Эксперименты подтвердили, что протоколы саморефлексии могут повысить качество решений и сотрудничества в различных контекстах. ## Значимость Раз

Annotation:

We introduce MBTI-in-Thoughts, a framework for enhancing the effectiveness of Large Language Model (LLM) agents through psychologically grounded personality conditioning. Drawing on the Myers-Briggs Type Indicator (MBTI), our method primes agents with distinct personality archetypes via prompt engineering, enabling control over behavior along two foundational axes of human psychology, cognition and affect. We show that such personality priming yields consistent, interpretable behavioral biases a...

ID: 2509.04343v1 cs.AI, cs.CL, cs.CY, cs.HC, cs.MA

arXiv PDF

📄 No Thoughts Just AI: Biased LLM Recommendations Limit Human Agency in Resume Screening

2025-09-06

Авторы:

Kyra Wilson, Mattea Sim, Anna-Maria Gueorguieva, Aylin Caliskan

#### Контекст Многие сегодняшние организации используют системы совместного принятия решений с участием людей и искусственного интеллекта (Human-in-the-Loop, HITL) на ранних этапах трудоустройства. Однако неявные предрассудки в системах ИИ могут повлиять на выбор потенциальных кандидатов для работы, ограничивая человеческую агентность и продвигая чрезмерное стереотипирование. Например, ранее установленное стеротипное мнение о том, что белокожие кандидаты имеют более высокий статус на рынке труда, может влиять на решения, даже если эти предрассудки неявны. Более того, неявные предрассудки могут проникать в системы ИИ, когда они принимаются вместе с человеческими экспертами для принятия решений. Таким образом, необходимо изучить, как совместное принятие решений с использованием ИИ влияет на человеческую агентность и субъективные предрассудки в процессе трудоустройства. #### Метод Для изучения этой проблемы проводился эксперимент, в котором 528 участников сотрудничали с симулированными ИИ-системами, отображающими расовые предпочтения. Эти системы были программированы для проявления биаса в пользу кандидатов определенного раса, который мог быть либо "фактическим" (основанным на реальных данных о расовых предпочтениях в работе), либо "контрфактическим" (отражающим направленность на будущие биасы). Участники просматривали резюме кандидатов для 16 различных должностей, от высокого до низкого статуса, с именами, которые могли отражать аффилиацию с разными расовыми группами. На основе этих оценок, проводились имплицитные ассоциации тесты (IAT) для измерения неявных стереотипов участников. Выбор кандидатов также проверялся в зависимости от того, насколько кандидаты соответствовали гендерным и расовым стереотипам. #### Результаты Эксперимент показал, что люди, сотрудничающие с ИИ, который проявляет биазы в пользу определенных расовых групп, склонны выбирать кандидатов из этих групп до 90% всех случаев, даже если расовое стереотипирование не соответствует реальным кандидатам. Однако в случае неразделенного принятия решений (без участия ИИ или при участии ИИ, не проявляющего биазы), люди выбирают кандидатов равномерно. Также, участники, которые прошли IAT до эксперимента, выбрали больше кандидатов, не соответствующих расовым стереотипам, чем те, кто не прошел такой тест. Даже когда участники считали рекомендации ИИ низкокачественными, их решения все равно оказывались затронутыми биазом, если рекомендации были представлены как "важные". #### Значимость Результаты этих исследований им

Annotation:

In this study, we conduct a resume-screening experiment (N=528) where people collaborate with simulated AI models exhibiting race-based preferences (bias) to evaluate candidates for 16 high and low status occupations. Simulated AI bias approximates factual and counterfactual estimates of racial bias in real-world AI systems. We investigate people's preferences for White, Black, Hispanic, and Asian candidates (represented through names and affinity groups on quality-controlled resumes) across 1,5...

ID: 2509.04404v1 cs.CY, cs.AI, cs.CL, cs.HC, K.4.2

arXiv PDF

📄 Towards a Unified View of Large Language Model Post-Training

2025-09-06

Авторы:

Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou

## Контекст В последние годы широко развиваются системы генерации текстов на основе трансформеров, основанных на ло LLM (Large Language Models). Однако достичь высокого качества текстов часто требуется дополнительная обучение, который называется post-training. Этот процесс может использовать различные виды данных, таких как генерированные моделью (online) или полученные от пользователей или других моделей (offline). Исследователи часто рассматривают эти два типа данных как несовместимые. Наша работа выявляет, что обучение с помощью этих данных может быть успешно интегрировано в единую модель, что упрощает процесс обучения и улучшает результаты. ## Метод Мы разработали новый метод, который объединяет различные подходы к post-training в единую модель. Этот подход основан на формуле политического градиента, которая позволяет динамически использовать различные источники данных. Мы разработали четыре основных компонента этой формулы: маска для стабилизации, ссылочная политика, оценка преимущества и градиент логарифмической вероятности. Эти компоненты позволяют нам эффективно интегрировать различные типы данных и корректно сбалансировать доминирование примеров и источников данных. ## Результаты Мы провели эксперименты с нашим методом на шести абстрактных бенчмарках и двух базовых наборах данных. Наш новый подход, Hybrid Post-Training (HPT), показал себя лучше, чем существующие подходы, в том числе Reinforcement Learning (RL) и Supervised Fine-Tuning (SFT). Мы получили значительные улучшения в распознавании текста и генерации новых текстов, с одинаковым успехом работающий с онлайновыми и оффлайновыми данными. Абляционные исследования подтвердили эффективность каждого из компонентов нашего метода. ## Значимость Предложенный подход имеет широкое применение в области генерации текстов, в том числе в сферах, где требуется высокое качество текста, такие как роботы-консультанты и генераторы текстов. Он позволяет объединить различные источники данных, что ускоряет и упрощает процесс обучения. Это может привести к более эффективным и мощным системам генерации текстов, которые будут более устойчивыми к разным типам данных. ## Выводы Наше исследование показало, что обучение моделей после их стандартного обучения может быть эффективно интегрировано в единую модель. Мы сформулировали новый подход, который динамически выбирает между различными типами данных и позволяет стабильно улучшать качество текста. Будущие исследования будут сфокусированы на расширении этой модели для более сложных задач, таких как диалоговые системы и моделирование знаний.

Annotation:

Two major sources of training data exist for post-training modern language models: online (model-generated rollouts) data, and offline (human or other-model demonstrations) data. These two types of data are typically used by approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT), respectively. In this paper, we show that these approaches are not in contradiction, but are instances of a single optimization process. We derive a Unified Policy Gradient Estimator, and present t...

ID: 2509.04419v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory

2025-09-06

Авторы:

Matthew Ho, Chen Si, Zhaoxiang Feng, Fangxu Yu, Zhijian Liu, Zhiting Hu, Lianhui Qin

## Контекст Современные текстовые глубокозатрагивающие модели (LLMs) обладают возможностью выполнять рассуждения различной сложности. Однако при выполнении новых задач они часто потеряют возможность повторно применять накопленные ранее знания и выводы. Это ограничивает их эффективность при решении задач, требующих постоянного обучения в процессе работы. Для решения этой проблемы вводится концепция **"тест-time continual learning"**, которая позволяет моделям в процессе работы учиться на новых данных и совершенствоваться. Одним из вариантов этого подхода является использование **внешней памяти**, которая может хранить полученные выводы и концепции в естественном языке. Исследование подтверждает, что такой подход повышает эффективность в решении рассуждений, особенно в задачах, требующих значительной логической структуры. Идея ArcMemo — создать систему, которая бы не только помогала моделям в решении рассуждений, но и сохраняла наиболее универсальные знания в виде **концептуальных модулей**, которые могут быть повторно применены в будущих задачах. ## Метод ArcMemo работает на основе **тест-time continual learning** с использованием **концептуальной внешней памяти**. Основной идеей является использование **техники роллаутов** (rollouts), которая позволяет модели в процессе работы делать выводы и хранить их в виде **концептуальных абстракций** — естественно языковых описаний решений. Эти абстракции после этого могут быть **выбираться и интегрированы** в новые задачи, чтобы помочь модели в решении новых задач. ArcMemo использует два ключевых аспекта: 1. **Абстрактные модули** — модули, которые представляют собой стабильные и универсальные решения, выведенные из роллаутов. 2. **Динамическое обновление памяти** — постоянное добавление новых модулей и удаление устаревших при помощи тест-time continual learning. Это позволяет модели ArcMemo расти в силе и эффективности в процессе выполнения задач. Техника роллаутов позволяет находить сложные решения задач и записывать их в естественно языковом виде в виде **концептуальных модулей**. Эти модули, в свою очередь, могут быть повторно использованы при решении новых задач. ## Результаты Исследование проводилось на **ARC-AGI benchmark**, который требует выполнения сложных рассуждений. Отмечается, что система ArcMemo показывает **7.5% относительный выигрыш** по сравнению с теми же моделями без внешней памяти. Особенно полезность **концептуальных модулей** продемонстрирована в задачах, требующих высокой логической структуры. Также было показано, что модель ArcMemo становится эффективнее при увеличении компьютерных ресурсов и количества решенных задач, что подтверждает свою способность

Annotation:

While inference-time scaling enables LLMs to carry out increasingly long and capable reasoning traces, the patterns and insights uncovered during these traces are immediately discarded once the context window is reset for a new query. External memory is a natural way to persist these discoveries, and recent work has shown clear benefits for reasoning-intensive tasks. We see an opportunity to make such memories more broadly reusable and scalable by moving beyond instance-based memory entries (e.g...

ID: 2509.04439v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Delta Activations: A Representation for Finetuned Large Language Models

2025-09-06

Авторы:

Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim

#### Контекст Существует многочисленное количество открытого кода и моделей текстовых машинных носителей, созданных для конкретных задач и сфер, включая здравоохранение, юридические задачи и финансы. Однако существуют проблемы с организацией и поиском этих моделей, так как метаданные и репозитории часто являются несогласованными и неструктурированными. Это делает сложной навигацию и понимание того, как модели могут быть применены к новым задачам. Мы предлагаем Delta Activations, метод, который позволяет представить отлаженные модели в виде векторных представлений, измеряя изменения в их внутренних активациях относительно основной модели. Это представление позволяет эффективно кластеризовать модели по домену и задаче, демонстрируя структуру ландшафта моделей. #### Метод Delta Activations определяются как интегральные изменения внутренних активаций модели после обучения, относительно базовой модели. Мы используем методы снижения размерности, такие как t-SNE и UMAP, для визуализации векторных представлений. Для кластеризации используется agglomerative clustering, чтобы разделить модели по домену и задаче. Мы также проводим эксперименты для оценки свойств Delta Activations, включая робастность к разным схемам обучения, а также исследуем характеристики подхода для объединения моделей и выбора моделей. #### Результаты Мы проводим эксперименты с рядом отлаженных моделей, включая известные LLMs, построенные на основе масштабируемых архитектур, таких как T5 и RoBERTa. Мы проводим кластеризацию моделей по домену (например, здравоохранение и финансы) и по задаче (например, распознавание речи и перевод текста). Наши результаты показывают, что Delta Activations эффективно кластеризуют модели по схожести задач и домена, демонстрируя ценную структуру в ландшафте моделей. Мы также показываем, что Delta Activations могут быть использованы для выбора моделей и их объединения, а также позволяют закладывать задачи при помощи нескольких данных для подготовки. #### Значимость Delta Activations могут применяться для улучшения поиска, кластеризации и выбора моделей в среде больших текстовых моделей. Это позволяет сократить время и ресурсы, необходимые для понимания и применения моделей к новым задачам. Мы также ожидаем, что Delta Activations могут помочь повысить прозрачность и понимание в области обучения моделей, а также облегчить процесс применения моделей в различных сферах. #### Выводы Мы представили Delta Activations, метод для представления отлаженных моделей в виде векторных представлений, позволяющий эффективно кластеризовать модели по домену и задаче. Мы показали, что Delta Activations естественно вписываются в структуру ландшафта моделей, демонстрируя ценную информацию для понимания и применения моделей. Мы также показали,

Annotation:

The success of powerful open source Large Language Models (LLMs) has enabled the community to create a vast collection of post-trained models adapted to specific tasks and domains. However, navigating and understanding these models remains challenging due to inconsistent metadata and unstructured repositories. We introduce Delta Activations, a method to represent finetuned models as vector embeddings by measuring shifts in their internal activations relative to a base model. This representation ...

ID: 2509.04442v1 cs.LG, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 On Verifiable Legal Reasoning: A Multi-Agent Framework with Formalized Knowledge Representations

2025-09-05

Авторы:

Albert Sadowski, Jarosław A. Chudziak

## Контекст Решение сложных задач юридического разумания требует точного восприятия законодательного текста и последовательного применения высокосложного правового правил. Это представляет собой значительную проблему для современных систем машинного обучения, которые часто сталкиваются с трудностями при работе с юридическим запасным фондом. Задача состоит в том, чтобы построить модели, которые могли бы осуществлять высококачественный юридический разуманий, обеспечивая в то же время транспарентность и обоснованность решений. ## Метод Предложенный модульный многоагентный фреймворк декомпозирует юридический разуманий на две основные стадии: сбор знаний и применение их к конкретным случаям. На первой стадии специализированные агенты извлекают юридические понятия и формализуют правила, которые формируют верифицируемые интерфейсные представления законов. На второй стадии эти знания применяются к конкретным ситуациям через следующие шаги: анализ запросов для сопоставления фактов случая с семантической схемой, символическое выводение для верификации и формирования ответов с помощью программного модуля, который интерпретирует онтологические представления. Эта модель обеспечивает компромисс между удобочитаемостью и точностью, позволяя лучше проверять и объяснять решения. ## Результаты На экспериментах, проведенных на задачах расчета налогов по налоговому законодательству, модель показала значительные улучшения по сравнению с базовыми моделями. Фундаментальные модели показали достижение 76.4% точности, в то время как базовая модель имела только 18.8%, существенно сократив разницу в производительности между моделями и символическим разуманием. Эти результаты показывают, что модульные архитектуры с формализованными представлениями знаний могут повысить точность и понятность решений, предоставив надежную основу для дальнейшего развития юридических систем. ## Значимость Предложенная модель может быть применена в различных юридических областях, включая расчет налогов, юридический анализ и оценку случаев. Она обеспечивает транспарентность, позволяя юристам проверять и объяснять решения. Из-за своей целостности и эффективности, модель может стать основой для будущих исследований в области правовых систем, оптимизировав ключевые аспекты современных систем машинного обучения. ## Выводы Результаты работы показывают, что модульные архитектуры с формализованными представлениями знаний могут сделать юридический разуманий более точным и понятным. Будущие исследования будут сконцентрированы на расширении модели на другие юридические с

Annotation:

Legal reasoning requires both precise interpretation of statutory language and consistent application of complex rules, presenting significant challenges for AI systems. This paper introduces a modular multi-agent framework that decomposes legal reasoning into distinct knowledge acquisition and application stages. In the first stage, specialized agents extract legal concepts and formalize rules to create verifiable intermediate representations of statutes. The second stage applies this knowledge...

ID: 2509.00710v1 cs.AI, cs.CL

arXiv PDF

📄 L-MARS: Legal Multi-Agent Workflow with Orchestrated Reasoning and Agentic Search

2025-09-05

Авторы:

Ziqi Wang, Boqin Yuan

## Контекст Область исследования, связанная с системами юридического знания, становится все более значимой в условиях цифровизации. Существуют проблемы, такие как неточности, недостоверность и невозможность полного учета контекста при работе с юридическими данными. Эти сложности проявляются в простых неточностях и неверных выводах, которые могут привести к катастрофическим последствиям. Мотивация для создания L-MARS базируется на необходимости улучшить точность и достоверность юридических ответов, а также обеспечить эффективную обработку текстовых данных в этой области. ## Метод L-MARS (Legal Multi-Agent Workflow with Orchestrated Reasoning and Agentic Search) представляет собой многоагентную систему, которая использует многоуровневую архитектуру для улучшения точности ответов на юридические вопросы. Основную идею системы состоит в разделении запросов на подзапросы и использовании целевых поисковых запросов в различных источниках, включая Интернет, локальные модели RAG (Retrieval-Augmented Generation) и юридические базы судебных решений. Между тем, Judge Agent играет ключевую роль в проверке достаточности, юрисдикции и временной действительности результатов. Этот цикл рассуждения, поиска и проверки позволяет L-MARS поддерживать логическую целостность, отфильтровывать шум и обеспечивать основанные на авторитетных юридических источниках ответы. ## Результаты Результаты экспериментов L-MARS продемонстрировали значительные улучшения точности фактических данных и уменьшение неопределенности. Это достигнуто благодаря использованию многоагентной системы, которая усиливает взаимодействие между различными моделями и источниками. В ходе экспериментов был использован LegalSearchQA, новый бенчмарк, содержащий 200 вопросов юридического характера, собранных в 2025 году. В результате L-MARS не только улучшил фактическую точность, но и получил высокие оценки как от экспертов-юристов, так и от LLM-based judges. Эти результаты подтверждают эффективность многоагентных подходов в обеспечении точности и достоверности в высокорегулируемых сферах, таких как право. ## Значимость L-MARS может быть применен в различных юридических сферах, где точность и достоверность ответов критически важны. Оно предлагает только что развернутое решение для обработки юридической информации, которое может быть реплицировано и использовано в других высокотехнологичных областях. Этот подход обеспечивает повышение точности и надежности ответов, а также уменьшает вероятность утечек и неточностей. Люди, работающие в юридической сфере, могут использовать L-MARS для получения более точных и контекстуально верных ответов, что в с

Annotation:

We present L-MARS (Legal Multi-Agent Workflow with Orchestrated Reasoning and Agentic Search), a system that reduces hallucination and uncertainty in legal question answering through coordinated multi-agent reasoning and retrieval. Unlike single-pass retrieval-augmented generation (RAG), L-MARS decomposes queries into subproblems, issues targeted searches across heterogeneous sources (Serper web, local RAG, CourtListener case law), and employs a Judge Agent to verify sufficiency, jurisdiction, a...

ID: 2509.00761v2 cs.AI, cs.CL

arXiv PDF

1
2
101
102
103
104
105
130
131

Показано 1021 - 1030 из 1303 записей