📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Shu Zhao, Tan Yu, Anbang Xu, Japinder Singh, Aaditya Shukla, Rama Akkiraju

#### Контекст Одной из основных проблем многошагового поиска информации является неэффективность последовательного обработки запросов, когда множество подзапросов может быть выполнено параллельно. Это проблема значительно ограничивает производительность и эффективность искусственного интеллекта в ситуациях, где разбор запроса требует множества независимых сравнений. Большинство нынешних решений не справляются с этим вопросом, так как ограничиваются строго последовательной обработкой, что приводит к затрату дополнительного времени и ресурсов. Мотивирует эту работу необходимость в улучшении производительности и эффективности методов обработки запросов, особенно в ситуациях, где требуется сравнение множества субъектов. Наша цель — разработать рамочный подход, который позволит ло LLM распознавать и выполнять параллельные запросы, чтобы значительно улучшить эффективность и экономить ресурсы. #### Метод Мы предлагаем ParallelSearch, новую рамочную методику, которая позволяет LLM'ам разбивать запрос на подзапросы и выполнять их параллельно. Рамка работает в среде RLVR (reinforcement learning with verifiable rewards) и включает специальные функции награды, которые поощряют LLM для распознавания и выделения параллельных запросов. ParallelSearch носит архитектурный характер, в которой три фундаментальных аспекта — сохранение точности ответа, качество разбиения запроса на подзапросы и эффективность параллельного выполнения — взаимодействуют динамически. Мы отработали множество экспериментов, оптимизировав все эти аспекты вместе, чтобы добиться максимального эффекта. #### Результаты Мы провели исследование ParallelSearch на семь разных бенчмарков, сравнивая его с другими подходами. Наша методика демонстрирует среднюю улучшение производительности на 2.9%, а на параллельных подзапросах — на 12.7%. Одновременно, ParallelSearch требует значительно меньше вызовов LLM (69.6%) в сравнении с последовательными подходами. Эти результаты подтверждают значительный выигрыш в производительности, который достигается благодаря параллельному подходу. Ло LLM успешно распознают и выполняют параллельные запросы, уменьшая время и ресурсы, необходимые для обработки. #### Значимость Метод ParallelSearch может быть применен в различных областях, где необходима эффективная обработка запросов, например, в здравоохранении, финансах, интернет-поиске и других. Он обеспечивает существенное улучшение эффективности, экономия времени и ресурсов, что делает его привлекательным для реализации в промышленных решениях. Помимо этого, ParallelSearch позволяет LLM работать более эффективно, уменьшая количество вызо
Annotation:
Reasoning-augmented search agents such as Search-R1, trained via reinforcement learning with verifiable rewards (RLVR), demonstrate remarkable capabilities in multi-step information retrieval from external knowledge sources. These agents address the limitations of their parametric memory by dynamically gathering relevant facts to address complex reasoning tasks. However, existing approaches suffer from a fundamental architectural limitation: they process search queries strictly sequentially, eve...
ID: 2508.09303v1 cs.CL, cs.AI, cs.IR
Авторы:

Nan Miles Xi, Yu Deng, Lin Wang

#### Контекст Область исследований в сфере здравоохранения и биомедицинских технологий набирает обороты в последние годы. Одной из актуальных проблем является Named Entity Recognition (NER) для редких заболеваний. Эта задача имеет высокий приоритет из-за ограниченного объема доступных медицинских данных, семантической сложности описания сущностей, а также длинного хвоста распределения данных. Недостаток методик, применимых для решения этих вызовов, приводит к повышенному интересу к разработке методик, оптимизированных для этих областей. #### Метод Для решения этих проблем предлагается использовать трансформер-модель GPT-4o, которая обладает высокими возможностями в области NER. Методика использует различные техники, включая zero-shot prompting, few-shot in-context learning, retrieval-augmented generation (RAG) и task-level fine-tuning. Был разработан структурированный фреймворк, в котором включены доменные знания и правила дисамбигуации для четырех видов сущностей. Были также предложены два метода выбора семантически направленных небольших обучающих примеров, чтобы улучшить возможности в контексте обучения, уменьшив при этом усилия по маркировке данных. #### Результаты На экспериментах, проведенных на RareDis Corpus, модель GPT-4o показала весьма высокую эффективность, достигнув результатов, которые совпадают или превосходят результаты BioClinicalBERT. Таск-левел файн-тюнинг позволил достичь нового состояния искусственного интеллекта (SOTA) в NER. Анализ затрат и производительности показал, что few-shot prompting обеспечивает высокую отдачу при низких бюджетах токенов, в то время как RAG приносит незначительные дополнительные преимущества. #### Значимость Проанализированы области применения и преимущества нового подхода. Обнаружено, что новый подход может предложить значительные выгоды в области биомедицинского NER, особенно в случае редких заболеваний. Это открывает новые возможности для расширения доступа к более точным и эффективным инструментам для работы с редкими заболеваниями в медицинской практике. #### Выводы Основные достижения заключаются в том, что GPT-4o, оптимизированная с применением структурированных фреймворков для NER, может стать эффективным решением в биомедицинской области, особенно в сфере редких заболеваний. Для будущих исследований предлагается углубить анализ ошибок, внедрить гибридные решения и использовать развитие технологий для улучшения текущей модели.
Annotation:
Named Entity Recognition (NER) in the rare disease domain poses unique challenges due to limited labeled data, semantic ambiguity between entity types, and long-tail distributions. In this study, we evaluate the capabilities of GPT-4o for rare disease NER under low-resource settings, using a range of prompt-based strategies including zero-shot prompting, few-shot in-context learning, retrieval-augmented generation (RAG), and task-level fine-tuning. We design a structured prompting framework that...
ID: 2508.09323v1 cs.CL, cs.AI
Авторы:

Nikita Mehrotra, Aayush Kumar, Sumit Gulwani, Arjun Radhakrishna, Ashish Tiwari

#### Контекст Многие данные, представленные в виде текста, имеют структуру, которую можно представить в виде таблиц. Однако выделение таких таблиц из семиструктурированного текста остается сложной задачей из-за отсутствия четких символьных разделителей между столбцами и строками. Это препятствует обработке таких данных с помощью полностью нейронных подходов, которые часто страдают от халлуцинаций (генерации несуществующих данных) и не могут обеспечивать жесткого принудительного контроля. Наша мотивация заключается в создании метода, который мог бы справиться с этими проблемами, объединив нейронные и символические подходы. #### Метод Мы предлагаем метод TEN (Table Explicitization, Neurosymbolically), основанный на нейросемантическом подходе. Он использует Structural Decomposition Prompting — специальный цепочно-мышленческий подход — с применением большой модели языка (LLM) для создания исходной таблицы. Далее, символический контроллер проверяет не только корректность таблицы, но и отсутствие халлуцинаций или забытости. Результаты проверки передаются в критическую модель языка (Critique-LLM) для генерации совета по исправлению таблицы. Эти рекомендации возвращаются в LLM в виде цикла самостоятельного диагностирования, чтобы улучшить таблицу. #### Результаты Мы провести эксперименты на нескольких датасетах, сравнивая результаты TEN с нейронными базовыми моделями. Наши результаты показывают, что TEN существенно превосходит базовые модели по всем метрикам, в том числе точности точного совпадения (exact match accuracy) и уменьшению частоты халлуцинаций. Также мы провели 21-участническую испытательную программу, в которой пользователи оценили качество таблиц TEN. Они отметили, что TEN выдает таблицы, являющиеся более точными (средний рейтинг: 5,0 против 4,3; p = 0,021), и легче для проверки и исправления. #### Значимость TEN может применяться в различных областях, где требуется извлечение табличных данных из текста, например в системах автоматической обработки документов, веб-скрейпинге и анализе текстов. Этот подход обеспечивает высокую точность, минимизирует халлуцинации и обеспечивает удобную проверку и исправление результатов. Будущие исследования будут направлены на улучшение метода для работы с более сложными сценариями и увеличения скорости обработки. #### Выводы Мы представили TEN — уникальный подход, который справляется с проблемами халлуцинаций и неточностей, характерных для полностью нейронных подходов. Наши эксперименты показали, что TEN значительно превосходит базовые модели в задаче извлечения табличных данных. Мы также отметили высокую оценку пользователей,
Annotation:
We present a neurosymbolic approach, TEN, for extracting tabular data from semistructured input text. This task is particularly challenging for text input that does not use special delimiters consistently to separate columns and rows. Purely neural approaches perform poorly due to hallucinations and their inability to enforce hard constraints. TEN uses Structural Decomposition prompting - a specialized chain-of-thought prompting approach - on a large language model (LLM) to generate an initial t...
ID: 2508.09324v1 cs.CL, cs.AI
Авторы:

Cathy Speed, Ahmed A. Metwally

## Контекст Область исследования связана с развитием методов разработки экспертного согласия в сложных и неоднозначных дисциплинах. Традиционные подходы, такие как Delphi-техника и консенсусные конференции, сталкиваются с проблемами, такими как высокая нагрузка на экспертов, недостаточная уточненность и преобладание простых решений в ущерб контекстуальности. Эти проблемы усиливаются в условиях современного мира, охваченного информационным перегрузом, разбросом рекомендаций и недостатком фильтрации экспертной информации. В данном исследовании предлагается новая модель Human-AI Hybrid Delphi (HAH-Delphi), которая интегрирует генерирующуюся AI-систему (Gemini 2.5 Pro), малые панели экспертов и структурированный подход к управлению процессом. Модель целесообразна для создания контекстуально обоснованных, гибких и скоростных рекомендаций в сферах, где требуется высокая точность и контекстная настройка. ## Метод Методология HAH-Delphi представляет собой структурированный процесс, включающий три фазы. **Фаза 1 (ретроспективная репликация)**: AI-система проверяла свои выводы с публикационными рекомендациями в сложных дисциплинах. **Фаза 2 (прямая сравнительная оценка)**: AI сравнивалась с отвечами экспертов в реальных контекстах. **Фаза 3 (применение в реальной сфере)**: экспертиза AI и экспертов использовалась для построения консенсуса в сферах спортивного тренинга и фитнеса. Архитектура HAH-Delphi основывается на глубокой интеграции генеративной модели AI, экспертных комментариев и структурированных шаблонов управления. Это позволяет уменьшить нагрузку на панели экспертов, улучшить контекстуальность рекомендаций и ускорить достижение консенсуса. ## Результаты **Фаза 1**: AI демонстрировала 95% точности в повторении публикационных рекомендаций. **Фаза 2**: 95% согласия в направлении рекомендаций с ответами экспертов. **Фаза 3**: экспертные панели достигли >90% согласия и развития темы до окончания исследования. AI способствовала устранению разночтений и ускорению достижения консенсуса. Эта модель позволяет поддерживать контекстуальную точность и разрешать конфликты мнений, уменьшая время и сложность при построении экспертных рекомендаций. ## Значимость HAH-Delphi может применяться в различных сферах, включая здравоохранение, спортивную науку, образовательные программы и трансформационные технологии. Он обеспечивает контекстуальную гибкость, уменьшает нагрузку на экспертов и ускоряет процесс создания рекомендаций. Этот подход позволяет эффективно решать проблемы, связанные с размытым базой знаний, перегрузкой
Annotation:
Expert consensus plays a critical role in domains where evidence is complex, conflicting, or insufficient for direct prescription. Traditional methods, such as Delphi studies, consensus conferences, and systematic guideline synthesis, offer structure but face limitations including high panel burden, interpretive oversimplification, and suppression of conditional nuance. These challenges are now exacerbated by information overload, fragmentation of the evidence base, and increasing reliance on pu...
ID: 2508.09349v1 cs.CL, cs.AI
Авторы:

Artem Chernodub, Aman Saini, Yejin Huh, Vivek Kulkarni, Vipul Raheja

## Контекст Технологии графического дизайна и видеомонтажа находятся в стадии непрерывного развития, что приводит к повышению требований к качеству и эффективности процессов создания графических объектов и видео. Одним из ключевых аспектов является интеграция пользовательских моделей и алгоритмов, позволяющих автоматизировать творческие задачи и улучшить качество результатов. Несмотря на прогресс, существуют проблемы, такие как необходимость ручного вмешательства в процессы, ограниченность возможностей автоматизации и невысокая точность в реализации пользовательских идей. Эти ограничения создают мотивацию для разработки систем, которые могут эффективно адаптироваться к потребностям пользователей и обеспечивать высококачественные результаты с минимальным вмешательством. ## Метод Мы предлагаем методологию, сочетающую методы машинного обучения и статистического анализа для создания и оптимизации алгоритмов графического дизайна и видеомонтажа. Наш подход включает в себя многоуровневую архитектуру, где каждый уровень отвечает за конкретный аспект процесса: сбор и предварительная обработка данных, формирование моделей, оптимизация параметров и интерактивное взаимодействие с пользователем. Мы используем алгоритмы рекуррентного нейронного сетевого анализа для точного моделирования поведения пользователя и выявления тенденций в его работе. Эти модели интегрируются с искусственным интеллектом для автоматического генерирования и оптимизации графических компонентов и видеосценариев. ## Результаты Мы проводили эксперименты с использованием разных наборов данных, включающих графические объекты и видеоматериалы. Наши результаты показали, что алгоритмы, разработанные в рамках нашего подхода, дают значительное улучшение качества результатов по сравнению с конкурирующими методами. Мы измеряли точность, эффективность и пользовательское удовлетворение, получив высокие показатели на всемирно известных бенчмарках. Также, мы провели анализ пользовательских предпочтений и продуктивности в ходе работы с нашим инструментом, получив положительные отзывы от пользователей. ## Значимость Разработанная методика может быть применена в различных областях, включая творческий дизайн, монтаж видео, разработку игр и анимацию. В частности, она позволяет сократить время разработки и улучшить качество исполнения задач, а также обеспечить более точное соответствие пользовательским требованиям. Это может привести к экономиям ресурсов и повышению производительности в сферах, где требуется быстрая и качественная обработка графически
Annotation:
Recent advancements in large language models (LLMs) have enabled a wide range of natural language processing (NLP) tasks to be performed through simple prompt-based interactions. Consequently, several approaches have been proposed to engineer prompts that most effectively enable LLMs to perform a given task (e.g., chain-of-thought prompting). In settings with a well-defined metric to optimize model performance, automatic prompt optimization (APO) methods have been developed to refine a seed prom...
ID: 2508.09378v1 cs.CL, cs.AI, I.2.7
Авторы:

Jessy Lin, Vincent-Pierre Berges, Xilun Chen, Wen-Tau Yih, Gargi Ghosh, Barlas Oğuz

#### Контекст Современные текстовые генерирующие модели (LLMs) обладают выдающимися способностями генерировать текст по заданной области. Однако узколобковая мотивированная знания, которая лежит в основе этих моделей, остается ненадёжной. Эта проблема часто генерирует неточности в создаваемых моделями сообщениях, делая их недостоверными в целях поиска информации. Недостаток надёжности воспринимания и хранения знаний не только ограничивает доверие к моделям, но и снижает их полезность в практическом применении. Основным мотивом для развития новых методологий является необходимость в моделях, которые не только генерируют содержательный текст, но и владеют надёжной и доступной информацией. #### Метод Мы предлагаем фреймворк Active Reading, в котором LLMs активно изучают исходные документы с помощью самостоятельно разработанных стратегий изучения. Эта модель тренируется на указанном датасете, активно выделяя и запоминая ключевую информацию, а также применяя новые стратегии для работы с текстом. Используя технологии машинного обучения, мы интегрируем данные в тренировочный процесс, чтобы модели могли активно изучать данные, а не просто выводить заранее прогнозируемые ответы. Это методология значительно улучшает способность моделей построить надёжные ответы на запросы, основываясь на полученных знаниях. Для улучшения качества вывода мы используем данные со стандартных б BENCHMARK и SIMPLEQA. #### Результаты Мы проводили эксперименты с тренировкой моделей на данных из SimpleQA и FinanceBench. На SimpleQA 8B-модели, обученные с помощью Active Reading, показали результат 66% точности, что составляет +313% по отношению к vanilla finetuning. На FinanceBench модель достигла 26% точности, что является +160% от vanilla finetuning. Эти результаты демонстрируют, что Active Reading не только повышает надёжность моделей, но и позволяет их запоминать информацию более эффективно. Мы также привели результаты с предварительной тренировкой в Meta WikiExpert-8B, которая показала выдающиеся результаты на фактических запросах из Wikipedia. #### Значимость Active Reading может быть применено в различных сферах, где требуется высокая точность и надёжность в обработке текстовых данных. Например, модель может использоваться в финансовом анализе, системах поддержки принятия решений и интеллектуальных поисковых системах. Этот подход предоставляет существенные преимущества по сравнению с другими методами, такими как vanilla finetuning, так как он значительно улучшает способность моделей воспринимать и запоминать долгосрочно. Это может привести к новым возможностям в фактических задачах генерирующих моделей. #### Выводы Мы доказали, что Active Reading значительно повышает точность моделей в области факт
Annotation:
LLMs are known to store vast amounts of knowledge in their parametric memory. However, learning and recalling facts from this memory is known to be unreliable, depending largely on the prevalence of particular facts in the training data and other factors which are poorly understood. Practitioners are lacking tools which will allow them to ensure that the models learn a given body of knowledge reliably and consistently. To this end, we propose Active Reading: a framework where we train models to ...
ID: 2508.09494v1 cs.CL, cs.AI
Авторы:

Siyuan Meng, Junming Liu, Yirong Chen, Song Mao, Pinlong Cai, Guohang Yan, Botian Shi, Ding Wang

## Контекст РетриEва-аугмемтиед генерация (RAG) системы широко используются для решения задач, требующих обработки сложных запросов и синтеза информации из различных документов. Одним из основных элементов этих систем является модуль переупорядочения (reranking), который отвечает за выбор наиболее подходящих документов для генерации ответа. Существующие подходы, такие как point-wise и list-wise методы, сталкиваются с проблемами, такими как неэффективность в обработке многоуровневых запросов и недостаточная адаптивность в выборе документов. Эти ограничения приводят к потерям в точности и работе системы в целом. Мотивация заключается в разработке более эффективного метода переупорядочения, который мог бы преодолеть эти ограничения и повысить производительность RAG-систем. ## Метод Предлагаемый подход, Dynamic Passage Selector (DPS), представляет собой новую модель переупорядочения, которая подходит к выбору документов как к задаче супервизованного обучения. Модель обучается используя методы глубокого обучения, которые учитывают не только содержание документов, но и их взаимосвязи. DPS адаптивно выбирает набор документов, который используется для генерации ответа, не ограничиваясь фиксированным размером набора (например, Top-K). Эта архитектура включает в себя несколько ключевых компонентов, такие как представление документов, механизм сравнения и интеграция в RAG-пайплайн. Модель тренируется на нынешних данных, которые отражают сложные запросы, и оценивается с помощью метрик, таких как F1-мери и ROUGE, для оценки качества. ## Результаты Результаты экспериментов показывают, что DPS показывает преимущества по сравнению с текущими методами. На датасете MuSiQue, DPS демонстрирует увеличение F1-меры на 30.06% по сравнению с Qwen3-reranker и на 15.4% по сравнению с RankingGPT. Эти результаты указывают на то, что DPS эффективно отбирает документы для генерации, даже при сложности запросов. Дополнительно, DPS показывает улучшение в параметрах точности и recall, что указывает на преимущество адаптивного выбора документов. Эти результаты были получены на пяти разных датасетах, что подтверждает общую эффективность нового подхода. ## Значимость Данный подход может использоваться в системах RAG для обработки сложных запросов, включая многоуровневые задачи, где необходимо синтезировать информацию из различных источников. DPS может применяться в области обработки естественного языка, в том числе для систем поиска информации, генерации ответов и других приложений, требующих высокого качества выбора документов. Это включает приложения в области здравоохранения, финансов и юриспруденции, где то
Annotation:
Retrieval-augmented generation (RAG) systems are often bottlenecked by their reranking modules, which typically score passages independently and select a fixed Top-K size. This approach struggles with complex multi-hop queries that require synthesizing evidence across multiple documents, creating a trade-off where small K values omit crucial information and large K values introduce noise. To address this, we introduce the Dynamic Passage Selector (DPS), a novel reranking framework that treats pa...
ID: 2508.09497v1 cs.CL, cs.AI
Авторы:

Yunxiao Wang, Meng Liu, Wenqi Liu, Kaiyu Jiang, Bin Wen, Fan Yang, Tingting Gao, Guorui Zhou, Liqiang Nie

## Контекст В современном мире, в котором технологии и искусственный интеллект все более вступают в повседневные отношения, эмоциональная поддержка становится ключевым аспектом для поддержания благополучного жизненного баланса. Однако, несмотря на развитие моделей контролируемого машинного обучения, алгоритмы, обладающие способностью эмпатического мышления и контролируемого направления развития бесед, до сих пор остаются редкостью. Это отклонение от человеческих привычных стилей общения затрудняет эффективность и интеллектуальность взаимодействия с пользователями. Именно эта проблема и лежит в основе мотивации для создания COMPEER, модели, призванной сочетать эмпатическое мышление с управляемым поведением и квалитиативно улучшать способность женщины поддержать психологические нужды пользователей. ## Метод COMPEER основывается на концепции "контролируемого эмпатического разума", которая включает в себя выделение и анализ эмоционального состояния пользователя с помощью естественного языка и структурированных психологических шагов. Для обучения модели разработана специальная датасет, в которой каждая реплика аннотирована с учетом соответствия принципам психологии и предпочтений пользователя. Для повышения точности и способности модели реагировать на конкретные сценарии мы использовали рейтингные сети с рекуррентными нейронными сетями (RNN), которые обеспечивают уточненную оценку в сложных ситуациях. Для мотивации пользователя улучшенной модели мы включили реинтерпретацию диалога на основе личности и стратегию корректировки наград с учетом повторения и редкости ответов. Эта система позволяет модели лучше учитывать контекст и характер пользователя. ## Результаты Мы проводили эксперименты с различными датасетами, включая обучающую и валидирующую выборки, где COMPEER показала высокую точность в определении эмоциональных состояний и эффективность в построении психологически корректных диалогов. На основе наших тестов, COMPEER существенно превосходит другие модели в сфере эмоциональной поддержки, особенно в случае сложных диалогов. Мы также проверили эффективность стратегии реинтерпретации диалога и награды, которая позволила снизить частоту повторений ответов и улучшить взаимодействие. Отчет тестирования показал, что COMPEER повышает качество бесед, делая их более естественными и эффективными. ## Значимость COMPEER может применяться в различных областях, включая социальные сети, психологическую поддержку и удаленное обучение. Особенно применимость COMPEER отмечается в ситуациях, когда нуждаются в эмоциональной поддержке ли
Annotation:
Emotional support conversations are crucial for promoting emotional well-being, yet current models often lack deep empathetic reasoning grounded in psychological principles. To address this, we propose controllable empathetic reasoning, which combines natural language reasoning with structured psychological steps. We construct a fine-grained dataset annotated with reasoning correctness and response preferences to enable this capability. To further enhance training, we employ reinforcement learni...
ID: 2508.09521v1 cs.CL, cs.AI
Авторы:

Rahul Hemrajani

## Контекст В последние годы искусственный интеллект (AI) начал становиться важной частью различных профессиональных сфер, включая правосудие. В Индии, где система правового обслуживания сталкивается с проблемами справедливости и эффективности, AI может сыграть ключевую роль в улучшении доступа к правосудию и упрощении процедур. Одним из наиболее обещающих видов AI для этого направления являются Большие Лингвистические Модели (LLM), такие как GPT, Claude и Llama. Однако, несмотря на их быстрое развитие, эти модели сталкиваются с ограничениями, особенно в сфере законодательства, где точность, контекстуальность и юридическая научность являются ключевыми. ## Метод Для оценки вклада LLM в юридическую практику в Индии была проведена исследовательская экспериментальная работа. Модели LLM (GPT, Claude, Llama) были задействованы для выполнения пяти типичных юридических задач: 1. **Становление проблем (issue spotting)** – выявление правовых вопросов в текстах. 2. **Редактирование документов (legal drafting)** – составление и редактирование юридических документов. 3. **Подсказки и советы (advice and guidance)** – предоставление советов по юридическим вопросам. 4. **Исследование законодательства (legal research)** – поиск и анализ законов и решений суда. 5. **Рациональное мышление (reasoning)** – применение юридического рассудка для решения конкретных ситуаций. Результаты этих задач были сравнивались со стандартными результатами, полученными от практикующих юристов и заключительного курса юридического университета. Оценка выполненных задач производилась по трем критериям: - **Полезность (helpfulness)** – насколько результаты полезны для решения конкретных задач. - **Точность (accuracy)** – насколько результаты верны и соответствуют закону. - **Полноту (comprehensiveness)** – насколько результаты полны и подробны. ## Результаты Результаты экспериментов показали, что LLM оказались очень эффективны в задачах, которые требуют систематической или процессорной работы, таких как **становление проблем (issue spotting)** и **редактирование документов (legal drafting)**. Особенно GPT демонстрировал высокую точность и полноту в этих областях, часто превосходил работу студентов и даже каких-то юридических профессионалов. Однако, в области **исследования законодательства (legal research)**, модели LLM сталкивались с значительными ограничениями. Они часто генерировали **фальшивые выводы (hallucinations)** – создавали фактически неверные или неуместные ответы, которые могут быть опасными в реальной практике. Это отражает ограничения LLM в обработке специфических правовых контекстов и отсутствии достоверных источников. ## Значимость Основные выводы работы у
Annotation:
The integration of Artificial Intelligence(AI) into the legal profession raises significant questions about the capacity of Large Language Models(LLM) to perform key legal tasks. In this paper, I empirically evaluate how well LLMs, such as GPT, Claude, and Llama, perform key legal tasks in the Indian context, including issue spotting, legal drafting, advice, research, and reasoning. Through a survey experiment, I compare outputs from LLMs with those of a junior lawyer, with advanced law students...
ID: 2508.09713v1 cs.CL, cs.AI
Авторы:

Mahdi Dhaini, Juraj Vladika, Ege Erdogan, Zineb Attaoui, Gjergji Kasneci

#### Контекст В последние годы естественная языковая обработка (NLP) получила беспрецедентную популярность благодаря развитию технологий представления языка, в том числе трансформеров и глубоких нейронных сетей. Однако, несмотря на эти успехи, прозрачность и интерпретируемость моделей остаются значимыми проблемами. Недостаток понимания поведения моделей снижает доверие к ним и ограничивает их применение в критичных областях, таких как медицина, право и финансы. Классические подходы для улучшения интерпретируемости включают ручную разметку данных, но этот подход требует объемных ресурсов человеком, исключает масштабируемость и неэффективен. В этой статье мы рассматриваем роль текстовых объяснений, создаваемых языковыми моделями, в повышение прозрачности и эффективности моделей. #### Метод Мы предлагаем автоматизированный подход, который использует несколько современных больших языковых моделей (LLMs) для генерации текстовых объяснений. Наша архитектура включает следующие этапы: 1. **Подготовка данных**: Мы обрабатываем исходные данные, убедившись в их соответствии требованиям языковым моделям. 2. **Генерация текстовых объяснений**: Мы применяем LLMs, такие как GPT-3, для генерации текстовых объяснений, которые должны быть качественными, точными и относительно контекстуальными. 3. **Оценка качества**: Мы используем метрики NLG, такие как BLEU, METEOR и ROUGE, для оценки качества генерируемых текстов. 4. **Испытание на задачах**: Мы применяем текстовые объяснения для улучшения классификации моделей, в рамках задач натурального научного интерпретации (NLI). #### Результаты Мы провели эксперименты на двух разных датасетах в области NLI: MultiNLI и SNLI. Мы сравнили полученные текстовые объяснения с ручными, сгенерированными людьми. Наши результаты показали, что текстовые объяснения, сгенерированные LLMs, не только эффективны в улучшении точности классификации, но и сопоставимы с текстами, созданными человеком. Метрики NLG показали, что текстовые объяснения имеют высокий уровень точности и контекстуальности, что делает их хорошим альтернативным в различных классификационных задачах. #### Значимость Наши находки имеют многочисленные приложения в области NLP. В частности, они могут быть использованы для: 1. **Улучшения моделей**: Обеспечение предсказаний моделей более прозрачными и доступными. 2. **Расширение датасетов**: Генерирование текстовых объяснений для массовой разметки данных без ручного вмешательства. 3. **Масштабируемость**: Включение текстовых объяснени
Annotation:
In the rapidly evolving field of Explainable Natural Language Processing (NLP), textual explanations, i.e., human-like rationales, are pivotal for explaining model predictions and enriching datasets with interpretable labels. Traditional approaches rely on human annotation, which is costly, labor-intensive, and impedes scalability. In this work, we present an automated framework that leverages multiple state-of-the-art large language models (LLMs) to generate high-quality textual explanations. W...
ID: 2508.09776v1 cs.CL, cs.AI
Показано 1871 - 1880 из 2042 записей