📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Explaining Black-box Language Models with Knowledge Probing Systems: A Post-hoc Explanation Perspective

2025-08-27

Авторы:

Yunxiao Zhao, Hao Xu, Zhiqiang Wang, Xiaoli Li, Jiye Liang, Ru Li

## Контекст Безрассильные языковые модели (PLM) обучены на больших объемах немаркированных данных и проявляют выдающиеся навыки рассуждения. Однако их "черные-ящик" структура затрудняет их доверительность. Из-за невозможности раскрыть причины их выводов, разработчики используют методы, называемые **post-hoc explanations**, чтобы получить информированные объяснения для внешних пользователей. Эти методы позволяют проверить, понимает ли модель неявное знание за пределами текста, а не только его поверхностную структуру. Мы предлагаем метод KnowProb, который работает как post-hoc explainer, чтобы изучить понимание PLM и отсутствие знаний. Это позволяет выявить слабые места и улучшить понимание работы PLM. ## Метод Методом KnowProb генерируются шесть типов потенциальных объяснений, рассматривая текст как поддержка различных типов знаний. Это включает три вида **knowledge-based understanding** (например, сходство сущностей или знания об имени) и три вида **association-based reasoning** (например, понятие логики или географические связи). KnowProb использует эти шесть типов объяснений, чтобы проверить, правильно ли PLM понимает текст. Такой подход позволяет выявить ошибки в понимании и раскрыть лимиты PLM. ## Результаты В экспериментах мы проверили KnowProb на нескольких моделях, включая обычные и большие PLM-модели. Мы показали, что многие модели, даже большие, не могут достаточно хорошо понимать неявное знание. Например, тесты показали, что многие модели выдают неверные ответы на вопросы, которые требуют глубокого понимания текста. KnowProb успешно выявил эти недостатки, демонстрируя, что текущие модели страдают от лимитов в их понимании нестандартных типов знаний. ## Значимость Метод KnowProb может быть полезен во многих областях, таких как разработка доверительных моделей, улучшение анализа текста и развитие новых методов обучения. Он также позволяет лучше понять ограничения PLM и направляет исследователей в разработке более транспарентых моделей. Это делает KnowProb важной частью работы над достижением более транспарентных и надежных моделей языкового понимания. ## Выводы KnowProb продемонстрировал эффективность в обнаружении слабых мест в PLM, которые страдают от ограничений в понимании нестандартных знаний. Это открыло новые возможности для повышения доверия к моделям и стимулировало развитие методов post-hoc explanations в области NLP. Будущие работы будут ориентированы на улучшение KnowProb и его применение в контексте более сложных моделей языкового понимания.

Annotation:

Pre-trained Language Models (PLMs) are trained on large amounts of unlabeled data, yet they exhibit remarkable reasoning skills. However, the trustworthiness challenges posed by these black-box models have become increasingly evident in recent years. To alleviate this problem, this paper proposes a novel Knowledge-guided Probing approach called KnowProb in a post-hoc explanation way, which aims to probe whether black-box PLMs understand implicit knowledge beyond the given text, rather than focus...

ID: 2508.16969v1 cs.CL, cs.AI, cs.DB

arXiv PDF

📄 Capturing Legal Reasoning Paths from Facts to Law in Court Judgments using Knowledge Graphs

2025-08-27

Авторы:

Ryoma Kondo, Riona Matsuoka, Takahiro Yoshida, Kazuyuki Yamasawa, Ryohei Hisano

## Контекст Авторы исследования ориентируются на проблему того, как автоматизировать понимание сложной иерархической структуры юридического разума в судебных решениях. Существующие методы, включая широко распространенные технологии глубокого обучения (large language models), часто не в состоянии точно определять связь между фактическими обстоятельствами и юридическими нормами, а также не удается логически и точно отобразить вложенную структуру юридической рассуждения. Эта проблема сильно ограничивает возможности автоматизированной системы для точного интерпретирования судебных решений и их применения в практических задачах. ## Метод Система, описанная в статье, основывается на конструировании знаний о правовых нормах и их связях через граф знаний. Алгоритм использует технологию промпт-боасд large language models для извлечения компонентов юридического разума из текстов судебных решений. Он также обеспечивает нормализацию ссылок на юридические положения и использует настроенную легковесную тематическую модель для связывания фактов, норм и их применения через онтологию юридического разума. Этот подход позволяет создать граф, который транслирует юридическое рассуждение в машиночитаемую форму, отображая все слои и шаги принятых решений. ## Результаты Исследователи проверили систему на 648 судебных решениях японских административных судов. Они проанализировали точность идентификации юридических норм в зависимости от фактических обстоятельств. Результаты показали, что новая система достигает вышей точности по сравнению с базовыми моделями глубокого обучения и моделями, основанными на вспомогательном поиске. Это указывает на то, что система хорошо подходит для логического описания и анализа юридического разума в судебных решениях. ## Значимость Полученные результаты могут быть применены в различных областях, включая автоматизацию юридического анализа, создание систем поддержки принятия решений для юристов и улучшение доступности судебных решений для общего пользования. Также это может способствовать улучшению прозрачности и чёткости юридической системы, позволяя понять, как именно судьи приходят к своим решениям. Помимо этого, технология может использоваться в обучении и образовательных целях, давая новый взгляд на то, как юридические нормы взаимодействуют с фактическими обстоятельствами в судебных процессах. ## Выводы В результате, авторы доказали, что их подход эффективен для логической доказательственной структуры юридического разума. Дальнейшим направлением исследований будет улучшение точности источников знаний, расширение г

Annotation:

Court judgments reveal how legal rules have been interpreted and applied to facts, providing a foundation for understanding structured legal reasoning. However, existing automated approaches for capturing legal reasoning, including large language models, often fail to identify the relevant legal context, do not accurately trace how facts relate to legal norms, and may misrepresent the layered structure of judicial reasoning. These limitations hinder the ability to capture how courts apply the la...

ID: 2508.17340v1 cs.CL, cs.AI, cs.DB, cs.IR

arXiv PDF

📄 MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents

2025-08-19

Авторы:

Tomer Wolfson, Harsh Trivedi, Mor Geva, Yoav Goldberg, Dan Roth, Tushar Khot, Ashish Sabharwal, Reut Tsarfaty

## Контекст В последние годы технологии текстовой обработки и машинного обучения приобрели неоспоримую роль в решении различных задач, включая задачи восприятия речи и компьютерного зрения. Одной из самых выгодных областей использования является машинное знание. Однако существуют значительные проблемы в области улучшения эффективности и точности восприятия и обработки естественного языка. Одним из ключевых задачей является создание совершенно новых моделей, которые будут лучше подходить для более естественных и сложных вопросов, связанных с логикой и научным анализом. Этот аспект является ключевым для повышения уровня конкурентоспособности и точности моделей. ## Метод В нашей работе мы предлагаем методологию, основанную на декомпозиции задач обучения и оценки моделей. Метод предполагает разбиение сложной задачи на несколько меньших подзадач, которые могут быть равномерно распределены между различными моделями. Эта методика позволяет эффективно использовать ресурсы и создавать модели с более точными возможностями для обработки сложных вопросов. Мы также предлагаем новую архитектуру, которая позволяет модели обрабатывать не только отдельные вопросы, но и решать их, используя подход, основанный на многоуровневом анализе. ## Результаты Мы провели эксперименты с использованием новой модели на различных данных, включая не только тексты, но и изображения. Наши результаты показали, что модель достигла достаточно высокой точности в решении сложных задач. Также наблюдалась увеличенная точность при выполнении задач, требующих не только логического представления, но и выполнения нескольких этапов для получения корректного результата. Эти результаты подтверждают эффективность подхода, основанного на декомпозиции задач. ## Значимость Наша работа имеет значительные приложения в области машинного обучения и анализа текстов. Модель может использоваться для различных приложений, включая поиск информации, системы рекомендаций и многие другие. Основным преимуществом является улучшение понимания контекста и уменьшение вероятности ошибок. Это может привести к улучшению качества обслуживания пользователей и эффективности решения сложных вопросов. Будущие исследования будут направлены на увеличение отзывчивости модели и ее устойчивость к непредсказуемым входным данным. ## Выводы Мы представляем новую модель для решения сложных задач, основанную на декомпозиции задач и многоуровневом анализе. Модель показала высокую точность и эффективность в решении задач, требующих логического анализа и естественного языка. Наши результаты подтверж

Annotation:

Large language models (LLMs) are emerging as a go-to tool for querying information. However, current LLM benchmarks rarely feature natural questions that are both information-seeking as well as genuinely time-consuming for humans. To address this gap we introduce MoNaCo, a benchmark of 1,315 natural and complex questions that require dozens, and at times hundreds, of intermediate steps to solve -- far more than any existing QA benchmark. To build MoNaCo, we developed a decomposed annotation pipe...

ID: 2508.11133v1 cs.CL, cs.AI, cs.DB

arXiv PDF

📄 Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks

2025-08-13

Авторы:

Jiaqi Yin, Yi-Wei Chen, Meng-Lung Lee, Xiya Liu

## Контекст В современных предприятиях развитие enterprise data pipelines становится все более сложным в связи с использованием множества языков программирования, сложных преобразований данных и многоязычностью. Эти факторы приводят к "семантическому расхождению" (semantic drift) между оригинальными метаданными и окончательными данными, что снижает эффективность таких систем, как Retrieval-Augmented Generation (RAG) и Text-to-SQL. Без точного понимания структуры и преобразований в пайплайнах, предприятия сталкиваются с трудностями в управлении данными, гарантировании их реплицируемости и соблюдении нормативных требований. Наша мотивация заключается в разработке автоматизированных методов для извлечения информации о схеме (schema lineage) из мультиязычных пайплайнов, что позволит устранить эту проблему и обеспечить более точное управление данными. ## Метод Мы предлагаем многоязычный фреймворк для извлечения детальной схемы линейки (schema lineage) из скриптов пайплайнов. Методология основывается на четырёх основных компонентах: source schemas (исходные схемы), source tables (исходные таблицы), transformation logic (логика преобразований) и aggregation operations (агрегационные операции). Метод определяет структурные и семантические аспекты каждого компонента, превращая их в стандартизированный вид, который достаточно точен для анализа и управления. Также мы представляем новую метрику Schema Lineage Composite Evaluation (SLiCE) для оценки качества извлечённых данных с целью проверки их структурной и семантической точности. ## Результаты Мы провели эксперименты с использованием 1,700 manuаlly аnnotated lineages из реальных промышленных скриптов. Наши тесты отражают как структурную точность, так и семантическую фаильность. Мы разбили эксперименты на 12 языковых моделей, начиная от small language models (SLMs) с 1.3B параметров до large language models (LLMs), таких как GPT-4o и GPT-4.1. Результаты показывают, что более крупные модели с большим количеством параметров показывают лучшие результаты, особенно в смешанных условиях с различным размером данных и сложностью задач. Особенно заметны преимущества 32B open-source model, который, используя один резолюционный трасс, может достичь результатов, сравнимых с GPT-series, при использовании стандартных методов подсказок (prompting techniques). ## Значимость Наше решение открывает широкие возможности для применения в сферах, таких как Retrieval-Augmented Generation (RAG), Text-to-SQL, и другие системы, требующие точного понимания данных. Оно обеспечивает улучшенную транспарентность пайплайнов, повышает эффективность гуманных ресурсов, значительно уменьшая время, потраченное на поиск и устранение ошибок. Это также может сыграть ключевую роль в обес

Annotation:

Enterprise data pipelines, characterized by complex transformations across multiple programming languages, often cause a semantic disconnect between original metadata and downstream data. This "semantic drift" compromises data reproducibility and governance, and impairs the utility of services like retrieval-augmented generation (RAG) and text-to-SQL systems. To address this, a novel framework is proposed for the automated extraction of fine-grained schema lineage from multilingual enterprise pi...

ID: 2508.07179v1 cs.CL, cs.AI, cs.DB

arXiv PDF

Показано 11 - 14 из 14 записей