📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Cheonkam Jeong, Sungdo Kim, Jewoo Park

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Contemporary language models are fluent yet routinely mis-handle the types of meaning their outputs entail. We argue that hallucination, brittle moderation, and opaque compliance outcomes are symptoms of missing type-theoretic semantics rather than data or scale limitations. Building on Montague's view of language as typed, compositional algebra, we recast alignment as a parsing problem: natural-language inputs must be compiled into structures that make explicit their descriptive, normative, and...
ID: 2510.06559v1 cs.CL, cs.AI, cs.LO
Авторы:

James Ravi Kirkpatrick, Rachel Katharine Sterken

#################### ## Контекст #################### Область исследования фокусируется на исследовании возможностей бо LLM (Large Language Models) в области дефеасильного логического рассуждения, заключающегося в работе с генериками и умозрительными выводами. Генерики (например, "Птицы летают", "Черные вороны") широко исследуются в лингвистике, философии, логике и психологии. Эти утверждения характеризуются своей способностью допускать исключения, что делает их важной составляющей умозрительного рассуждения и понятийного приобщения. Несмотря на их центральность, дефеасильное рассуждение часто представляет собой сложную задачу для логических моделей. Особенностью работы является оценка возможности 28 LLMs осуществлять дефеасильное рассуждение с использованием 20 различных моделей немонотонной логики. Это направление исследований имеет практическое значение для развития интеллектуальных систем, где важна способность машин осуществлять умозрительные выводы на основе неполных или исключительных данных. #################### ## Метод #################### Использовались 28 LLMs, алгоритмы и методики дефеасильного рассуждения. Характеристики каждой модели включали в себя информацию о размере, архитектуре, обучении и возможности использования форматов подсказок (prompting). Набор используемых данных состоял из 20 моделей дефеасильного логического рассуждения, включая генерики и их исключения. Модели проверяли на способности различать дефеасильные и дедуктивные выводы, а также на точность в определении подходящих исключений. Для оценки производительности различные типы подсказок использовались: zero-shot, few-shot, chain-of-thought (CoT). Эксперименты проводились с различными уровнями температуры (temperature), чтобы изучить влияние случайности на результаты. Данные обрабатывались с помощью статистических методов для оценки точности, достоверности и качества выводов. #################### ## Результаты #################### Проведенные эксперименты показали, что некоторые модели LLMs демонстрируют высокую точность в дефеасильном логическом рассуждении, особенно при использовании стиля подсказок chain-of-thought (CoT). Однако полученные результаты очень сильно различаются между моделями и в зависимости от стиля подсказки. Заметно, что многие модели склонны интерпретировать генерики как универсальные утверждения, что приводит к ошибкам. Также, значительная часть моделей сталкивалась с трудностями при различении дефеасильных и дедуктивных выводов. Использование few-shot prompting по-прежнему давало незначительное повышение производительности, но chain-of-thought (CoT) prompting часто приводило к существенной деградации результатов (средняя ошиб
Annotation:
This paper evaluates the capabilities of 28 large language models (LLMs) to reason with 20 defeasible reasoning patterns involving generic generalizations (e.g., 'Birds fly', 'Ravens are black') central to non-monotonic logic. Generics are of special interest to linguists, philosophers, logicians, and cognitive scientists because of their complex exception-permitting behaviour and their centrality to default reasoning, cognition, and concept acquisition. We find that while several frontier model...
ID: 2508.13718v1 cs.CL, cs.AI, cs.LO