📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Cheonkam Jeong, Sungdo Kim, Jewoo Park
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Contemporary language models are fluent yet routinely mis-handle the types of
meaning their outputs entail. We argue that hallucination, brittle moderation,
and opaque compliance outcomes are symptoms of missing type-theoretic semantics
rather than data or scale limitations. Building on Montague's view of language
as typed, compositional algebra, we recast alignment as a parsing problem:
natural-language inputs must be compiled into structures that make explicit
their descriptive, normative, and...
Авторы:
James Ravi Kirkpatrick, Rachel Katharine Sterken
####################
## Контекст
####################
Область исследования фокусируется на исследовании возможностей бо LLM (Large Language Models) в области дефеасильного логического рассуждения, заключающегося в работе с генериками и умозрительными выводами. Генерики (например, "Птицы летают", "Черные вороны") широко исследуются в лингвистике, философии, логике и психологии. Эти утверждения характеризуются своей способностью допускать исключения, что делает их важной составляющей умозрительного рассуждения и понятийного приобщения.
Несмотря на их центральность, дефеасильное рассуждение часто представляет собой сложную задачу для логических моделей. Особенностью работы является оценка возможности 28 LLMs осуществлять дефеасильное рассуждение с использованием 20 различных моделей немонотонной логики. Это направление исследований имеет практическое значение для развития интеллектуальных систем, где важна способность машин осуществлять умозрительные выводы на основе неполных или исключительных данных.
####################
## Метод
####################
Использовались 28 LLMs, алгоритмы и методики дефеасильного рассуждения. Характеристики каждой модели включали в себя информацию о размере, архитектуре, обучении и возможности использования форматов подсказок (prompting). Набор используемых данных состоял из 20 моделей дефеасильного логического рассуждения, включая генерики и их исключения. Модели проверяли на способности различать дефеасильные и дедуктивные выводы, а также на точность в определении подходящих исключений.
Для оценки производительности различные типы подсказок использовались: zero-shot, few-shot, chain-of-thought (CoT). Эксперименты проводились с различными уровнями температуры (temperature), чтобы изучить влияние случайности на результаты. Данные обрабатывались с помощью статистических методов для оценки точности, достоверности и качества выводов.
####################
## Результаты
####################
Проведенные эксперименты показали, что некоторые модели LLMs демонстрируют высокую точность в дефеасильном логическом рассуждении, особенно при использовании стиля подсказок chain-of-thought (CoT). Однако полученные результаты очень сильно различаются между моделями и в зависимости от стиля подсказки.
Заметно, что многие модели склонны интерпретировать генерики как универсальные утверждения, что приводит к ошибкам. Также, значительная часть моделей сталкивалась с трудностями при различении дефеасильных и дедуктивных выводов. Использование few-shot prompting по-прежнему давало незначительное повышение производительности, но chain-of-thought (CoT) prompting часто приводило к существенной деградации результатов (средняя ошиб
Annotation:
This paper evaluates the capabilities of 28 large language models (LLMs) to
reason with 20 defeasible reasoning patterns involving generic generalizations
(e.g., 'Birds fly', 'Ravens are black') central to non-monotonic logic.
Generics are of special interest to linguists, philosophers, logicians, and
cognitive scientists because of their complex exception-permitting behaviour
and their centrality to default reasoning, cognition, and concept acquisition.
We find that while several frontier model...