📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DyBBT: Dynamic Balance via Bandit inspired Targeting for Dialog Policy with Cognitive Dual-Systems

2025-09-26

Авторы:

Shuyu Zhang, Yifan Wei, Jialuo Yuan, Xinru Wang, Yanmin Zhu, Bin Li

## Контекст Задача-ориентированные диалоговые системы широко применяются в различных сферах, но столкнутся с рядом проблем, связанных с оптимальным поведением в динамических условиях. Одной из основных проблем является неэффективность исследования, которая возникает из-за статических стратегий, не учитывающих динамические изменения контекста диалога. Это приводит к неэффективному использованию ресурсов и последующим снижению качества работы системы. Эти проблемы мотивируют разработку новых алгоритмов, которые могут адаптироваться к изменяющимся условиям. ## Метод DyBBT (Dynamic Balance via Bandit inspired Targeting) представляет собой инновационный подход к диалоговому политическому обучению, который использует мета-контроллер, основанный на бандитной модели. Фреймворк определяет структурированное пространство состояний, которое учитывает прогресс диалога, неоднозначность пользователя и зависимость слотов. DyBBT адаптирует свое поведение в реальном времени, используя Bandit-inspired meta-controller, который в зависимости от обстоятельств переключается между быстрым "интуитивным" подходом (System 1) и медленным "дебаттерным" подходом (System 2). Это позволяет системе динамически адаптироваться к изменяющимся диалоговым условиям. ## Результаты Эксперименты проводились на двух моделях: обучение с учителем и zero-shot. Архитектура DyBBT показала выдающиеся результаты в плане успешности, эффективности и генерализации. На точности выполнения запросов она показала значительное улучшение по сравнению с базовыми моделями, использующими статические стратегии. Благодаря реализации динамического переключения между двумя подходами, DyBBT не только увеличивает производительность, но и обеспечивает более точное понимание контекста диалога. ## Значимость Предложенный подход может быть применен в различных областях, где требуется эффективное диалоговое взаимодействие. Например, в сферах сервисного обслуживания, медицины, финансов или любых других сферах, где требуется динамическая адаптация к пользовательским потребностям. Этот подход позволяет достичь высокой производительности, гармоничного взаимодействия с пользователем и эффективного использования ресурсов. Таким образом, он может существенно повысить качество диалоговых систем, улучшить пользовательский опыт и увеличить их эффективность. ## Выводы DyBBT демонстрирует значительные улучшения в области диалоговых систем, предлагая динамический подход к политическому обучению, который учитывает динамические изменения контекста. Он показал результаты, гораздо выше стандартных моделей, и продемонстрировал

Annotation:

Task oriented dialog systems often rely on static exploration strategies that do not adapt to dynamic dialog contexts, leading to inefficient exploration and suboptimal performance. We propose DyBBT, a novel dialog policy learning framework that formalizes the exploration challenge through a structured cognitive state space capturing dialog progression, user uncertainty, and slot dependency. DyBBT proposes a bandit inspired meta-controller that dynamically switches between a fast intuitive infer...

ID: 2509.19695v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 HiCoLoRA: Addressing Context-Prompt Misalignment via Hierarchical Collaborative LoRA for Zero-Shot DST

2025-09-26

Авторы:

Shuyu Zhang, Yifan Wei, Xinru Wang, Yanmin Zhu, Yangfan He, Yixuan Weng, Bin Li

#### Контекст Zero-shot Dialog State Tracking (zs-DST) является кллючевым компонентом для обеспечения гибкости и обобщаемости Task-Oriented Dialog Systems (TODs) при работе с новыми доменами без необходимости дорогостоящей аннотации данных. Однако, эта задача сталкивается с значительными вызовами, связанными с semantic misalignment между динамичными dialog contexts и статичными prompts. Это приводит к проблемам, таким как inflexible cross-layer coordination, domain interference, и catastrophic forgetting. Таким образом, целью данного исследования является разработка эффективного подхода, который улучшит cross-domain generalization zs-DST, устранив эти проблемы. #### Метод HiCoLoRA — это новая архитектура, основанная на Hierarchical Collaborative Low-Rank Adaptation (HiCoLoRA), которая улучшает zero-shot slot inference через robust prompt alignment. Основной элемент данного подхода — hierarchical LoRA architecture, которая обеспечивает dynamic layer-specific processing. Эта архитектура комбинирует lower-layer heuristic grouping с higher-layer full interaction для более точного взаимодействия в различных слоях. Также, в HiCoLoRA используется Spectral Joint Domain-Slot Clustering для идентификации transferable associations, которые подключаются к Adaptive Linear Fusion Mechanism для более точного объединения этих связей. Для сохранения и превращения pre-trained knowledge в новые знания во время fine-tuning, в HiCoLoRA используется Semantic-Enhanced SVD Initialization (SemSVD-Init). #### Результаты Запуск HiCoLoRA на мульти-доменных датасетах MultiWOZ и SGD показал его превосходство над существующими baseline-ами в zs-DST. Он достиг совершенно новых результатов в этой области, обеспечив State-of-the-Art (SOTA) результаты. Эксперименты проводились с различными параметрами и настройками, подтверждающими значительные преимущества HiCoLoRA в области cross-domain generalization и zero-shot slot inference. Код, реализующий данный подход, доступен на GitHub по ссылке: https://github.com/carsonz/HiCoLoRA. #### Значимость HiCoLoRA может быть использован в различных приложениях, таких как Task-Oriented Dialog Systems (TODs), которые требуют гибкой и обобщаемой обработки запросов в различных ситуациях. Основные преимущества HiCoLoRA включают в себя enhanced cross-layer coordination, domain interference reduction, и robust zero-shot slot inference. Данный подход имеет потенциал для значительного улучшения quality и efficiency в Task-Oriented Dialog Systems, обеспечивая более гибкое и эффективное обращение к динамичным запросам в новых доменах. #### Выводы HiCoLoRA продемонстрировал свою эффективность в решении проблем с semantic misalignment в zero-shot Dialog State Tracking. Он позиционируется как State-of-the-Art решение для новых доменов без необходимости дополнительных данных. Будущими направлениями исследований будут: улучшение adaptive fusion mechanisms, расширение поддержки датасетов, и исследование дальнейшего улучшения zero-shot generalization across различных NLP-задач.

Annotation:

Zero-shot Dialog State Tracking (zs-DST) is essential for enabling Task-Oriented Dialog Systems (TODs) to generalize to new domains without costly data annotation. A central challenge lies in the semantic misalignment between dynamic dialog contexts and static prompts, leading to inflexible cross-layer coordination, domain interference, and catastrophic forgetting. To tackle this, we propose Hierarchical Collaborative Low-Rank Adaptation (HiCoLoRA), a framework that enhances zero-shot slot infer...

ID: 2509.19742v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering

2025-09-25

Авторы:

Alireza Salemi, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Zhuowan Li, Spurthi Amba Hombaiah, Weize Kong, Tao Chen, Hamed Zamani, Michael Bendersky

## Контекст Персонализация вопроса-ответа (QA) является ключевым фактором для улучшения системы ответа на вопросы, адаптируя ее к конкретным потребностям пользователя. Подобная персонализация повышает точность ответов и удовлетворенность пользователей. Однако личная задача QA остается недооцененной из-за сложностей, таких как вывод приדыхательных предпочтений из длинных, шумных и неявных контекстов, а также генерация ответов, которые были бы в то же время точными, контекстуально подходящими и соответствующими ожиданиям пользователей и своим фоновым знаниям. Чтобы справиться с этими вызовами, предлагается подход Pathways of Thoughts (PoT), который может быть применен к любому большому языковому модели (LLM) без необходимости дорогостоящего переобучения. ## Метод Подход PoT интерпретирует процесс рассуждения LLM как итеративный процесс принятия решений, где модель выбирает из нескольких моментов рассуждения, таких как рассуждение, пересмотр, персонализация и уточнение. Это позволяет рассмотреть несколько логических траекторий, производя разнообразные кандидатские ответы, которые отражают различные точки зрения. Затем PoT агрегирует и перераспределяет эти кандидаты в соответствии с интерпретированными пользовательскими предпочтениями, чтобы получить последний ответ, который объединяет достоинства множества логических траекторий. Основные моменты: - **Многонаправленные рассуждения**: PoT развивает несколько потенциальных логических траекторий, чтобы отражать широкий спектр возможных точек зрения. - **Персонализация**: Модель интерпретирует пользовательские предпочтения на основе контекста, чтобы избежать неточностей и неверных предположений. - **Решение в реальном времени**: PoT применяет динамические выборки между моментами рассуждения, чтобы принимать решения во время работы. ## Результаты Исследования проводились на наборе данных LaMP-QA, предназначенном для задачи персонализации QA. Эксперименты показали, что PoT превосходит современные подходы, демонстрируя до 13,1% относительного улучшения в точности. Человеко-анализ подтвердил эти результаты: 66% ответов, сгенерированных с помощью PoT, были считаны лучшими, а только 15% ответов привели к спорным ситуациям. Эти результаты показывают, что PoT эффективно интегрирует несколько логических траекторий для генерирования ответов, которые являются точными, контекстуально подходящими и удовлетворяют ожиданиям пользователя. ## Значимость Протокол PoT может быть применен в различных сценариях, таких как общение с ботами, техническая поддержка и медицинское консультирование. Он предоставляет сле

Annotation:

Personalization is essential for adapting question answering (QA) systems to user-specific information needs, thereby improving both accuracy and user satisfaction. However, personalized QA remains relatively underexplored due to challenges such as inferring preferences from long, noisy, and implicit contexts, and generating responses that are simultaneously correct, contextually appropriate, and aligned with user expectations and background knowledge. To address these challenges, we propose Pat...

ID: 2509.19094v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Combining Evidence and Reasoning for Biomedical Fact-Checking

2025-09-19

Авторы:

Mariano Barone, Antonio Romano, Giuseppe Riccio, Marco Postiglione, Vincenzo Moscato

Да ## Контекст Загруженность медицинских систем и внезапное возвращение многих заболеваний приводят к углубленному интересу к улучшению методов защиты организма. Одна из самых серьезных проблем в этой области является биомедицинское факт-чекинг, которое способствует улучшению общественного наблюдения за осведомленностью о здравоохранении и доверию к медицинским отделениям. Несмотря на то, что современные технологии машинного обучения и естественного языкового обработки позволяют автоматизировать часть процесса факт-чекинга, эта область остается недостаточно развитой из-за трудностей с верификацией биомедицинских утверждений. Эти утверждения часто имеют сложную терминологию, требуют специализированного знания, и требуют тщательной верификации на основе научных источников. Мы предлагаем **CER** (Combining Evidence and Reasoning), новую систему, которая активно интегрирует основные научные статьи, логическое рассуждение и супервизированные подходы к проверке утверждений. Такая интеграция позволяет проверять утверждения с большей точностью и меньшими рисками генерации нереальных выводов (генерацией "галлюцинаций"). ## Метод **CER** представляет собой инновационный подход, который включает три основных компонента: 1. **Выборка Научных Источников**: Мы используем специальные методы поиска научных статей для определения предметной области утверждения. Эти методы обеспечивают высокую точность выбора источников, чтобы гарантировать, что выводы будут опираться на доказательства. 2. **Логическое Рассуждение**: Для проверки выбранных статей мы применяем методы логического рендеринга и вывода, которые позволяют использовать тексты для глубокого понимания и вывода выводов. 3. **Проверка Утверждений**: Используя супервизированное обучение, мы обучаем модель классификации для выявления достоверности утверждений. Это позволяет системе CER не только выявлять факты, но и оценивать их точность в зависимости от качества документов и контекста. ## Результаты Мы проверили **CER** на трех высококачественных биомедицинских датасетах: **HealthFC**, **BioASQ-7b**, и **SciFact**. Конкурентные модели, такие как SciBERT и PubMedBERT, не достигли такого уровня выстраивания логических выводов и факт-чекинга. Наши результаты показали, что **CER** обеспечивает лучшую точность и генеральную сходимость в сравнении с другими подходами. Один из ключевых показателей — не только количество корректных проверенных утверждений, но и способность не генерировать недостоверные выводы, что является критическим для реальных приложений в этой области. ## Зна

Annotation:

Misinformation in healthcare, from vaccine hesitancy to unproven treatments, poses risks to public health and trust in medical systems. While machine learning and natural language processing have advanced automated fact-checking, validating biomedical claims remains uniquely challenging due to complex terminology, the need for domain expertise, and the critical importance of grounding in scientific evidence. We introduce CER (Combining Evidence and Reasoning), a novel framework for biomedical fa...

ID: 2509.13879v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Combating Biomedical Misinformation through Multi-modal Claim Detection and Evidence-based Verification

2025-09-19

Авторы:

Mariano Barone, Antonio Romano, Giuseppe Riccio, Marco Postiglione, Vincenzo Moscato

#### Контекст Информационная миссинформация в окружении биомедицины, включая тренить с вакцинами и недоказанные лекарственные терапии, представляет вразумительные угрозы для общественной здравоохранной здоровья и поддержки научной литературы. Из-за сложных терминологий, тематических особенностей и критической роли убедительных данных, автоматизированное проверка фактов в этой области остается вызовом. Наша работа посвящена созданию нового фреймворка, который объединяет методы верификации, основанные на научных источниках и расширенные модели языка для повышения точности и надёжности факт-чекинга. #### Метод Мы предлагаем фреймворк CER (Combining Evidence and Reasoning), который сочетает в себе три основных модуля: верификация на основе научных статей, выводы с использованием группы языковых моделей и проверку предположений с помощью супервизованной модели. Используя текстовые генерации глубоких моделей, CER обеспечивает глубокую интеграцию с научной литературой, уменьшая вероятность вывода недостоверных предложений. Были применены специальные методы для поиска и отображения высококачественных данных из биомедицинских источников. #### Результаты Для оценки точности и эффективности фреймворка CER, мы провели эксперименты на трёх специализированных датасетах: HealthFC, BioASQ-7b и SciFact. Результаты показали, что CER превосходит существующие модели по нескольким метрикам, включая точность и всеобъемлющий показатель. Эксперименты с кросс-датасетовными проверками свидетельствуют о хорошей универсальности фреймворка. Код и данные доступны в репозитории на GitHub (https://github.com/PRAISELab-PicusLab/CER), чтобы обеспечить прозрачность и возможность повторения исследований. #### Значимость Фреймворк CER может быть применён в различных сферах, включая образовательные ресурсы, здравоохранение и политику в области здоровья. Он обеспечивает автоматизированную проверку фактов с высокой точностью, уменьшая время и ресурсы, необходимые для интерпретации биомедицинских данных. Это может способствовать улучшению общей доверительной ситуации в медицине и усилению научного осведомлённости в обществе. #### Выводы Наша работа доказывает, что CER является новым эффективным подходом к проверке биомедицинских утверждений. Он объединяет расширенные технологии языковых моделей и методы поиска научных данных для достижения высокой точности и надёжности процесса верификации. Будущие исследования будут стремиться расширить применение CER к различным биомедицинским тасклам и улучшить его надёжность в реальных условиях.

Annotation:

ID: 2509.13888v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 ALLabel: Three-stage Active Learning for LLM-based Entity Recognition using Demonstration Retrieval

2025-09-11

Авторы:

Zihan Chen, Lei Shi, Weize Wu, Qiji Zhou, Yue Zhang

## Контекст Одним из ключевых задач в научных исследованиях, таких как химия и материаловедение, является высокоточное распознавание сущностей (entity recognition) в больших научных данных. Эта задача требует больших вычислительных мощностей и подверждается ошибкам, когда сущности неправильно распознаются. Большие языковые модели (LLM) становятся популярнее для решения этой задачи, но их применение часто связано с высокими затратами, особенно в процессе файн-тюнинга. Из-за этого нуждается в разработке более эффективных подходов, которые бы уменьшили затраты, не ухудшая качество распознавания. ## Метод Мы предлагаем ALLabel — трехэтапную модель для активного обучения (active learning), которая применяет технологию воспроизведения демонстраций (demonstration retrieval) для повышения эффективности. В первом этапе модель выбирает самые сложные и неоднозначные примеры для аннотации, чтобы имитировать их ввод в модель. Во втором этапе эти примеры используются для создания корпуса для включения в контекстное обучение (in-context learning) модели. На третьем этапе ALLabel использует три различных стратегии активного обучения для последовательного улучшения качества распознавания сущностей. ## Результаты Мы провёрили эффективность ALLabel на трёх датасетах специализированных областей: химия, материаловедение и биология. Наши эксперименты показали, что ALLabel показывает высокую эффективность, требуя только 5-10% аннотаций для достижения результатов, которые не уступают базовым моделям, работавшим с полной аннотацией. Мы также провели анализы и исследовали различные аспекты модели, чтобы подтвердить её общие возможности и ликвидность в различных ситуациях. ## Значимость ALLabel может применяться во многих научных областях, где требуется высокоточное распознавание сущностей, таких как химия, материаловедение и биология. Она эффективно решает проблему высоких затрат на воспроизводство демонстраций и обучения моделей, снижая необходимый объём данных для тренировки. Это приводит к сокращению затрат на предобучение и высокому качеству распознавания сущностей. ## Выводы ALLabel демонстрирует свою эффективность в активном обучении для LLM-based entity recognition. Наши результаты показали, что модель успешно решает задачу распознавания сущностей с минимальными затратами, не уменьшая качество распознавания. В дальнейших исследованиях планируется расширить её применимость к другим специализированным областям, а также улучшить процессы выбора и аннотации данных.

Annotation:

Many contemporary data-driven research efforts in the natural sciences, such as chemistry and materials science, require large-scale, high-performance entity recognition from scientific datasets. Large language models (LLMs) have increasingly been adopted to solve the entity recognition task, with the same trend being observed on all-spectrum NLP tasks. The prevailing entity recognition LLMs rely on fine-tuned technology, yet the fine-tuning process often incurs significant cost. To achieve a be...

ID: 2509.07512v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 UNH at CheckThat! 2025: Fine-tuning Vs Prompting in Claim Extraction

2025-09-10

Авторы:

Joe Wilder, Nikhil Kadapala, Benji Xu, Mohammed Alsaadi, Aiden Parsons, Mitchell Rogers, Palash Agarwal, Adam Hassick, Laura Dietz

#### Контекст Задача CheckThat! 2025 по Task 2 English сосредоточена на выделении "проверяемых утверждений" из социальных медийных текстов. Это ключевая задача в области обнаружения и подтверждения истинности информации, что востребовано в условиях широкого распространения ложной информации. Существующие методы, такие как машинное обучение и естественное обучение с подкреплением, сталкиваются с проблемами, такими как недостаточная точность и необходимость больших объемов данных для обучения. Наша мотивация состоит в том, чтобы изучить и сравнить различные подходы к этой задаче, включая векторизацию, трансформеры и методы построения контекстной модели. #### Метод Мы использовали множество методов обучения для сравнения. Эти методы включали в себя: - **Прототипы моделей**: FLAN-T5, T0, GPT-4. - **Обучающие подходы**: векторизация входных данных, трансформеры для понимания языка, методы в контекстной модели. - **Алгоритмы**: глубокое обучение, трансформеры, методы построения контекстной модели. - **Оценка**: Мы применяли метрики, такие как МЕТЕОР, Раундхаус и BLEU, для оценки качества выделения утверждений. #### Результаты Мы провели эксперименты, используя данные из CheckThat! 2025. Наши модели были подготовлены на основе FLAN-T5 с разными подходами к обучению. Модель FLAN-T5, подготовленная с помощью метода fine-tuning, показала наилучший результат с МЕТЕОР-скоростью ~0.85. Однако, даже модели с более низким МЕТЕОР-скором давали выделить высококачественные утверждения, что подчеркнуло неоднозначность результатов. Мы также обнаружили, что подходы с трансформерами и векторизацией, такие как BERT, показали высокую эффективность при определенных условиях. #### Значимость Полученные результаты имеют значимость для развития технологий выделения проверяемых утверждений. Мы показываем, что модели, использующие трансформеры и методы построения контекстной модели, показывают высокую эффективность в задачах по борьбе с ложной информацией. Наш метод может быть применен в медиамониторинге, поиске информации и мониторинге социальных сетей для выявления и подтверждения проверяемых утверждений. #### Выводы Мы достигли существенных улучшений в методах выделения проверяемых утверждений с помощью методов fine-tuning и трансформеров. В будущем мы планируем расширить объем тренировочных данных, использовать более разнообразные модели и применить методы автоматического мониторинга для более точного выделения проверяемых утверждений. Эта работа может способствовать повышению уровня качества информации в интернете и в

Annotation:

We participate in CheckThat! Task 2 English and explore various methods of prompting and in-context learning, including few-shot prompting and fine-tuning with different LLM families, with the goal of extracting check-worthy claims from social media passages. Our best METEOR score is achieved by fine-tuning a FLAN-T5 model. However, we observe that higher-quality claims can sometimes be extracted using other methods, even when their METEOR scores are lower.

ID: 2509.06883v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 KERAG: Knowledge-Enhanced Retrieval-Augmented Generation for Advanced Question Answering

2025-09-09

Авторы:

Yushi Sun, Kai Sun, Yifan Ethan Xu, Xiao Yang, Xin Luna Dong, Nan Tang, Lei Chen

## Контекст Во времена распространения Large Language Models (LLMs) возникла проблема "hallucination" — ситуаций, когда модели генерируют неверные или неподтвержденные ответы. Это ограничивает применение LLMs в задачах типа Question Answering (QA). Одним из решений этой проблемы является Retrieval-Augmented Generation (RAG), который использует внешние источники данных для повышения точности. Классические Knowledge Graph Question Answering (KGQA) методы ограничены полнотой ответов из-за строгого схемопостроения и семантической неоднозначности. Наша модель KERAG использует Knowledge Graphs (KGs) для улучшения полноты и точности ответов на вопросы, а также для уменьшения шумов в процессе генерации. ## Метод KERAG — это усовершенствованный RAG-подход, который повышает полноту ответов за счет более широкого восприятия внешних источников. Мы предлагаем трёхэтапную архитектуру: **поиск**, **фильтрацию** и **суммирование**. В **поиске** используется широкий поиск по узлам и ребрам знаний в KG, что позволяет захватить более широкий контекст. **Фильтрация** отсеивает шумы, не относящиеся к данному вопросу. В **суммировании** используется цепочка-мысли (Chain-of-Thought) для построения решения. Эта цепочка-мысли применяется к выделенным подграфам в KG, подходящим под вопрос. Таким образом, мы улучшаем точность и полноту ответов, уменьшая шумы и неверные утверждения. ## Результаты Мы проверяли KERAG на нескольких наборах данных, включая сложные и простые вопросы. Наша модель показала **7% более высокое качество ответов** по сравнению с состоянием технологии. В параллельных экспериментах с GPT-4o (Tool), KERAG показал **10-21% выигрыш** в качестве ответов. Мы также использовали наборы данных с различными степенями сложности, включая тексты с сильным наклоном семантики. Эксперименты подтвердили, что KERAG эффективен в обработке обоих типов вопросов. ## Значимость KERAG может применяться в различных областях, включая вопросы финансового анализа, медицины, технического тестирования и других областей, где точность и полнота ответов критична. Этот подход позволяет LLMs более эффективно использовать внешние знания, уменьшая ошибки и увеличивая доверие пользователей. Будущие исследования будут сфокусированы на улучшении обработки текстов с большой семантической сложностью и расширении поддерживаемых типов вопросов. ## Выводы KERAG расширяет технологию RAG, улучшая полноту и точность ответов на вопросы. Мы показали, что наша модель превосходит конкуренты на 7% и GPT-4o (Tool) на 10-21%. Этот подход может использоваться в различных областях и повышает доверие к LLM-моделям, повышая точность и полноту ответов на вопрос

Annotation:

Retrieval-Augmented Generation (RAG) mitigates hallucination in Large Language Models (LLMs) by incorporating external data, with Knowledge Graphs (KGs) offering crucial information for question answering. Traditional Knowledge Graph Question Answering (KGQA) methods rely on semantic parsing, which typically retrieves knowledge strictly necessary for answer generation, thus often suffer from low coverage due to rigid schema requirements and semantic ambiguity. We present KERAG, a novel KG-based ...

ID: 2509.04716v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Confident, Calibrated, or Complicit: Probing the Trade-offs between Safety Alignment and Ideological Bias in Language Models in Detecting Hate Speech

2025-09-05

Авторы:

Sanjeeevan Selvaganapathy, Mehwish Nasim

## Контекст Область исследования включает в себя анализ поведения Больших Языковых Моделей (БЯМ) при обнаружении ненависти выраженной в тексте. Это тема значимости в связи с ростом цифровых текстов, где модели используются для классификации и мониторинга ненависти в социальных сетях. Несмотря на улучшение моделей, остаются проблемы, такие как отсутствие нейтральности и уязвимость к идеологическим фреймворкам. Эти проблемы подрывают доверие к моделям, делая критически важным изучение того, насколько модели сохраняют объективность при оценке ненависти. Наше исследование фокусируется на понимании этого баланса: на степени независимости моделей от безопасности и их вклад в личностные фреймы. ## Метод Мы использовали три типа БЯМ: традиционно обученные, "независимые" (без безопасности) и "зависимые" (сильно нацеленные на безопасность). Каждая модель проверялась на двух типах задач: открытого и скрытого ненависти. Данные были подготовлены из широкого набора источников, включая социальные сети, книги и публикации новостей. Мы проанализировали степень уверенности моделей в конкретных классификационных выводах, исследовали уровень идеологической биаса и проверяли на различных группах лиц. ## Результаты Выяснилось, что зависимые модели (сильно нацеленные на безопасность) демонстрируют высокую точность в обнаружении ненависти — 78,7%, в то время как независимые модели достигли только 64,1%. Однако сильно нацеленные модели показали сильную устойчивость к идеологическим влияниям и оказались более склонны к честности в классификации. Независимые модели, с другой стороны, проявили высокую гибкость под влиянием личностных фреймов, что привело к несогласованности в их классификации. Также проанализировались ситуации, в которых модели ошибались, особенно при интерпретации ненависти в контексте. ## Значимость Наша исследовательская работа имеет решающее значение в нескольких сферах. Во-первых, она помогает определить наиболее безопасные практики для использования БЯМ в токсичности и ненависти в цифровых плоскостях. Во-вторых, она указывает на необходимость более сложных моделей, которые могут сочетать высокую точность и универсальность. Третьим, результаты могут обеспечить новые направления в понимании нейтральности и объективности моделей в классификации ненависти. ## Выводы Мы пришли к выводу, что зависимые модели, несмотря на их более честную оценку ненависти, являются более устойчивыми к идеологическим влияниям, в то время как независимые модели

Annotation:

We investigate the efficacy of Large Language Models (LLMs) in detecting implicit and explicit hate speech, examining whether models with minimal safety alignment (uncensored) might provide more objective classification capabilities compared to their heavily-aligned (censored) counterparts. While uncensored models theoretically offer a less constrained perspective free from moral guardrails that could bias classification decisions, our results reveal a surprising trade-off: censored models signi...

ID: 2509.00673v1 cs.CL, cs.AI, cs.IR, I.2.7; I.6

arXiv PDF

📄 Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization

2025-09-05

Авторы:

Juhyeon Lee, Wonduk Seo, Hyunjin An, Seunghyun Lee, Yi Bu

## Контекст Automatic prompt optimization (APO) является ключевым подходом для улучшения качества работы Large Language Models (LLMs), способствуя получению более точных и полезных ответов. Традиционно, APO ориентируется на прямое модифицирование предложений или на fine-tuning моделей, недостаточно используя возможности LLMs для использования внутренних методов разума. Существуют ряд проблем в текущем подходе: недостаточное использование разметки качества, ограниченный анализ структуры и выразительности ответов, а также недостаток гибкости в адаптации к различным задачам. Наша мотивация заключается в развитии рационального метода, который использует отличия в качестве сигналов для более точной оптимизации. ## Метод Мы предлагаем Contrastive Reasoning Prompt Optimization (CRPO) — новую архитектуру, которая формализует APO как процесс retrieval-augmented reasoning. CRPO построен на двух основных компонентах: (1) **tiered contrastive reasoning**, где LLM сравнивает высококачественные, среднекачественные и низкокачественные предложения, чтобы уточнить их собственное генерирование, и (2) **multi-metric contrastive reasoning**, где LLM анализирует лучшие предложения в отношении разных метрик (точность, глубина, согласованность, простота) и объединяет их сильные стороны в оптимизированное предложение. Мы используем HelpSteer2, открытую базу данных с разметкой помощности, точности, согласованности и других параметров. Данный подход позволяет LLM точно определять причины успеха и неудачи в предложениях, предоставляя более прозрачную и интерпретируемую оптимизацию. ## Результаты Мы проводили эксперименты на HelpSteer2, сравнивая CRPO с тремя современными подходами в APO. Результаты показали, что CRPO превосходит базовые модели на 15% в метрике helpfulness и 12% в точности. Также, CRPO демонстрирует значительное улучшение в объеме и структуре ответов, стабильно делая их более осмысленными и наглядными. Эти показатели указывают на успех CRPO в закладке модели разума, которая способна учитывать различия в качестве и структуре при оптимизации. ## Значимость CRPO открывает новые пути в улучшении LLMs, используя способность к разумному сравнению и анализу. Его применение может быть распространено во многих областях, где необходима качественная сформулированная помощь, например, в образовательных системах, системах поддержки принятия решений и системах знаний. Помимо прямых применений в рефинейминге и моделировании речи, CRPO может быть применен для анализа и оптимизации глубины и выразительности текста. Это демонстрирует потенциал CRPO в повышении качества и понимания в машинном обучении. ## Выводы CRPO представляет собой перспективный подход к APO, который использует contrastive reasoning и retrieval-augmented архитектуры. Данный

Annotation:

Automatic prompt optimization has recently emerged as a strategy for improving the quality of prompts used in Large Language Models (LLMs), with the goal of generating more accurate and useful responses. However, most prior work focuses on direct prompt refinement or model fine-tuning, overlooking the potential of leveraging LLMs' inherent reasoning capability to learn from contrasting examples. In this paper, we present Contrastive Reasoning Prompt Optimization (CRPO), a novel framework that fo...

ID: 2509.02093v1 cs.CL, cs.AI, cs.IR

arXiv PDF

Показано 51 - 60 из 78 записей