📚 Саммари научных статей из arXiv

Найдено 7603 результатов по запросу 'cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context

2025-08-13

Авторы:

Aditya Tomar, Nihar Ranjan Sahoo, Pushpak Bhattacharyya

#### Контекст Современные языковые модели (ЛМ), обученные большим объемом данных, часто подвержены субъективным и социальным биасам. Эти биасы могут привести к необоснованной оценке определенных групп, поддержки стереотипов и даже к ущербу индивидуальному или групповому благополучию. Оценка этих биасов становится ключевым заданием для создания справедливых и нейтральных ИИ-систем. Однако существующие бенчмарки, такие как BBQ, ориентированы на западные стереотипы и языковые контексты. Учитывая различия в социальных и культурных контекстах, необходимо разработать новые инструменты для оценки биаса в контексте Индии, где многоязычие и культурная сложность добавляют сложности. #### Метод Мы предлагаем BharatBBQ, первый многоязычный бенчмарк для оценки биаса в вопросах-ответах, призванный адаптироваться к индийскому социокультурному контексту. Бенчмарк охватывает 13 социальных категорий и 3 интерсекциональных групп, которые отражают существующие стереотипы в индийской культуре. Исходные данные для Хинди были расширены с помощью трансляции и проверки на другие языки. Этот процесс увеличил размер набора данных с 49 108 примеров на Хинди до 392 864 примеров на 8 языках. Мы проводили эксперименты с 5 многоязычными ЛМ-семействами в нулевой и несколько-шотных условиях, измерив их биазы и степени стереотипизации. #### Результаты Наши эксперименты показали, что многоязычные ЛМ часто продолжают поддерживать биазы, а в некоторых случаях даже усиливают их в индийских языках по сравнению с английским. Наиболее заметны биазы в категориях, таких как пол, религия и происхождение, а также в интерсекциональных группах. Индексы биаз и стереотипизации показали значительные различия между языками, подчеркнув необходимость локального подхода к оценке биаса в Индии. #### Значимость BharatBBQ может быть применен в разработке нейтральных языковых моделей и биас-анализаторов для индийских языков. Он предоставляет базу для изучения культурно-специфических стереотипов и позволяет сравнить биазы в разных языковых группах. Помимо этого, он мотивирует создание других локальных бенчмарков для других регионов, где язык и культура вносят уникальные трудности для разработки справедливых ИИ-систем. #### Выводы BharatBBQ демонстрирует необходимость разработки культурно подстроенных бенчмарков для оценки биаса в языковых моделях, особенно в многоязычных и культурно разнообразных регионах. Будущие исследования буду

Annotation:

Evaluating social biases in language models (LMs) is crucial for ensuring fairness and minimizing the reinforcement of harmful stereotypes in AI systems. Existing benchmarks, such as the Bias Benchmark for Question Answering (BBQ), primarily focus on Western contexts, limiting their applicability to the Indian context. To address this gap, we introduce BharatBBQ, a culturally adapted benchmark designed to assess biases in Hindi, English, Marathi, Bengali, Tamil, Telugu, Odia, and Assamese. Bhara...

ID: 2508.07090v1 cs.CL

arXiv PDF

📄 Gradient Surgery for Safe LLM Fine-Tuning

2025-08-13

Авторы:

Biao Yi, Jiahao Li, Baolei Zhang, Lihai Nie, Tong Li, Tiansheng Huang, Zheli Liu

## Контекст Fine-tuning Large Language Models (LLMs) становится все более популярным для адаптации моделей к конкретным задачам и пользовательским требованиям. Однако этот процесс не обошелся без проблем. Внедрение небольшого количества злонамеренных примеров в данные для fine-tuning может серьезно повлиять на безопасность и соответствие модели пользовательским целям. Эта проблема становится критичной в контексте Fine-tuning-as-a-Service, где модели обучаются на пользовательских данных без полного контроля над их качеством. Недостаточной безопасностью и высоким риском токсичности являются широко известные проблемы в этой области. Наша мотивация заключается в разработке метода, который позволит обеспечивать безопасность моделей без снижения их фидбека и качества. ## Метод Мы предлагаем метод **SafeGrad**, основанный на концепции **gradient surgery**, чтобы устранить конфликтные градиенты в процессе fine-tuning. Если в пользовательских данных обнаруживается конфликт между задачей пользователя и безопасностью модели, метод **SafeGrad** отменяет этот конфликт, уменьшая влияние злонамеренных примеров. Мы также используем **KL-divergence alignment loss**, который позволяет модели учитывать безопасный профиль дистрибуции, основанный на foundation model. Технические решения включают в себя оптимизацию градиентов с помощью ортогональных проекций и интеграцию адаптивных мер для повышения устойчивости. ## Результаты Мы проводили эксперименты на различных LLMs, включая RoBERTa и T5, и использовали данные из реальных сценариев fine-tuning. **SafeGrad** показал стабильный результат, обеспечивая безопасность модели даже при высоких процентах злонамеренных примеров в данных. Наш метод показал значительное улучшение по сравнению с существующими методами в области safe fine-tuning. Мы также провели анализ точности и качества результатов, подтвердив, что **SafeGrad** не снижает фидбек модели и сохраняет высокую эффективность. ## Значимость Результаты **SafeGrad** имеют широкое применение в области безопасного fine-tuning LLMs, особенно в сферах, где безопасность и корректность модели критичны. Например, в области образования, здравоохранения и финансовых услуг. Наш метод предоставляет преимущества в более эффективном и безопасном обучении моделей, уменьшая риск сбоя безопасности. Мы также отмечаем, что **SafeGrad** может быть применен для развития безопасных алгоритмов в других областях, где адаптивные модели используются в защищенных средах. ## Выводы Мы представили **SafeGrad**, новый метод для решения проблемы конфликтов градиентов в процессе fine-tuning LLMs. Наши результаты показали, что **SafeGrad** обеспечивает высокую безопасность и качество моделей, даже при высоких процентах зло

Annotation:

Fine-tuning-as-a-Service introduces a critical vulnerability where a few malicious examples mixed into the user's fine-tuning dataset can compromise the safety alignment of Large Language Models (LLMs). While a recognized paradigm frames safe fine-tuning as a multi-objective optimization problem balancing user task performance with safety alignment, we find existing solutions are critically sensitive to the harmful ratio, with defenses degrading sharply as harmful ratio increases. We diagnose th...

ID: 2508.07172v1 cs.CL

arXiv PDF

📄 Omni-SafetyBench: A Benchmark for Safety Evaluation of Audio-Visual Large Language Models

2025-08-13

Авторы:

Leyi Pan, Zheyu Fu, Yunpeng Zhai, Shuchang Tao, Sheng Guan, Shiyu Huang, Lingzhe Zhang, Zhaoyang Liu, Bolin Ding, Felix Henry, Lijie Wen, Aiwei Liu

## Контекст Omni-modal Large Language Models (OLLMs), которые объединяют в себе обработку текстовых, аудио и визуальных данных, приобретают все большую популярность. Однако это создает серьезные безопасности вопросы, так как непредвиденные или вредоносные выходы могут возникнуть в результате неверного понимания значительного объема входных данных. Несмотря на существование бенчмарков для обычных текстовых LLM, нет конкретных методologi для оценки безопасности OLLMs в условиях аудио-визуальных входных данных. Это мотивирует развитие бенчмарка Omni-SafetyBench, первого подобного направлении, для эффективной оценки безопасности OLLMs. ## Метод Omni-SafetyBench включает 24 различных модальных комбинаций с 972 семплами каждого. Он поддерживает аудио-визуальные сценарии, включая специфические эксперименты на вредоносные входы. Для оценки безопасности OLLMs вводятся две новые метрики: Safety-score, основанный на показателе успешности атаки (C-ASR) и отказа (C-RR), чтобы рассмотреть возможность недоумия модели, и Cross-Modal Safety Consistency Score (CMSC-score), чтобы измерить согласованность в работе модели по разным модальностям. ## Результаты Оценка 6 открытых и 4 закрытых OLLM показала существующие проблемы: ни одна модель не показывает высокую производительность в обеих метриках, и только три модели достигли оценки выше 0.6 в каждой. Общая безопасность особенно страдает при аудио-визуальных входах. Некоторые модели показывают очень низкие результаты на определенных модальностях, достигая значений 0.14. ## Значимость Omni-SafetyBench оказывается важной инструментой для изучения проблем безопасности OLLM. Он может применяться в сферах, где возникают риски моделей, и предоставляет новые возможности для создания безопасных моделей. Результаты опытов показывают, что нужны улучшения в области оценки безопасности OLLM, а также в самих моделях, которые должны быть более состоятельными и надёжными в работе с аудио-визуальными входами. ## Выводы Omni-SafetyBench демонстрирует критические уязвимости OLLM в сфере безопасности и выделяет важность дальнейших работ по улучшению метрик, моделей и методологий для безопасного использования OLLM в сложных аудио-визуальных условиях.

Annotation:

The rise of Omni-modal Large Language Models (OLLMs), which integrate visual and auditory processing with text, necessitates robust safety evaluations to mitigate harmful outputs. However, no dedicated benchmarks currently exist for OLLMs, and prior benchmarks designed for other LLMs lack the ability to assess safety performance under audio-visual joint inputs or cross-modal safety consistency. To fill this gap, we introduce Omni-SafetyBench, the first comprehensive parallel benchmark for OLLM s...

ID: 2508.07173v1 cs.CL, 68T50, I.2.7

arXiv PDF

📄 Towards Real-World Rumor Detection: Anomaly Detection Framework with Graph Supervised Contrastive Learning

2025-08-13

Авторы:

Chaoqun Cui, Caiyan Jia

## Контекст Современные методы обнаружения легенды (rumor) часто основываются на изучении структуры распространения информации в социальных сетях. Однако эти методы предполагают балансированное распределение классов, что не соответствует реальности. В социальных сетях доминирует масса нелегендарных сообщений (не-руманов), в то время как легенды (руманы) являются редким и исключительным явлением. Такое несбалансированное распределение данных создает значительные вызовы для обучения моделей. Недостаток методов, способных эффективно работать в таких условиях, подчеркивает необходимость разработки новых подходов, которые могут устойчиво работать с необычными распределениями данных. ## Метод Предлагаемый подход, Anomaly Detection framework with Graph Supervised Contrastive Learning (AD-GSCL), прикладывает усилия к решению проблемы необычной разметки. Этот метод использует аннотированные данные для определения руманов и работает с неанонтированными данными, предполагая, что они являются не-руманами. Основная концепция заключается в применении графовых методов к обучению с подкреплением, при этом графы создаются на основе характеристик социальной сети. На основе противоречивых характеристик (contrastive learning), AD-GSCL учитывает различия в распределениях между руманами и не-руманами, что позволяет лучше отличать эти классы. ## Результаты Для исследования были созданы две большие выборки данных из Weibo и Twitter. Анализ распределений руманов и не-руманов показал значительные различия в их тематических ориентациях: руманы чаще носят новостные характер, в то время как не-руманы более распространены в развлекательных сферах. Эксперименты показали, что AD-GSCL показывает высокую точность в различных условиях: балансированных данных, несбалансированных данных и условиях с небольшим количеством обучающих данных. Эти результаты подтверждают эффективность AD-GSCL в обнаружении руманов в реальных условиях. ## Значимость Предложенный подход может быть применен в различных сферах, где требуется отсеивание нелегендарных сообщений, например в медиа-мониторинге, безопасности информации и других областях. Основное преимущество AD-GSCL заключается в том, что он эффективно обнаруживает руманы даже в условиях необычного распределения данных. Это может сильно повысить точность обнаружения руманов в социальных сетях и других платформах. Будущие исследования могут направлены на расширение применения этого подхода к другим типам социальных данных и усовершенствовании его взаимодействия с другими методами обнаружения. ## Выводы Предлагаемый подход AD-GSCL доказал свою эффективность в обнаружении руманов в реальных социальных

Annotation:

Current rumor detection methods based on propagation structure learning predominately treat rumor detection as a class-balanced classification task on limited labeled data. However, real-world social media data exhibits an imbalanced distribution with a minority of rumors among massive regular posts. To address the data scarcity and imbalance issues, we construct two large-scale conversation datasets from Weibo and Twitter and analyze the domain distributions. We find obvious differences between...

ID: 2508.07205v1 cs.SI, cs.CL

arXiv PDF

📄 Enhancing Rumor Detection Methods with Propagation Structure Infused Language Model

2025-08-13

Авторы:

Chaoqun Cui, Siyuan Li, Kunkun Ma, Caiyan Jia

## Контекст Проблема распространения слухов и лживых сообщений в социальных сетях является ключевой задачей модерации содержимого. Известно, что высокоэффективные Предварительно Обученные Языковые Модели (PLMs) обладают выдающимися результатами в различных задачах естественного языкового обработки. Однако их результаты на задачах модерации социальных медиа, таких как детекция слухов, часто остаются ниже ожидаемого уровня. Это может быть обусловлено несоответствием между корпусами предварительного обучения и социальными текстами, недостаточным учетом уникальных социальных символов, а также оптимизацией моделей, которая не достаточно учитывает пользовательские взаимодействия внутри распространения информации. Мотивирует разработку новых подходов повышения точности моделей распространения информации в социальных сетях. ## Метод Предлагается новый подход, названный Post Engagement Prediction (PEP), который включает в себя продолжение предварительного обучения модели с целью моделирования взаимодействий в пользовательской сети и распространения информации. PEP предполагает обучение модели классификации, которая предсказывает связи между постами: корневые, ветвистые и родительские. Эти связи позволяют лучше представить распространение информации в социальных сетях. Для обучения и тестирования PEP, авторы создали новую большую базу данных TwitterCorpus (269 ГБ) и два датасета, Twitter и Weibo, с исходными данными об опросах и распространении сообщений. Модель SoLM, разработанная на основе этого подхода, включает в себя все слои PLM с дополнительным модулем PEP. ## Результаты Различные эксперименты проводились на нескольких датасетах, включая Twitter и Weibo. Эксперименты показали, что PEP повышает точность распространения данных в PLM на 1.0-3.7% в зависимости от датасета и модели. Также было показано, что модель SoLM без дополнительных модулей показала высокую точность, которая не уступает современным методам. На датасетах Twitter и Weibo, SoLM достигла результатов, которые не отстают от текущих лидеров. Это подтверждает эффективность PEP в моделировании частоты и структуры взаимодействий, необходимых для задач детекции лживых сообщений. ## Значимость Решение, представленное в статье, может быть применено в области модерации содержимого в социальных сетях, в том числе для детекции лживых сообщений, нахождения и оценки источников распространения, а также анализа структуры распространения. Особое преимущество PEP заключается в его универсальности. Он может быть применен для улучшения различных PLM в социальных сетях, даже при небольших обучающих выборках. Это может привести к расширению возможно

Annotation:

Pretrained Language Models (PLMs) have excelled in various Natural Language Processing tasks, benefiting from large-scale pretraining and self-attention mechanism's ability to capture long-range dependencies. However, their performance on social media application tasks like rumor detection remains suboptimal. We attribute this to mismatches between pretraining corpora and social texts, inadequate handling of unique social symbols, and pretraining tasks ill-suited for modeling user engagements im...

ID: 2508.07209v1 cs.CL, cs.SI

arXiv PDF

📄 Prompt Tuning for Few-Shot Continual Learning Named Entity Recognition

2025-08-13

Авторы:

Zhe Ren

## Контекст Контингентно-номинативное распознавание (Named Entity Recognition, NER) широко применяется в области естественного языка, включая системы рекомендаций, мониторинга социальных сетей и распознавание сущностей в реальном времени. Одним из основных вызовов для NER является **непрерывное обучение** (Continual Learning, CL), где модель должна учиться распознавать новые классы сущностей, не теряя уже накопленных знаний. Другой вызов — **недостаточное количество данных** (Few-Shot Learning, FSL), когда новые классы представлены малой выборкой. **Few-Shot Continual Learning Named Entity Recognition (FS-CLNER)** объединяет эти проблемы, что делает его одним из наиболее сложных заданий в области NER. Наиболее распространенной стратегией для FS-CLNER является **Knowledge Distillation (KD)**, где модель-учитель (teacher), обученная на старых классах, передает свои знания модели-ученику (student) для регуляризации. Однако в FS-CLNER недостаточно данных для эффективного обучения модели-ученицы, что приводит к **Few-Shot Distillation Dilemma**, когда модель не может нормально регуляризоваться и поддерживать предыдущие знания. ## Метод Для решения приведенных вызовов вводится **Anchor Words-oriented Prompt Tuning (APT)** — парадигма, ориентированная на анкор-слова (anchor words), которая устраняет трудности перехода между предварительным обучением (pre-training) и окончательным адаптированием (fine-tuning). APT работает так: для каждого класса создается **Prompt Template**, содержащий анкор-слова, характеризующие данный класс. Эти шаблоны затем используются для адаптации модели к новым классам во время непрерывного обучения. **Memory Demonstration Templates (MDT)** добавляются в каждое новое обучение для поддержки **In-Context Learning**. MDT состоит из примеров из предыдущих задач, которые меняются динамически в зависимости от новых классов. Это позволяет модели получить доступ к памяти прошлых задач, что улучшает устойчивость и генерализуемость. ## Результаты Опыты проводились на нескольких комплектах данных FS-CLNER, включая FewGLUE и FewCLUE. Модель была сравнена с другими популярными методами, такими как E-BERT и DistilBERT. Результаты показывают, что APT с MDT не только повышает F1-меру распознавания сущностей, но и улучшает устойчивость модели в условиях недостатка данных. В частности, APT с MDT показал **до 15% повышение F1-меры** по сравнению с основными подходами в FS-CLNER. Эти результаты доказывают, что предложенный подход эффективно решает проблему Few-Shot Distillation Dilemma и демонстрирует хорошую генерализуемость. ## Значимость Предложенный подход имеет широкие применения в сценариях, где необходимо эффективное обработка небольших объемов данных. Например, в системах мониторинга социальных сетей, где новые сущности (например, новые продукты или события) по

Annotation:

Knowledge distillation has been successfully applied to Continual Learning Named Entity Recognition (CLNER) tasks, by using a teacher model trained on old-class data to distill old-class entities present in new-class data as a form of regularization, thereby avoiding catastrophic forgetting. However, in Few-Shot CLNER (FS-CLNER) tasks, the scarcity of new-class entities makes it difficult for the trained model to generalize during inference. More critically, the lack of old-class entity informat...

ID: 2508.07248v1 cs.CL

arXiv PDF

📄 The 2D+ Dynamic Articulatory Model DYNARTmo: Tongue-Palate Contact Area Estimation

2025-08-13

Авторы:

Bernd J. Kröger

## Контекст Динамическая модель артикуляции DYNARTmo, разработанная Bernd J. Kröger, является двухмерной моделью, ориентированной на исследование движений языка. Однако, существующая модель не учитывает сложности трёхмерной структуры полости рта, в частности, курвинатуры ротовой полости и контактных зон языка с полостью рта. Эти факторы играют ключевую роль в нормальной речи и озвучивании. Эта проблема особенно актуальна для области говорения и учёбы, где необходимы точные средства для моделирования и анализа речи. Модель DYNARTmo была расширена для решения этой проблемы, интегрировав внутреннюю трёхмерную репрезентацию полости рта. ## Метод В работе были разработаны две альтернативные геометрические модели курвинатуры ротовой полости: 0.5-эллипс и синусоидальная кривая. Эти модели используются для моделирования кривизны ротовой полости в горизонтальном плоскости. Для каждого анаterior-posteriorная позиция языка вычисляются аналитически контактные точки с полостью рта. Это позволяет генерировать электропалатограммы, похожие на анализы, выполняемые в сфере речи. Также, DYNARTmo была расширена для отображения движений языка в трёх разных плоскостях: сагиттальной, глотточной и ротовой. ## Результаты Используя новую модификацию DYNARTmo, была проведена серия экспериментов с различными моделями курвинатуры ротовой полости. Эти эксперименты показали, что геометрия ротовой полости, особенно кривизна, имеет существенное влияние на размер и форму контактных зон языка с полостью рта. Эти результаты подтверждают важность учёта курвинатуры полости рта в моделировании речи, особенно для приложений в сфере электропалатографии и диагностики речевых нарушений. ## Значимость Расширенная модель DYNARTmo может быть применена в сфере обучения речи, где необходимы точные методы моделирования и анализа языковых процессов. Благодаря учёту трёхмерной структуры полости рта, модель также полезна в сфере специализированной диагностики речевых расстройств. Данная работа открывает путь для дальнейшего исследования в области моделирования речи и анализа, включая синтез артикуляционных и акустических сигналов. ## Выводы Работа показала, что модель DYNARTmo, расширенная для учёта курвинатуры ротовой полости, значительно повышает точность моделирования контактов языка с полостью рта. Будущие исследования будут направлены на развитие модели, включая добавление вида лица и реализацию синтеза артикуляционно-акустических сигналов для более точного оценки реализма модели.

Annotation:

This paper describes an extension of the two-dimensional dynamic articulatory model DYNARTmo by integrating an internal three-dimensional representation of the palatal dome to estimate tongue-palate contact areas from midsagittal tongue contours. Two alternative dome geometries - a half-ellipse and a cosine based profile - are implemented to model lateral curvature in the coronal plane. Using these geometries, lateral contact points are analytically computed for each anterior-posterior position,...

ID: 2508.07262v1 cs.CL, cs.RO

arXiv PDF

📄 Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking

2025-08-13

Авторы:

Jian Chen, Jinbao Tian, Yankui Li, Zhou Li

## Контекст Название статьи — Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking. Авторы: Jian Chen, Jinbao Tian, Yankui Li, Zhou Li. Основная цель — решение проблемы точного извлечения информации из специализированных текстов, в частности, для автоматизированного проверки правил (ARC) в сфере архитектуры, инженерии и строительства (AEC). Несмотря на развитие методов предобучения моделей на обширных текстовых корпусах, стандартные модели всё же сталкиваются с проблемами, связанными с границей домена. Они сталкиваются с трудностями при понимании специальной терминологии и сложных связей в AEC-текстах. Решение этой проблемы через дополнительное предобучение на доменных корпусах требует значительных ресурсов и времени. В этом контексте роль генерации знаний с использованием крупных языковых моделей (LLM) становится ключевой. Однако, необходимо разработать эффективный подход для повышения эффективности меньших моделей, таких как RoBERTa, с помощью знаний, генерируемых моделями LLM. ## Метод Предложенный подход ARCE (Augmented RoBERTa with Contextualized Elucidations) состоит из двух этапов: 1) генерация простых, ясных объяснений с помощью LLM в виде корпуса, названного Cote (Contextualized Explanations); 2) применение этого корпуса для дополнительного предобучения модели RoBERTa. Основной идеей является то, что простые объяснения помогают модели лучше понять специальную терминологию и связи в AEC-данных. Модель ARCE включает в себя ряд технических решений, которые улучшают процесс предобучения и работы модели на задаче NER в сфере AEC. ## Результаты Авторы провели эксперименты на бенчмарк-датасете AEC. Модель ARCE показала результат Macro-F1 77.20%, установив новый состояние технологии для этого задания. Эксперименты также продемонстрировали, что простые, напрямую понятные объяснения (Cote) дают более эффективные результаты, чем более сложные, ролевые рационализации. Эта модель демонстрирует высокую эффективность в извлечении специальных сущностей из сложных текстов AEC. ## Значимость Решение ARCE может быть применено во многих областях, где требуется точное извлечение информации из специализированных текстов, включая АЭК и другие технические сферы. Основное преимущество ARCE заключается в своей эффективности и простоте. Вместо сложных ролевых моделей, он использует простые объяснения, что упрощает понимание модели и повышает точность. Это может существенно снизить затраты на обучение и развитие моделей для сложных доменов. Будущие исследования будут сфокусированы на расширении этого подхода к другим доменам и моделям. ## Выводы Результаты ARCE подтверждают зна

Annotation:

Accurate information extraction from specialized texts is a critical challenge, particularly for named entity recognition (NER) in the architecture, engineering, and construction (AEC) domain to support automated rule checking (ARC). The performance of standard pre-trained models is often constrained by the domain gap, as they struggle to interpret the specialized terminology and complex relational contexts inherent in AEC texts. Although this issue can be mitigated by further pre-training on la...

ID: 2508.07286v1 cs.CL, cs.IR

arXiv PDF

📄 CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation

2025-08-13

Авторы:

Yexing Du, Kaiyuan Liu, Youcheng Pan, Zheng Chu, Bo Yang, Xiaocheng Feng, Yang Xiang, Ming Liu

#### Контекст Современные Multimodal Large Language Models (MLLMs) становятся все более популярными в многоязычном мире, но обеспечение надежности и точности их ответов, особенно при обработке многоязычных входных данных, является ключевой проблемой. Несмотря на то, что существуют бенчмарки для оценки фактичности ответов, они, как правило, фокусируются лишь на английском языке, ограничиваясь текстовыми или визуальными модальностями. Это создает значительную проблему при оценке моделей, которые должны обрабатывать многоязычные спеech-запросы. Наша мотивация заключается в разработке бенчмарка, который не только охватит многоязычность, но и позволит оценивать модели по комбинированным модальностям текста и речи. #### Метод Мы предлагаем CCFQA (Cross-Lingual and Cross-Modal Factuality Evaluation Benchmark), который включает параллельные текстовые и речевые фактические вопросы на 8 языках. Бенчмарк разработан с целью оценивать модели по своей способности кросс-языковой и кросс-модальной оценке фактичности. Мы использовали рекуррентные нейронные сети (RNN) для обработки речи и LSTM для работы с текстом, чтобы обеспечить многоязычную обработку. Кроме того, мы внедрили многомодальные методы для объединения сигналов речи и текста. #### Результаты Мы провели эксперименты с несколькими MLLMs, включая модели с разным количеством слоев и размеров файлов. Были оценены значимость и точность ответов на CCFQA-benchmark. Наши результаты показывают, что текущие модели все еще сталкиваются с значительными вызовами в области кросс-языковой и кросс-модальной фактичности. Мы также проверили нашу стратегию few-shot transfer learning, которая эффективно передает QA-способности моделей на многоязычные Spoken Question Answering (SQA) задачи, достигнув почти одинаковой точности с GPT-4-mini-Audio при использовании только 5-шаговой обучения. #### Значимость CCFQA может быть применен в различных областях, таких как здравоохранение, образование, интеллектуальные системы, где необходима надежная обработка кросс-языковых и кросс-модальных спеech-запросов. У него есть несколько преимуществ, таких как систематическая оценка, переносимость моделей, и поддержка нескольких языков. Мы видим в потенциале CCFQA возможность способствовать развитию MLLMs с более надежными и релационными способностями. #### Выводы Мы представили CCFQA, первый бенчмарк для кросс-языковой и кросс-модальной оценки фактичности. Наши результаты показали, что текущие модели все еще сталкиваются с значительными вызовами в области кросс-языковой и кросс-модальной фактичности. Мы также предложили эффективную стратегию few-shot transfer learning, которая может быть использова

Annotation:

As Large Language Models (LLMs) are increasingly popularized in the multilingual world, ensuring hallucination-free factuality becomes markedly crucial. However, existing benchmarks for evaluating the reliability of Multimodal Large Language Models (MLLMs) predominantly focus on textual or visual modalities with a primary emphasis on English, which creates a gap in evaluation when processing multilingual input, especially in speech. To bridge this gap, we propose a novel \textbf{C}ross-lingual a...

ID: 2508.07295v1 cs.CL

arXiv PDF

📄 PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization

2025-08-13

Авторы:

Kepu Zhang, Teng Shi, Weijie Yu, Jun Xu

## Контекст Персонализированная ретейрированная генерация (Personalized Retrieval-Augmented Generation, RAG) представляет собой процесс создания ответов, которые хорошо соответствуют пользовательским предпочтениям, через интеграцию входного запроса с индивидуальными профилями пользователей, полученными из базы данных. Эта технология найдет применение в различных сферах, включая искусственный интеллект для обслуживания клиентов, социальные сети и интеллектуальные помощники. Существующие подходы в основном сосредоточены на улучшении механизмов поиска информации, в которых большие языковые модели (LLMs) неявно интегрируют полученную информацию с запросом. Однако такие подходы чувствительны к качеству результатов поиска и могут привести к ответам, не соответствующим ожиданиям пользователей. Необходимо разработать метод, который бы учитывал эти проблемы и обеспечивал более точное соответствие ответов пользовательским предпочтениям. ## Метод Предлагаемый подход, названный PrLM (Personalized Reasoning Large Model), является рамочной методологией, основанной на усовершенствованном техническом подходе. Он использует LLM для эксплицитного разума об информации, полученной в результате поиска. Модель оптимизируется с использованием решающего метода, основанного на принципах контрастирования, где генерируемые ответы сравниваются с идеальными ответами, обученными на данных пользовательских ответов. Это позволяет модели глубоко понять пользовательские предпочтения без необходимости иметь заранее подготовленный набор размеченных примеров. Такая архитектура позволяет применять модель в различных сценариях, где требуется персонализация. ## Результаты Проведены эксперименты на трех различных датасетах, подразумевающих персонализированную текстовую генерацию. Результаты показали, что PrLM превосходит другие подходы в метриках качества генерируемого текста, таких как BLEU, ROUGE и METEOR. Особое внимание уделено сравнению с конкурентными методами в ситуациях, когда число профилей пользователей или алгоритмов поиска меняется. Результаты показали, что PrLM остается стабилен и эффективен, независимо от количества профилей или их качества. Это значит, что модель не только выдает высококачественные ответы, но и подходит для применения в реальных условиях. ## Значимость Предложенный подход имеет широкие возможности для применения в различных областях. Например, он может использоваться для создания более индивидуальных ответов в системах обслуживания клиентов, диалоговых системах, создания личных рекомендаций. Этот подход отличается своей гибкостью и высоким уровнем точности, что делает его привлекательным

Annotation:

Personalized retrieval-augmented generation (RAG) aims to produce user-tailored responses by incorporating retrieved user profiles alongside the input query. Existing methods primarily focus on improving retrieval and rely on large language models (LLMs) to implicitly integrate the retrieved context with the query. However, such models are often sensitive to retrieval quality and may generate responses that are misaligned with user preferences. To address this limitation, we propose PrLM, a rein...

ID: 2508.07342v1 cs.IR, cs.CL

arXiv PDF

1
2
713
714
715
716
717
760
761

Показано 7141 - 7150 из 7603 записей