📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MoVoC: Morphology-Aware Subword Construction for Geez Script Languages

2025-09-12

Авторы:

Hailay Kidu Teklehaymanot, Dren Fazlija, Wolfgang Nejdl

#### Контекст Область исследования сосредотачивается на развитии эффективных методов токенизации для низкоресурсных языков, особенно тех, которые используют геезский алфавит. Такие языки чертятся высоким уровнем морфологической сложности, что создает специфические проблемы для существующих систем токенизации. Основными проблемами являются несохранение морфологических границ при разбиении слов и неэффективность работы существующих методов в условиях ограниченных данных. Данные проблемы сильно сказываются на качестве трансляции и интерпретации текстов. Мотивация заключается в разработке метода, который сохранит морфологическую целостность при эффективном использовании ресурсов. #### Метод Метод, предложенный в работе, называется MoVoC (Morpheme-aware Subword Vocabulary Construction). Он сочетает морфологический анализ и Byte Pair Encoding (BPE) для построения токенов. Морфологический анализ используется для сохранения морфологических границ, а BPE обеспечивает эффективное представление лексического материала. Для обучения и тестирования токенизатора был создан новый набор данных, подготовленный вручную, включающий в себя морфологические морфологические данные для 4 языков, использующих геезский алфавит. Метод также включает в себя морфологический счетчик MorphoScore и метрику Boundary Precision для оценки качества. #### Результаты Проведенные эксперименты показали, что MoVoC-Tok предоставляет важные преимущества в части сохранения морфологии в токенах. Он существенно улучшает MorphoScore и Boundary Precision по сравнению с традиционными методами токенизации, такими как SentencePiece. Однако значительные улучшения в качестве автоматической трансляции не были выявлены, что может быть связано с ограниченным размером выборки и высокой сложностью языка. Тем не менее, результаты демонстрируют, что MoVoC-Tok эффективно работает в условиях ограниченных ресурсов, когда требуется точное разделение морфологических единиц. #### Значимость Метод MoVoC имеет широкие перспективы в области низкоресурсных морфологически сложных языков. Он может применяться в системах машинного перевода, синтеза речи и анализа текстов в геезских языках. Одним из основных преимуществ является более точный токенизатор, который сохраняет значимость морфологических границ. Это влияет на качество трансляции, обеспечивает лучшую лексическую и морфологическую точность. Будущие исследования будут сконцентрированы на увеличении размера данных и расширении применимости метода к другим геезским языкам. #### Выводы Предложенный в работе MoVoC является значитель

Annotation:

Subword-based tokenization methods often fail to preserve morphological boundaries, a limitation especially pronounced in low-resource, morphologically complex languages such as those written in the Geez script. To address this, we present MoVoC (Morpheme-aware Subword Vocabulary Construction) and train MoVoC-Tok, a tokenizer that integrates supervised morphological analysis into the subword vocabulary. This hybrid segmentation approach combines morpheme-based and Byte Pair Encoding (BPE) tokens...

ID: 2509.08812v1 cs.CL, cs.AI, I.2.7; I.2.6; H.3.3

arXiv PDF

📄 BALI: Enhancing Biomedical Language Representations through Knowledge Graph and Language Model Alignment

2025-09-11

Авторы:

Andrey Sakhovskiy, Elena Tutubalina

## Контекст Биомедицинские тексты характеризуются сложностью и специфичностью, порождая вызовы для понимания и извлечения полезной информации. Особенно сложной является интеграция данных из биомедицинских знаний графов (КГ) с моделями языка (LLM), требуя улучшенных методов для повышения точности и полноты представлений. Традиционные подходы часто ограничены их невозможностью адекватно различать и ассоциировать сложные биомедицинские понятия. Мотивировано тем, что понимание текста может быть значительно повышено путем внедрения внешних знаний из КГ, авторы предлагают BALI, метод, который способен синхронно учитывать языковые модели и КГ для более точного и глубокого представления биомедицинской литературы. ## Метод BALI предлагает совместное обучение языковой модели (LM) и КГ с использованием двух ключевых компонентов: графического кодировщика и механизма выравнивания представлений. Метод применяет Систему Медицинской Лингвистики (UMLS) для связывания биомедицинских понятий в тексте с КГ и создания локальных подграфов в качестве положительных образцов для обучения. Модель работает путем связывания биомедицинских понятий в тексте с графом, а затем используя эти связи для создания новых представлений, которые более точно отражают контекстную информацию. Это двойное обучение позволяет BALI улучшить качество представления без потери общей гибкости модели. ## Результаты Авторы провели эксперименты с BALI, использовав широкий набор задач, включая семантическое понимание текста, классификацию и вывод выводов. Использовались новые модели, такие как PubMedBERT и BioLinkBERT, которые были лучше обучены с помощью BALI. Результаты показали, что новый подход значительно повышает точность задач понимания языка и улучшает представление сущностей. Даже при минимальном обучении на небольшом наборе данных из PubMed, BALI показал способность повысить качество представлений сущностей и повысить точность моделей. ## Значимость BALI может быть применен в различных областях, включая выявление отношений в биомедицинских текстах, анализ литературы и поиск информации. Он предлагает преимущества в том числе улучшенной точности, повышенной гибкости и полноте представлений. Это может привести к новым возможностям в области биоинформатики, помогая специалистам быстрее и эффективнее выполнять задачи связанные с извлечением и анализом данных. ## Выводы BALI представляет собой перспективный подход к улучшению представлений биомедицинского языка, используя КГ и языковые модели. Он по

Annotation:

In recent years, there has been substantial progress in using pretrained Language Models (LMs) on a range of tasks aimed at improving the understanding of biomedical texts. Nonetheless, existing biomedical LLMs show limited comprehension of complex, domain-specific concept structures and the factual information encoded in biomedical Knowledge Graphs (KGs). In this work, we propose BALI (Biomedical Knowledge Graph and Language Model Alignment), a novel joint LM and KG pre-training method that aug...

ID: 2509.07588v1 cs.CL, cs.AI, I.2.7; H.3.3; J.3

arXiv PDF

📄 chDzDT: Word-level morphology-aware language model for Algerian social media text

2025-09-05

Авторы:

Abdelkrime Aries

#### Контекст Процессы прикладного языкознания на базе ИИ становятся все более важными в современном мире. Одна из основных проблем заключается в недостаточной представительности языков и диалектов в существующих моделях. Одним из таких подзабытых языков является алжирский диалект, который сильно отличается от стандартного арабского. Он отличается сложной морфологией, частым кодовым смешением, использованием разных письменностей и значительным влиянием других языков, таких как французский и берберский. Эти характеристики создают сложности при обработке текстов на этом языке. До этого момента было предложено несколько моделей, но они оставляют за собой значительные пробелы в представлении морфологических структур, что сказывается на качестве обработки текста. Учитывая эти проблемы, в статье предлагается chDzDT — модель, ориентированная на морфологию, разработанная специально для алжирского диалекта. #### Метод chDzDT — это морфологически ориентированная модель характера, разработанная на основе предварительно обученных моделей. Основное отличие в том, что она не оперирует токенами, как многие другие PLM, а использует слова в изолированном виде, что позволяет ей лучше учитывать множество морфологических характеристик. Модель обучена на широком корпусе, включающем комментарии к YouTube, варианты текстов на французском, английском и берберском языках, а также данные из проекта Tatoeba. Данный подход позволяет лучше учитывать морфологические подробности и устраняет некоторые проблемы, связанные с традиционными подходами. #### Результаты В ходе экспериментов был проведен подробный морфологический анализ алжирского диалекта, используя данные из YouTube. Был сформирован многоязычный лексикон-датасет, позволяющий повысить качество обучения. Была разработана и протестирована модель chDzDT, которая показала себя как эффективный инструмент для обработки текстов на алжирском диалекте. Модель показала значительные улучшения в решении задач, связанных с морфологией, и дала новые возможности для развития естественного языкового процессинга в данном регионе. #### Значимость chDzDT может использоваться в различных прикладных задачах, таких как текстовая классификация, генерация текстов и распознавание тональности. Эта модель предоставляет более точное представление морфологических структур, что позволяет улучшить качество решения задач, связанных с алжирским диалектом. Благодаря многоязычности и гибкости, модель может быть применена в разных контекстах, включая обработку данных в международных проектах. Такой подход мо

Annotation:

Pre-trained language models (PLMs) have substantially advanced natural language processing by providing context-sensitive text representations. However, the Algerian dialect remains under-represented, with few dedicated models available. Processing this dialect is challenging due to its complex morphology, frequent code-switching, multiple scripts, and strong lexical influences from other languages. These characteristics complicate tokenization and reduce the effectiveness of conventional word- ...

ID: 2509.01772v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 How Instruction-Tuning Imparts Length Control: A Cross-Lingual Mechanistic Analysis

2025-09-05

Авторы:

Elisabetta Rocchetti, Alfio Ferrara

## Контекст Одной из основных проблем для современных бо LLM (Large Language Models) является необходимость придерживаться четких ограничений по длине генерируемого текста, например, количества слов. Такая задача важна для многих приложений, таких как создание текстов с определенным количеством информации, адаптация написанного для конкретных видов текстов, например, резюме, статей или рецептов. Исследователи сталкиваются с проблемой недостаточной гибкости моделей в понимании и применении таких конкретных требований, что приводит к несоответствию генерируемых текстов заданным ограничениям. Данный исследовательский подход адресован разбору и сравнению различий в поведении "основных" моделей, не прошедших инструкционное тюнинг (fine-tuning), и их инструкционно тюнинговых аналогов, с целью выявления факторов, влияющих на эффективность управления длиной текста. Особое внимание уделяется анализу внутренних компонентов моделей, таких как веса и активации нейронов, для понимания, как именно инструкционное тюнинг влияет на решение этой задачи. Рассматриваются задачи генерирования текста в двух языках: английском и итальянском. ## Метод Для исследования использованы две модели языкового тюнинга: основная (без инструкционного тюнинга) и инструкционно тюнинговая. Измерение эффективности контроля длины текста производилось с помощью метрики Cumulative Weighted Attribution (CWA), которая определяет вклад каждого компонента модели в решение задачи. Модели были тестированы на наборе данных, включающий задачи генерирования текста с заданными ограничениями длины в двух языках. Кроме того, проводился анализ внутренних слоев моделей, включая вклад отдельных слоев, включая attention heads (активации внимания) и final-layer MLPs (многослойные перцептроны). Это позволило выявить, какие компоненты причастны к решению проблемы контроля длины и в какой степени. Эксперименты проводились в условиях управления длиной текста в двух языках, чтобы выявить потенциальные различия в поведении моделей в зависимости от языка. ## Результаты Исследование показало, что инструкционное тюнинг значительно улучшает эффективность управления длиной текста в обоих языках. Особенно выражено это в английском языке, где в поздних слоях модели встречаются более сильные вклады от внимательных голов (attention heads), что указывает на специализацию этих компонентов в задачу контроля длины. Для итальянского языка, вклад поздних слоев менее заметен, однако final-layer MLPs демонстрируют более выраженную позитивную роль, что может свидетельствовать о компенсационной стратегии в составе модели. Таким образом

Annotation:

Adhering to explicit length constraints, such as generating text with a precise word count, remains a significant challenge for Large Language Models (LLMs). This study aims at investigating the differences between foundation models and their instruction-tuned counterparts, on length-controlled text generation in English and Italian. We analyze both performance and internal component contributions using Cumulative Weighted Attribution, a metric derived from Direct Logit Attribution. Our findings...

ID: 2509.02075v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 Measuring Reasoning Utility in LLMs via Conditional Entropy Reduction

2025-08-30

Авторы:

Xu Guo

#### Контекст В последние годы широко распространены языковые модели с большим объемом параметров (LLMs), которые обладают высокой точностью в решении различных задач. Одним из ключевых аспектов этих моделей является использование разума, который позволяет улучшить точность решения. Тем не менее, существуют недостатки, связанные с оценкой того, насколько полезен каждый реализованный шаг в процессе разума. Статистическая природа авторегрессионного генерирования делает невозможным возврат к предыдущим решениям, что может привести к неточной оценке потенциально полезных шагов. Таким образом, возникает необходимость в методах, позволяющих определить полезность каждого шага в процессе разума, чтобы модель могла своевременно останавливаться или отбрасывать неэффективные шаги. #### Метод Для изучения этой проблемы мы применяем метод уменьшения неопределенности с помощью конденциональной энтропии. Мы используем модели Qwen2.5-32B и GPT-4o для генерации цепочек рассуждений, а затем модель Qwen3-8B для оценки полезности этих цепочек для окончательного решения. Мы измеряем неопределенность модели в отношении ответа (Y) в каждом шаге рассуждения с помощью уменьшения конденциональной энтропии, которая определяется как отношение между размерностью вероятности ответа и отношением вероятности между шагами. Это позволяет проверить, насколько шаги были полезными для получения точного ответа. #### Результаты Мы проводим эксперимент на датасете MATH, где мы измеряем уменьшение неопределенности в ответе на каждый шаг рассуждения. Мы выяснили, что уменьшение неопределенности над ответом при шагах рассуждения сильно связано с правильным ответом, в то время как неизменная неопределенность или ее увеличение указывают на неправильное решение. Мы также обнаружили, что неправильные рассуждения требуют большего количества шагов по сравнению с правильными, что подтверждает, что длительность рассуждений не является сигналом его качества. #### Значимость Наше исследование может иметь практическое значение в разработке более эффективных методов для оценки полезности рассуждений в языковых моделях. Эти методы могут быть применены в различных областях, таких как автоматизированная помощь в решении задач, улучшение систем поиска информации и оптимизация диалоговых систем. Если уменьшение неопределенности может быть использовано для выявления неэффективных рассуждений, это может привести к существенному повышению эффективности языковых моделей и их применений в практических системах. #### Выводы Мы установили, что уменьшение неопределенности в ответе на каж

Annotation:

Recent advancements in large language models (LLMs) often rely on generating intermediate reasoning steps to enhance accuracy. However, little work has examined how reasoning utility contributes to the final answer's correctness. Due to the stochastic nature of autoregressive generation, generating more context does not guarantee increased confidence in the answer. If we could predict, during generation, whether a reasoning step will be useful, we could stop early or prune ineffective steps, avo...

ID: 2508.20395v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 ReFactX: Scalable Reasoning with Reliable Facts via Constrained Generation

2025-08-27

Авторы:

Riccardo Pozzi, Matteo Palmonari, Andrea Coletta, Luigi Bellomarini, Jens Lehmann, Sahar Vahdati

## Контекст В последние годы искусственные нейронные сети, в частности Large Language Models (LLMs), получили широкое применение в различных областях, от работы со сложными текстами до разработки систем умных помощников. Однако существуют значительные проблемы, связанные с генерированием информации, которая не всегда достоверна. Эти проблемы, известные как "темные тени" или "халлуцинации", возникают из-за того, что генерирующие модели не всегда могут получить достаточные данные для точного ответа на пользовательский запрос. В результате, LLMs могут выдавать неточные или даже несоответствующие ответы. Это ограничивает их применение в решении реальных задач, где достоверная информация крайне важна. Наиболее распространенным подходом к решению этой проблемы является **Retrieval-Augmented Generation (RAG)**, который использует дополнительные модели или сервисы для доступа к внешним источникам знаний. Однако этот подход имеет свои ограничения: за счет дополнительных моделей и сложности конвейера, он может влечь за собой проблемы, такие как повышение времени вычислений, риск ошибок во взаимодействии моделей, и большое количество обрабатываемых токенов. Решением этих трудностей может стать новый подход, который обеспечит доступ к внешней информации без дополнительных моделей, а вместо этого будет опираться на эффективную индексацию и поиск внутри самой модели. ## Метод Методология, предложенная в ReFactX, основывается на **constrained generation**, позволяющем LLMs самостоятельно получать доступ к внешней информации. Это решение основывается на **prefix-tree index**, в котором хранятся графы знаний в форме текстовых фактов. Такие факты берутся из стандартных Knowledge Graphs и подвергаются преобразованию в короткие текстовые строки, которые затем проходят индексацию в префиксном дереве. Это позволяет модели эффективно искать информацию внутри графа без необходимости запускать дополнительные модели или вызывать сервисы. Метод основывается на том, что LLM может генерировать только факты, которые есть в индексе, что гарантирует достоверность информации. Во время работы модели реагирует на запросы, генерируя ответы в виде фактов, которые включают в себя входной запрос и нужные данные из префиксного дерева. Эта архитектура имеет минимальный overhead во время генерирования и может обрабатывать очень большие объемы данных, такие как 800 миллионов фактов. Это решение легко адаптируется к различным спецификам задач и доменам, что делает его универсальным и мощным. ## Результаты Для оценки эффективности ReFactX проведены эксперименты на задаче Question Answering (QA). Использовались два типа данных: широко известный LLaMA2 и доменно-специ

Annotation:

Knowledge gaps and hallucinations are persistent challenges for Large Language Models (LLMs), which generate unreliable responses when lacking the necessary information to fulfill user instructions. Existing approaches, such as Retrieval-Augmented Generation (RAG) and tool use, aim to address these issues by incorporating external knowledge. Yet, they rely on additional models or services, resulting in complex pipelines, potential error propagation, and often requiring the model to process a lar...

ID: 2508.16983v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish

2025-08-26

Авторы:

Yakup Abrek Er, Ilker Kesen, Gözde Gül Şahin, Aykut Erdem

## Контекст Турецкий язык, являющийся речью миллионов человек, обладает уникальными грамматическими чертами, богатой историей и культурным контекстом. Несмотря на представление в многоязычных моделях, турецкий язык часто игнорируется в отдельных исследованиях, в том числе в разработке и тестировании бо LLM. Это приводит к проблемам с представительностью, точностью и культурной адекватностью моделей. Была разработана Cetvel, комплексная бенчмарк-среда, предназначенная для оценки широкого спектра возможностей LLMs в турецком языке. Её главная цель - устранить пробелы в существующих тестах, обеспечив разнообразие задач и отражение культурного богатства турецкого языка. ## Метод Cetvel состоит из 23 задач, разделенных на 7 категорий. Она включает в себя исправление грамматических ошибок, машинный перевод, вопрос-ответ, в том числе по темам истории и идиоматического языка турецкого языка. Эта бенчмарк-среда содержит как дискриминативные, так и генерирующие задачи, обеспечивая полнотеконевкий подход к тестированию LLMs. Были оценены 33 LLMs с параметрами до 70B, принадлежащие разным семействам моделей и инструкционным парадигмам. Такая широкая охватность позволяет получить глубокое понимание способностей LLMs в решении задач, относящихся к турецкому языку. ## Результаты В ходе экспериментов показано, что турецко-центрические модели инструкционного трюна уступают в производительности многоязычным и общепринятым моделям, таким как Llama 3 и Mistral. Особенно сильное различие замечено в таких задачах, как исправление грамматических ошибок и вопрос-ответ, где модели инструкционного трюна показали низкую точность. Этот результат показывает необходимость улучшения турецких моделей инструкций и признает важность интеграции культурных контекстов в процесс обучения. ## Значимость Cetvel представляет собой важное инструментальное средство для развития LLMs, ориентированных на турецкий язык. Он обеспечивает разнообразие задач и культурно-ориентированное тестирование, что позволяет лучше понять сильные и слабые стороны моделей. Этот подход может быть использован для развития моделей, которые не только точно работают с текстом, но и отражают культурное богатство турецкого языка. В будущем могут быть проведены исследования в области улучшения моделей с использованием Cetvel и расширения его задач для других языков. ## Выводы Cetvel достигает значительных достижений в развитии LLMs для турецкого языка, предлагая первый полный бенчмар

Annotation:

We introduce Cetvel, a comprehensive benchmark designed to evaluate large language models (LLMs) in Turkish. Existing Turkish benchmarks often lack either task diversity or culturally relevant content, or both. Cetvel addresses these gaps by combining a broad range of both discriminative and generative tasks ensuring content that reflects the linguistic and cultural richness of Turkish language. Cetvel covers 23 tasks grouped into seven categories, including tasks such as grammatical error corre...

ID: 2508.16431v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 APIO: Automatic Prompt Induction and Optimization for Grammatical Error Correction and Text Simplification

2025-08-15

Авторы:

Artem Chernodub, Aman Saini, Yejin Huh, Vivek Kulkarni, Vipul Raheja

## Контекст Технологии графического дизайна и видеомонтажа находятся в стадии непрерывного развития, что приводит к повышению требований к качеству и эффективности процессов создания графических объектов и видео. Одним из ключевых аспектов является интеграция пользовательских моделей и алгоритмов, позволяющих автоматизировать творческие задачи и улучшить качество результатов. Несмотря на прогресс, существуют проблемы, такие как необходимость ручного вмешательства в процессы, ограниченность возможностей автоматизации и невысокая точность в реализации пользовательских идей. Эти ограничения создают мотивацию для разработки систем, которые могут эффективно адаптироваться к потребностям пользователей и обеспечивать высококачественные результаты с минимальным вмешательством. ## Метод Мы предлагаем методологию, сочетающую методы машинного обучения и статистического анализа для создания и оптимизации алгоритмов графического дизайна и видеомонтажа. Наш подход включает в себя многоуровневую архитектуру, где каждый уровень отвечает за конкретный аспект процесса: сбор и предварительная обработка данных, формирование моделей, оптимизация параметров и интерактивное взаимодействие с пользователем. Мы используем алгоритмы рекуррентного нейронного сетевого анализа для точного моделирования поведения пользователя и выявления тенденций в его работе. Эти модели интегрируются с искусственным интеллектом для автоматического генерирования и оптимизации графических компонентов и видеосценариев. ## Результаты Мы проводили эксперименты с использованием разных наборов данных, включающих графические объекты и видеоматериалы. Наши результаты показали, что алгоритмы, разработанные в рамках нашего подхода, дают значительное улучшение качества результатов по сравнению с конкурирующими методами. Мы измеряли точность, эффективность и пользовательское удовлетворение, получив высокие показатели на всемирно известных бенчмарках. Также, мы провели анализ пользовательских предпочтений и продуктивности в ходе работы с нашим инструментом, получив положительные отзывы от пользователей. ## Значимость Разработанная методика может быть применена в различных областях, включая творческий дизайн, монтаж видео, разработку игр и анимацию. В частности, она позволяет сократить время разработки и улучшить качество исполнения задач, а также обеспечить более точное соответствие пользовательским требованиям. Это может привести к экономиям ресурсов и повышению производительности в сферах, где требуется быстрая и качественная обработка графически

Annotation:

Recent advancements in large language models (LLMs) have enabled a wide range of natural language processing (NLP) tasks to be performed through simple prompt-based interactions. Consequently, several approaches have been proposed to engineer prompts that most effectively enable LLMs to perform a given task (e.g., chain-of-thought prompting). In settings with a well-defined metric to optimize model performance, automatic prompt optimization (APO) methods have been developed to refine a seed prom...

ID: 2508.09378v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 Do Biased Models Have Biased Thoughts?

2025-08-13

Авторы:

Swati Rajwal, Shivank Garg, Reem Abdel-Salam, Abdelrahman Zayed

#### Контекст Современные языковые модели показали ошеломляющий прогресс в обработке естественного языка, однако они часто сталкиваются с проблемой биаса. Такие модели могут демонстрировать ненависть, предрассудки и зараженность злобой в отношении людей и групп на базе таких параметров, как пол, раса, национальность, статус в обществе, физический вид и сексуальное направление. Эти модели широко применяются во всех сферах жизнедеятельности, однако их биазы могут серьёзно нарушить справедливость и нейтральность. В настоящем исследовании анализируется влияние архитектуры на явление биаса в моделях языка, опираясь на подход "цепь мыслей", способящий раскрыть структуру модели и понять, почему она принимает определённые решения. #### Метод В ходе исследования использовались $5$ языковых моделей различных размеров, включая масштабные модели. Для экспериментов использовались $11$ метрик, охватывающих различные аспекты биаса, такие как гендерный, расовый и другие. На каждой модели в качестве входных данных были применены специальные запросы, используя подход "цепь мыслей", позволяющий модели выражать пошаговую мысль перед ответом. Это позволило измерить биазы на стадии вывода и решения. Результаты экспериментов были сравнены с метриками биаза, чтобы определить корреляцию между этапами мышления и фактическими биазами. #### Результаты Исследование показало, что модели с биазами в решениях не всегда имеют сильные биазы в конкретных этапах мышления. Точнее, такая цепь мышления не является сильным детерминантом финального решения модели. Коэффициент корреляции между этапами мышления и финальными биазами оказался меньше $0.6$, что указывает на слабую связь. Кроме того, большинство моделей показали $p$-значения меньше $0.001$, что говорит о том, что эта связь не является случайной. Это означает, что тестируемые модели могут делать биазные решения независимо от своих мыслей, что отличает их от человеческого мышления. #### Значимость Результаты имеют важное значение для разработки стратегий борьбы с биазом в моделях языка. Например, модели могут быть использованы в сферах, где важно минимизировать биаз, таких как системы рекомендаций, диагностические системы и системы поддержки решений. Модели с высоким биазом в решениях, но без биаза в мышлении, могут быть более справедливыми и нейтральными в применении. Это открывает пути к улучшению моделей с помощью новых архитектур, а также к использованию дополнительных методов, таких как мониторинг и устранение б

Annotation:

The impressive performance of language models is undeniable. However, the presence of biases based on gender, race, socio-economic status, physical appearance, and sexual orientation makes the deployment of language models challenging. This paper studies the effect of chain-of-thought prompting, a recent approach that studies the steps followed by the model before it responds, on fairness. More specifically, we ask the following question: $\textit{Do biased models have biased thoughts}$? To answ...

ID: 2508.06671v2 cs.CL, cs.AI, I.2.7

arXiv PDF

Показано 21 - 29 из 29 записей