📚 Саммари научных статей из arXiv

Найдено 2054 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

2025-08-27

Авторы:

Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso

#### Контекст Стоимость и повышенная частота выхода за рамки фактичности (hallucination) в системах на основе Large Language Models (LLMs) становится все более выраженной. Хотя многие подходы ориентируются на фильтрацию результатов после их получения, менее исследованы подходы, направленные на прогностическую модификацию входных запросов для предотвращения выхода LLMs из рамков фактур. Этот вопрос особенно актуален для задач, требующих высокой точности и надежности, например, в медицинских и юридических сферах. #### Метод Мы предлагаем QueryBandits, фреймворк, основанный на бандитной многоразрядной модели, который использует 17 семантических признаков запросов для оптимизации регрессионной функции наград. Эта модель принимает во внимание чувствительность запросов к языковым особенностям, которые влияют на тенденцию LLMs к выводу за рамки фактичности. QueryBandits стремится проактивно изменять запросы, чтобы увеличить точность ответов LLMs и уменьшить риск выхода за рамки фактур. #### Результаты Мы использовали 13 различных бенчмарков для оценки эффективности QueryBandits. Наша реализация с Томпсоновским выбором показала 87.5% выигрышный результат по сравнению с базовым вариантом без редактирования запросов. Также, QueryBandits превосходит другие статические подходы, такие как "парафразировать" и "расширять" запросы, на 42.6% и 60.3% соответственно. Интересно, что некоторые статические подходы к редактированию запросов демонстрируют большую суммарную отдачу (regret) по сравнению с базовым вариантом, что указывает на то, что они могут ухудшать выход за рамки фактур. #### Значимость Протоколы QueryBandits могут быть применены в сферах, где точность и надежность критичны, таких как медицина, юриспруденция и финансы. Наш подход демонстрирует преимущества перед статическими методами, показывая, что прогностическое редактирование запросов может быть более эффективным, чем простое модифицирование результатов. Это открывает пути для более широкого применения LLMs в решении задач, требующих высокой точности. #### Выводы Исследования показывают, что QueryBandits могут значительно улучшить точность LLM-моделей, проверяя и модифицируя входные запросы. Наш подход позволяет избежать последствий выхода за рамки фактур без необходимости переучивать модель. Будущие исследования будут фокусироваться на усовершенствовании моделей бандитных фреймворков и их применении в реальных ситуациях, включая задачи с высокой степенью ответственности.

Annotation:

Advanced reasoning capabilities in Large Language Models (LLMs) have caused higher hallucination prevalence; yet most mitigation work focuses on after-the-fact filtering rather than shaping the queries that trigger them. We introduce QueryBandits, a bandit framework that designs rewrite strategies to maximize a reward model, that encapsulates hallucination propensity based upon the sensitivities of 17 linguistic features of the input query-and therefore, proactively steer LLMs away from generati...

ID: 2508.16697v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 From Confidence to Collapse in LLM Factual Robustness

2025-08-27

Авторы:

Alina Fastowski, Bardh Prenkaj, Gjergji Kasneci

## Контекст Область исследования связана с улучшением фактической надежности Large Language Models (LLMs). Несмотря на то, что LLMs проявляют великолепные результаты в задачах, таких как вопрос-ответ, они часто сталкиваются с проблемами фактической надежности. Это проявляется в неверных или неполных ответах при внесении изменений в входные данные или условия вывода. Такие проблемы могут привести к неудовлетворительному поведению в реальных сценариях, таких как создание ответов, конфликтующих с фактическими данными, или выдача неверных результатов. Данная статья определяет интерес к изучению фактической надежности LLMs для повышения надежности в задачах, таких как вопрос-ответ, и разработке эффективных методов для оценки и улучшения этого аспекта. ## Метод Разработанная методология основывается на измерении того, насколько фактическая надежность LLMs устойчива к затруднениям в процессе вывода. Для этого вводится новый метрический показатель Factual Robustness Score (FRS), основанный на измерении двух факторов: ентропии токенов и чувствительность к температуре вывода. Энтропия токенов измеряет степень неопределенности в токенах, которые LLMs выбирают в процессе вывода, в то время как чувствительность к температуре измеряет изменение вероятностей токенов при изменении температуры в процессе вывода. Эти два фактора объединяются в составляющие нового FRS. Для проведения экспериментов было использовано 5 моделей с различным количеством параметров и 3 датасетами closed-book QA, чтобы проверить надежность моделей в условиях различных степеней неопределенности. ## Результаты Результаты экспериментов показали, что значения FRS для LLMs варьируются в зависимости от размера модели и уровня неопределенности в выводе. Например, наименьшие модели имели FRS около 0.76, в то время как более крупные модели — 0.93. Эксперименты также показали, что фактическая надежность моделей снижается при увеличении неуверенности в выводе; в среднем наблюдалось падение точности ответа на 60%. Эти результаты подтверждают, что ентропия токенов и чувствительность к температуре вывода влияют на фактическую надежность LLMs и могут быть использованы для оценки и улучшения этих моделей. ## Значимость Найденные результаты имеют значительное значение для развития технологий обработки текста и знаний. Разработанный FRS может быть применен для оценки надежности LLMs в задачах, таких как вопрос-ответ и решение задач на основе знаний. Это также позволяет выявить узкие места в моделях, которые могут привести к неверным ответам. Эти результаты могут способствовать развитию более надежных моделей, способных лучше удерживать и выдавать фактическую инфор

Annotation:

Ensuring the robustness of factual knowledge in LLMs is critical for reliable applications in tasks such as question answering and reasoning. However, existing evaluation methods predominantly focus on performance-based metrics, often investigating from the perspective of prompt perturbations, which captures only the externally triggered side of knowledge robustness. To bridge this gap, we introduce a principled approach to measure factual robustness from the perspective of the generation proces...

ID: 2508.16267v2 cs.CL, cs.AI

arXiv PDF

📄 Assessing Consciousness-Related Behaviors in Large Language Models Using the Maze Test

2025-08-27

Авторы:

Rui A. Pimenta, Tim Schlippe, Kristina Schaaff

## Контекст В последние годы широко распространены теории, утверждающие, что сознание может быть выражено в выполнении конкретных задач или поведений. Одним из важных аспектов сознания является способность представлять себя в пространстве, принимать различные точки зрения, работать направленно и успешно организовывать действия во времени. Эти характеристики часто связываются с сознанием. Однако существуют разные взгляды на то, могут ли роботы или модели языка выражать такие аспекты сознания. Некоторые исследователи считают, что любое поведение может быть реализовано с помощью алгоритмов и техники глубокого обучения, не требуя самостоятельной сознательной активности. Другие утверждают, что некоторые аспекты сознания могут быть реализованы только в системах, которые могут "понимать" свое окружение и выполнять сложные задачи. Проблема заключается в том, что существующие методы оценки сознательных поведений часто ограничены, неполны или недостаточно оптимальны для выявления подробных аспектов сознания. Для этого требуется развитие более сложных и интеллектуальных тестов. Одним из таких тестов является Maze Test, который рассматривает модели языка как активных агентов, которые должны перемещаться по квадратной матрице, выполняя задания и обходя препятствия. ## Метод Maze Test — это интеллектуальный тест, который эмулирует ситуацию, в которой модель языка должна перемещаться по матрице с набором препятствий, с помощью команд текстового ввода. Этот тест оценивает модели на четыре основных характеристики: пространственное восприятие, телесность, направленность и последовательность времени. Математически, координаты перемещения модели могут быть представлены в виде вектора, в котором каждый элемент соответствует относительной позиции модели в пространстве. В ходе экспериментов модели языка проверяются в различных режимах: zero-shot, one-shot и few-shot. Zero-shot — это режим, когда модели не получают никаких дополнительных подсказок заранее. One-shot и few-shot — режимы, в которых модели получают от одного до нескольких примеров задач, чтобы понять, что требуется сделать. ## Результаты В ходе экспериментов были протестированы 12 лидирующих моделей языка, в том числе Gemini 2.0 Pro и DeepSeek-R1. Результаты показали, что в zero-shot режиме модели с механизмами логического вывода показали значительное превосходство в сравнении с классическими моделями. Например, Gemini 2.0 Pro показал 52,9% Complete Path Accuracy, а DeepSeek-R1 — 80,5% Partial Path Accuracy. Эти результаты показали, что модели с механизмами рассуждения способны перемещаться через пространство, выполняя задачи в виде

Annotation:

We investigate consciousness-like behaviors in Large Language Models (LLMs) using the Maze Test, challenging models to navigate mazes from a first-person perspective. This test simultaneously probes spatial awareness, perspective-taking, goal-directed behavior, and temporal sequencing-key consciousness-associated characteristics. After synthesizing consciousness theories into 13 essential characteristics, we evaluated 12 leading LLMs across zero-shot, one-shot, and few-shot learning scenarios. R...

ID: 2508.16705v1 cs.CL, cs.AI

arXiv PDF

📄 MTalk-Bench: Evaluating Speech-to-Speech Models in Multi-Turn Dialogues via Arena-style and Rubrics Protocols

2025-08-27

Авторы:

Yuhao Du, Qianwei Huang, Guo Zhu, Zhanchen Dai, Sunian Chen, Qiming Zhu, Yuhao Zhang, Li Zhou, Benyou Wang

## Контекст Появление говорящих моделей, использующихся в реальном времени, вызвало значительные прогрессы в области обеспечения бесперебойных диалогов. Однако, существующие фреймворки для оценки этих моделей часто недостаточно эффективны для анализа поведения в сложных, многократно взаимодействующих диалогах. Для решения этой проблемы был разработан MTalk-Bench — новый бенчмарк для оценки моделей в области многократного взаимодействия (multi-turn dialogues) с учетом трех основных аспектов: семантическая информация, паралингвистическая информация и аудиоклимат (ambient sound). Этот бенчмарк предлагает широкий спектр сценариев для подробного анализа возможностей моделей, в том числе вопросы логического рассуждения и другие. Эта разработка позволяет оценивать модели как в сравнительном, так и в абсолютном ключе, с использованием подходам Arena-style и Rubrics-based. ## Метод Методология MTalk-Bench основывается на двух основных этапах: Arena-style evaluation и Rubrics-based evaluation. В первом случае проводится сравнительный анализ моделей с использованием парных оценок (pairwise comparison). Во втором — используется абсолютная оценка, где каждый ответ оценивается по определенным критериям. Бенчмарк включает не только модельные ответы, но и ответы от реальных пользователей, которые также проходят оценку человеческими и модельными оценщиками. Таким образом, MTalk-Bench предоставляет полную картину качества работы моделей в различных сценариях. Данные, используемые для экспериментов, включают как модельные ответы, так и гуманные ответы, которые проходят детальную оценку. ## Результаты В ходе экспериментов было выявлено, что модели S2S LLMs демонстрируют отличную работу в области семантической информации, однако существуют слабые места при обработке паралингвистической информации и звукового климата (ambient sound). Также было замечено, что модели могут улучшить выразительность ответов, увеличивая их длину, однако это снижает эффективность в многократном взаимодействии. На практике, модели, разработанные с помощью задачно-ориентированных подходов, показали более высокую эффективность по сравнению с "грубым" масштабированием моделей. Анализ оценочных подходов Arena и Rubrics показал, что оба подхода достаточно надежны, однако различия становятся явными только при больших разностях в качестве выполнения. Также были выявлены ряд ограничений, в частности, LLM-as-a-judge показал хорошую сводость с оценками человека, но существуют позиционные и длительностные биасы. ## Значимость MTalk-Bench представляет собой важное инструментальное решение для оценки моделей S2S в многократных диалогах. Он может быть примен

Annotation:

The rapid advancement of speech-to-speech (S2S) large language models (LLMs) has significantly improved real-time spoken interaction. However, current evaluation frameworks remain inadequate for assessing performance in complex, multi-turn dialogues. To address this, we introduce MTalk-Bench, a multi-turn S2S benchmark covering three core dimensions: Semantic Information, Paralinguistic Information, and Ambient Sound. Each dimension includes nine realistic scenarios, along with targeted tasks to...

ID: 2508.18240v1 cs.CL, cs.AI

arXiv PDF

📄 Dream to Chat: Model-based Reinforcement Learning on Dialogues with User Belief Modeling

2025-08-27

Авторы:

Yue Zhao, Xiaoyu Wang, Dan Wang, Zhonglin Jiang, Qingqing Gu, Teng Chen, Ningyuan Xi, Jinxian Qu, Yong Chen, Luo Ji

#### Контекст Общение через текстовые сообщения широко распространено в современном мире. Однако создание удовлетворительного диалогового агента с полноценными способностями понимания и выражения человеческих эмоций, чувств и намерений остается сложной задачей. Основная проблема заключается в том, что диалоговые системы часто не умеют оптимально реагировать на пользователей, не учитывая их эмоциональное состояние и потребности. Это приводит к статичным и неестественным интерактивным моделям. Необходимо разработать модель, которая могла бы учитывать эти аспекты, создавая более естественное и эмоционально интеллектуально обогащенное общение. #### Метод Мы предлагаем **методологию Model-Based Reinforcement Learning (MBRL)** для моделирования диалогов, архитектуру **Dialog World Model (DWM)** и подход **User Belief Modeling (UBM)**. Мир диалога определяется как POMDP (ограниченное неопределенностное подпрограммное моделирование), где пользовательские эмоции, чувства и намерения моделируются как состояние веры пользователя. Данные элементы моделируются с помощью нейронных сетей и анализа текстов. Для решения задачи используется информационное бутонкое моделирование, что позволяет оптимизировать модель диалогового агента. Мы предлагаем фреймворк **DreamCUB**, который объединяет модель диалога, критик и политику в моделировании состояния пользователя. Он позволяет достичь совместного обучения политики, критика и диалоговой модели, чтобы обеспечить более эффективное поведение диалогового агента. #### Результаты Мы провели эксперименты, применяя **DreamCUB** на диалоговых задачах, включая классификацию эмоций и идентификацию сентимента. Модель показала статус **state-of-the-art** в этих задачах, оптимизировав показатели качества и точность. Далее был проведен анализ трансферной способности модели в задачах, например, эмпатических диалогах. Результаты показали, что **DreamCUB** обладает высокой трансферной способностью и может эффективно адаптироваться к новым, неизвестным сценариям. Это подтверждает эффективность использования мира диалогов для моделирования пользовательских эмоций и намерений. #### Значимость Наша модель имеет широкие области применения, включая коммерческие диалоговые системы, медицинский сектор, образовательные приложения и системы поддержки пользователей. Основные преимущества: - Улучшение точности и эмоционального соответствия в диалогах. - Увеличение трансферной способности к новым сценариям. - Оптимальное балансирование между исследованием и использованием в течение интеракции. Потенциальное влияние заключается в том, что **DreamCUB** может стать основой для развития более эмоционально

Annotation:

World models have been widely utilized in robotics, gaming, and auto-driving. However, their applications on natural language tasks are relatively limited. In this paper, we construct the dialogue world model, which could predict the user's emotion, sentiment, and intention, and future utterances. By defining a POMDP, we argue emotion, sentiment and intention can be modeled as the user belief and solved by maximizing the information bottleneck. By this user belief modeling, we apply the model-ba...

ID: 2508.16876v2 cs.CL, cs.AI

arXiv PDF

📄 Explaining Black-box Language Models with Knowledge Probing Systems: A Post-hoc Explanation Perspective

2025-08-27

Авторы:

Yunxiao Zhao, Hao Xu, Zhiqiang Wang, Xiaoli Li, Jiye Liang, Ru Li

## Контекст Безрассильные языковые модели (PLM) обучены на больших объемах немаркированных данных и проявляют выдающиеся навыки рассуждения. Однако их "черные-ящик" структура затрудняет их доверительность. Из-за невозможности раскрыть причины их выводов, разработчики используют методы, называемые **post-hoc explanations**, чтобы получить информированные объяснения для внешних пользователей. Эти методы позволяют проверить, понимает ли модель неявное знание за пределами текста, а не только его поверхностную структуру. Мы предлагаем метод KnowProb, который работает как post-hoc explainer, чтобы изучить понимание PLM и отсутствие знаний. Это позволяет выявить слабые места и улучшить понимание работы PLM. ## Метод Методом KnowProb генерируются шесть типов потенциальных объяснений, рассматривая текст как поддержка различных типов знаний. Это включает три вида **knowledge-based understanding** (например, сходство сущностей или знания об имени) и три вида **association-based reasoning** (например, понятие логики или географические связи). KnowProb использует эти шесть типов объяснений, чтобы проверить, правильно ли PLM понимает текст. Такой подход позволяет выявить ошибки в понимании и раскрыть лимиты PLM. ## Результаты В экспериментах мы проверили KnowProb на нескольких моделях, включая обычные и большие PLM-модели. Мы показали, что многие модели, даже большие, не могут достаточно хорошо понимать неявное знание. Например, тесты показали, что многие модели выдают неверные ответы на вопросы, которые требуют глубокого понимания текста. KnowProb успешно выявил эти недостатки, демонстрируя, что текущие модели страдают от лимитов в их понимании нестандартных типов знаний. ## Значимость Метод KnowProb может быть полезен во многих областях, таких как разработка доверительных моделей, улучшение анализа текста и развитие новых методов обучения. Он также позволяет лучше понять ограничения PLM и направляет исследователей в разработке более транспарентых моделей. Это делает KnowProb важной частью работы над достижением более транспарентных и надежных моделей языкового понимания. ## Выводы KnowProb продемонстрировал эффективность в обнаружении слабых мест в PLM, которые страдают от ограничений в понимании нестандартных знаний. Это открыло новые возможности для повышения доверия к моделям и стимулировало развитие методов post-hoc explanations в области NLP. Будущие работы будут ориентированы на улучшение KnowProb и его применение в контексте более сложных моделей языкового понимания.

Annotation:

Pre-trained Language Models (PLMs) are trained on large amounts of unlabeled data, yet they exhibit remarkable reasoning skills. However, the trustworthiness challenges posed by these black-box models have become increasingly evident in recent years. To alleviate this problem, this paper proposes a novel Knowledge-guided Probing approach called KnowProb in a post-hoc explanation way, which aims to probe whether black-box PLMs understand implicit knowledge beyond the given text, rather than focus...

ID: 2508.16969v1 cs.CL, cs.AI, cs.DB

arXiv PDF

📄 ReFactX: Scalable Reasoning with Reliable Facts via Constrained Generation

2025-08-27

Авторы:

Riccardo Pozzi, Matteo Palmonari, Andrea Coletta, Luigi Bellomarini, Jens Lehmann, Sahar Vahdati

## Контекст В последние годы искусственные нейронные сети, в частности Large Language Models (LLMs), получили широкое применение в различных областях, от работы со сложными текстами до разработки систем умных помощников. Однако существуют значительные проблемы, связанные с генерированием информации, которая не всегда достоверна. Эти проблемы, известные как "темные тени" или "халлуцинации", возникают из-за того, что генерирующие модели не всегда могут получить достаточные данные для точного ответа на пользовательский запрос. В результате, LLMs могут выдавать неточные или даже несоответствующие ответы. Это ограничивает их применение в решении реальных задач, где достоверная информация крайне важна. Наиболее распространенным подходом к решению этой проблемы является **Retrieval-Augmented Generation (RAG)**, который использует дополнительные модели или сервисы для доступа к внешним источникам знаний. Однако этот подход имеет свои ограничения: за счет дополнительных моделей и сложности конвейера, он может влечь за собой проблемы, такие как повышение времени вычислений, риск ошибок во взаимодействии моделей, и большое количество обрабатываемых токенов. Решением этих трудностей может стать новый подход, который обеспечит доступ к внешней информации без дополнительных моделей, а вместо этого будет опираться на эффективную индексацию и поиск внутри самой модели. ## Метод Методология, предложенная в ReFactX, основывается на **constrained generation**, позволяющем LLMs самостоятельно получать доступ к внешней информации. Это решение основывается на **prefix-tree index**, в котором хранятся графы знаний в форме текстовых фактов. Такие факты берутся из стандартных Knowledge Graphs и подвергаются преобразованию в короткие текстовые строки, которые затем проходят индексацию в префиксном дереве. Это позволяет модели эффективно искать информацию внутри графа без необходимости запускать дополнительные модели или вызывать сервисы. Метод основывается на том, что LLM может генерировать только факты, которые есть в индексе, что гарантирует достоверность информации. Во время работы модели реагирует на запросы, генерируя ответы в виде фактов, которые включают в себя входной запрос и нужные данные из префиксного дерева. Эта архитектура имеет минимальный overhead во время генерирования и может обрабатывать очень большие объемы данных, такие как 800 миллионов фактов. Это решение легко адаптируется к различным спецификам задач и доменам, что делает его универсальным и мощным. ## Результаты Для оценки эффективности ReFactX проведены эксперименты на задаче Question Answering (QA). Использовались два типа данных: широко известный LLaMA2 и доменно-специ

Annotation:

Knowledge gaps and hallucinations are persistent challenges for Large Language Models (LLMs), which generate unreliable responses when lacking the necessary information to fulfill user instructions. Existing approaches, such as Retrieval-Augmented Generation (RAG) and tool use, aim to address these issues by incorporating external knowledge. Yet, they rely on additional models or services, resulting in complex pipelines, potential error propagation, and often requiring the model to process a lar...

ID: 2508.16983v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 GRADE: Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation

2025-08-27

Авторы:

Jeongsoo Lee, Daeyong Kwon, Kyohoon Jin

## Контекст В последнее время искусственный интеллект (AI) получил широкое распространение в различных областях, в том числе в области знаний-интенсивных задач (knowledge-intensive NLP tasks). Одной из наиболее популярных парадигм в этой области является Retrieval-Augmented Generation (RAG). Эта парадигма объединяет систему вывода и систему поиска информации, чтобы обеспечивать более точные и содержательные ответы на текстовые запросы. Однако существуют значительные проблемы с точки зрения оценки этих систем. Например, существующие бенчмарки часто пренебрегают сложностью задачи, включая возможность многостадийного решения и взаимосвязь между сложностью поиска и глубиной рассуждения. Именно этот аспект требует углубленного изучения, и в этом связи был разработан проект \textsc{GRADE}, который предлагает новую метрику для оценки сложности задачи. ## Метод Методология проекта \textsc{GRADE} основывается на создании синтетической многошаговой (multi-hop) датасета для оценки систем RAG. Для этого были использованы фактические новостные статьи, из которых извлекались знания в виде графов. Далее, эти графы были расширены с помощью семантического кластеризации, что позволило восстановить отсутствующие связи и улучшить качество данных. Таким образом, был получен набор задач, где каждая из них может быть решена за один или несколько шагов (hops). Был также разработан 2D-дifficulty matrix, который отражает сложность поиска и глубину рассуждений. Эта модель позволяет оценивать не только отдельные задачи, но и всю систему RAG в целом. ## Результаты Эксперименты показали, что \textsc{GRADE} эффективно определяет сложность задач и обеспечивает точную оценку RAG-систем. Было проанализировано несколько моделей и достаточно большой выборки задач. Результаты показали, что оценочные метрики \textsc{GRADE} показывают сильную корреляцию с реальными ошибками системы, что делает их полезными для диагностики. Было также выявлено, что системы с более низкой сложностью поиска и меньшей глубиной рассуждения проявляют лучший результат, а \textsc{GRADE} дает возможность определять эти характеристики. ## Значимость Разработанный фреймворк \textsc{GRADE} может быть применен в различных областях, где используются RAG-системы, например, в медицине, в области юриспруденции, в образовательных системах. Он позволяет проводить подробный анализ характеристик задач, чтобы выявлять слабые места в системе и улучшать ее. Также \textsc{GRADE} может использоваться для создания более сложных и реалистичных датасетов, чтобы повысить качество обучения и отбора моделей. Такой подход может привести к повышению эффективности

Annotation:

Retrieval-Augmented Generation (RAG) systems are widely adopted in knowledge-intensive NLP tasks, but current evaluations often overlook the structural complexity and multi-step reasoning required in real-world scenarios. These benchmarks overlook key factors such as the interaction between retrieval difficulty and reasoning depth. To address this gap, we propose \textsc{GRADE}, a novel evaluation framework that models task difficulty along two orthogonal dimensions: (1) reasoning depth, defined...

ID: 2508.16994v1 cs.CL, cs.AI

arXiv PDF

📄 Linguistic Neuron Overlap Patterns to Facilitate Cross-lingual Transfer on Low-resource Languages

2025-08-27

Авторы:

Yuemei Xu, Kexin Xu, Jian Zhou, Ling Hu, Lin Gui

## Контекст Улучшение способности к кросс-языковому переводу в условиях нехватки данных для немасштабных языков остается значительной проблемой в области ИИ. Точность кросс-языковых тестов зависит от качества моделей и методов предобработки данных. Однако многие текущие подходы требуют значительных ресурсов, включая подготовку новых данных, многократную тренировку и дорогостоящее оптимизационное тренинг. Эти ограничения становятся главными препятствиями для развития моделей с широким спектром языковых приложений. Мотивированные этим, авторы предлагают новый подход, нацеленный на оптимизацию кросс-языковой передачи с минимальными затратами. ## Метод Предложенный подход, BridgeX-ICL, основывается на идее обнаружения "перекрестных" нейронов, которые способствуют передаче знаний между языками. Метод использует данные из билингвальных словарей MUSE для построения пробного набора данных, включающего "языковые частично активные нейроны". Для определения этих нейронов, авторы применяют метрику HSIC (Hilbert-Schmidt Independence Criterion), которая позволяет измерить значимость отдельных языковых моделей. Оптимальная стратегия выбора базы для модели X-ICL определяется на основе выявленных "перекрестных" нейронов. Эта формула позволяет улучшить передачу знаний на низкоресурсных языках без необходимости дорогостоящих тренировочных процессов. ## Результаты Запуски экспериментов проводились на 2 кросс-языковых задачах (в том числе задачи трансляции и классификации) и 15 параметров языковых пар из 7 различных семей языков. Эти семьи включали как высокоресурсные, так и низкоресурсные языки. Результаты показывают, что BridgeX-ICL не только повышает точность кросс-языковых тестов, но и демонстрирует более эффективную интеграцию знаний между языками. Эти результаты подтверждают значимость использования "перекрестных" нейронов в процессе передачи знаний кросс-языкового перевода. ## Значимость Предложенный подход может использоваться в различных сферах, таких как машинный перевод, распознавание речи и генерация текста на низкоресурсных языках. Он предоставляет более эффективный путь для улучшения кросс-языковых моделей без требования дорогостоящих ресурсов. Это может иметь огромное значение для развития ИИ в тех регионах, где языки низкого ресурса имеют большую значимость. ## Выводы BridgeX-ICL доказывает, что обнаружение "перекрестных" нейронов может значительно улучшить кросс-языковую передачу на низкоресурсных языках. Он представляет собой простой, но эффективный подход к реш

Annotation:

The current Large Language Models (LLMs) face significant challenges in improving performance on low-resource languages and urgently need data-efficient methods without costly fine-tuning. From the perspective of language-bridge, we propose BridgeX-ICL, a simple yet effective method to improve zero-shot Cross-lingual In-Context Learning (X-ICL) for low-resource languages. Unlike existing works focusing on language-specific neurons, BridgeX-ICL explores whether sharing neurons can improve cross-l...

ID: 2508.17078v1 cs.CL, cs.AI

arXiv PDF

📄 Token Homogenization under Positional Bias

2025-08-27

Авторы:

Viacheslav Yusupov, Danil Maksimov, Ameliia Alaeva, Tatiana Zaitceva, Antipina Anna, Anna Vasileva, Chenlin Liu, Rayuth Chheng, Danil Sazanakov, Andrey Chetvergov, Alina Ermilova, Egor Shvetsov

## Контекст Трансформеры, являющиеся основополагающими для современных языковых моделей, обрабатывают слова (токены) с привлечением их контекста. Несмотря на эффективность этих моделей, они могут испытывать проблемы с определением контекстной семантики, в частности, при углублении обработки в нижние слои. Это происходит, в основном, из-за искажения различий между токенами в позиционной системе координат. В определенных случаях модели могут признать почти во всех слоях токены как однородные, чтобы избежать потерь в контекстной информации. Этот эффект, называемый **homogenization**, может привести к снижению точности в задачах, требующих точного понимания контекста. **Проблема** заключается в том, что нет полного понимания того, насколько глубоко вложенные слои модели могут углубить этот эффект, а также о том, как это влияет на обучение и поведение моделей. **Мотивация** заключается в изучении того, как позиционный биаз способствует этому эффекту и как это может быть использовано для оптимизации моделей. ## Метод Мы применяем подход, основанный на анализе схожести между токенами в каждом слое модели. Для этого используется метрика **cosine similarity** для измерения отклонения токенов от однородности. Мы определяем позиционный биаз с помощью **positional token embeddings**, которые добавляются в исходные токены в модели. Далее, мы проводим контролируемные эксперименты, повторно обучая модели с убиранием позиционных признаков и изучая разное поведение токенов в зависимости от их позиции в потоке входных данных. ## Результаты Мы проводили эксперименты на двух больших языковых моделях с различными размерами слоев. Наши результаты показали, что: 1. **Homogenization** существует и проявляется во всех слоях модели, но значительнее в нижних слоях. 2. **Positional bias** сильно усиливает этот эффект, особенно в случае токенов, расположенных в крайних позициях (начало и конец потока). 3. Удаление позиционных признаков приводит к уменьшению этого эффекта, но приводит к ухудшению эффективности модели в задачах, требующих контекстной информации. ## Значимость Наши результаты имеют практическую значимость для разработки более точных языковых моделей. Известие позиционной оптимизации может привести к улучшению работы моделей в задачах, где предсказание контекста требуется с высокой точностью. Эти результаты также могут быть использованы в оптимизации архитектур трансформеров, чтобы повысить их общую производительность. ## Выводы Мы показали, что **homogenization** в трансформерах является реальным проблемом, которое сильно влияет на работу моделей в задачах, требующих точного понимани

Annotation:

This paper investigates token homogenization - the convergence of token representations toward uniformity across transformer layers and its relationship to positional bias in large language models. We empirically examine whether homogenization occurs and how positional bias amplifies this effect. Through layer-wise similarity analysis and controlled experiments, we demonstrate that tokens systematically lose distinctiveness during processing, particularly when biased toward extremal positions. O...

ID: 2508.17126v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
172
173
174
175
176
205
206

Показано 1731 - 1740 из 2054 записей