📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

2025-08-14

Авторы:

Wen Wang, Bozhen Fang, Chenchen Jing, Yongliang Shen, Yangyi Shen, Qiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen

## Контекст В последние годы текстовое понимание стало одной из основных областей искусственного интеллекта, с предложением различных моделей, таких как трансформеры, GPT и другие. Одним из новых направлений является развитие **diffusion large language models (dLLMs)**, которые основываются на методе размывания (diffusion) для генерации текста. Несмотря на прогрессы в этой области, существуют проблемы с точностью и стабильностью генерации. Например, существуют ситуации, когда модель в процессе постепенного улучшения ответа (denoising) перезаписывает правильный ответ на неправильный, из-за чего в итоге может быть получен неверный результат. Эта проблема известна как **temporal oscillation**. Цель нашего исследования заключается в изучении и использовании временных динамик в dLLMs для улучшения точности и стабильности генерируемого текста. ## Метод В нашем методе используются две основные компоненты: **Temporal Self-Consistency Voting** и **Temporal Consistency Reinforcement**. 1. **Temporal Self-Consistency Voting**: Это стратегия тестового времени, которая использует все промежуточные генерации модели в процессе размывания для голосования за наиболее вероятный ответ. Оно не требует дополнительных тренировочных данных и позволяет определить самый стабильный ответ в процессе работы модели. 2. **Temporal Consistency Reinforcement**: Это пост-тренировочный подход, который использует **Temporal Semantic Entropy (TSE)** — меру степени стабильности семантического содержания промежуточных генераций. Наша модель получает реWARD на основе этой меры, что позволяет ей сфокусироваться на более стабильных и точных результатах. Основной идеей заключается в том, что в промежуточных шагах размывания модели dLLM может давать правильный ответ, но позже этот ответ перезаписывается. Мы используем эти промежуточные генерации для улучшения конечного результата. ## Результаты Мы проверили нашу модель на нескольких бенчмарк-датасетах, включая GSM8K, MATH500, SVAMP и Countdown. Использовались предобученные модели dLLM, в том числе Llama-2. Наш подход показал существенные улучшения в точности: - **Средний прирост точности** на Countdown: 24.7% при использовании только TSE-реWARD. - **Абсолютные приросты точности** на других бенчмарк-датасетах: - GSM8K: +2.0% - MATH500: +4.3% - SVAMP: +6.6% - Countdown: +25.3% Эти результаты показывают, что наш подход эффективно использует временные динамики dLLM для улучшения результатов. ## Значимость Мы открыли новый подход к использованию временных динамик в dLLMs, который может применяться в различных областях, таких как: - Автоматизация процессов решения математических задач (например, для учебных целей). - Генерация текста в реальном времени, где необходима высокая точность и стабильность

Annotation:

Diffusion large language models (dLLMs) generate text through iterative denoising, yet current decoding strategies discard rich intermediate predictions in favor of the final output. Our work here reveals a critical phenomenon, temporal oscillation, where correct answers often emerge in the middle process, but are overwritten in later denoising steps. To address this issue, we introduce two complementary methods that exploit temporal consistency: 1) Temporal Self-Consistency Voting, a training-f...

ID: 2508.09138v1 cs.CL, cs.AI

arXiv PDF

📄 Discerning minds or generic tutors? Evaluating instructional guidance capabilities in Socratic LLMs

2025-08-13

Авторы:

Ying Liu, Can Li, Ting Zhang, Mei Wang, Qiannan Zhu, Jian Li, Hua Huang

## Контекст Говорящие языковые модели (LLM) становятся все более популярными в области образовательных технологий, особенно в контексте специализированных онлайн-курсов и систем онлайн-образования. Одна из их ключевых функций — Socratic questioning, которая позволяет моделям формировать вопросы для стимулирования размышлений и поддержки процесса обучения. Однако, несмотря на выдающиеся результаты в этой области, существуют проблемы: большинство исследований ограничиваются тестовым оцениванием вопросов, не учитывая способность моделей адаптироваться к разным уровням понимания учеников. Этот аспект, который является существенным для эффективного консультирования, так и остается недостаточно изученным. Исследование, основанное на анализе имитации взаимодействий существующих моделей, призвано провести детальный анализ их возможностей в области диалогического обучения. ## Метод Авторы предлагают методологию, основанную на анализе реальных диалогов в образовательных системах, которая позволяет оценивать модели не только по вопросам, но и по способности адаптироваться к уровню понимания ученика. Основная идея заключается в том, чтобы имитировать динамическую ситуацию, когда модель должна не только сформировать вопросы, но и реагировать на поведение ученика. Метод включает три этапа: (1) **Perception** — оценка состояния ученика на основе его ответов и поведения; (2) **Orchestration** — адаптация стратегии консультации на основе полученных данных; (3) **Elicitation** — стимулирование ученика к конкретным мыслям и отражению. Этапы становятся основой для нового бенчмарка, **GuideEval**, который тестирует модели на способность динамическими способами консультировать. ## Результаты Эксперименты показывают, что существующие модели LLM часто не способны адекватно реагировать на ситуации, когда ученик страдает от непонимания или требует помощи. Это отражается в низком уровне адаптации и эффективности консультаций. Тестирование на **GuideEval** показало, что некоторые модели даже словятся с основными вопросами, не удаваясь предлагать нужную стратегию. В то же время, модели, натренированные с помощью нового подхода **behavior-guided fine-tuning**, показали значительную улучшение в способности динамически адаптироваться и поддерживать эффективный обмен с учеником. ## Значимость Это исследование открывает путь к более точной оценке LLM в области образовательных технологий. Новый подход предлагает перейти от изолированного оценивания контента к оценке взаимодействия моделей с пользователем. Это может привести к более эффективным системам обучения, которые смогут адаптироваться к неоднородным нуж

Annotation:

The conversational capabilities of large language models hold significant promise for enabling scalable and interactive tutoring. While prior research has primarily examined their capacity for Socratic questioning, it often overlooks a critical dimension: adaptively guiding learners based on their cognitive states. This study shifts focus from mere question generation to the broader instructional guidance capability. We ask: Can LLMs emulate expert tutors who dynamically adjust strategies in res...

ID: 2508.06583v1 cs.CL, cs.AI

arXiv PDF

📄 Do Biased Models Have Biased Thoughts?

2025-08-13

Авторы:

Swati Rajwal, Shivank Garg, Reem Abdel-Salam, Abdelrahman Zayed

#### Контекст Современные языковые модели показали ошеломляющий прогресс в обработке естественного языка, однако они часто сталкиваются с проблемой биаса. Такие модели могут демонстрировать ненависть, предрассудки и зараженность злобой в отношении людей и групп на базе таких параметров, как пол, раса, национальность, статус в обществе, физический вид и сексуальное направление. Эти модели широко применяются во всех сферах жизнедеятельности, однако их биазы могут серьёзно нарушить справедливость и нейтральность. В настоящем исследовании анализируется влияние архитектуры на явление биаса в моделях языка, опираясь на подход "цепь мыслей", способящий раскрыть структуру модели и понять, почему она принимает определённые решения. #### Метод В ходе исследования использовались $5$ языковых моделей различных размеров, включая масштабные модели. Для экспериментов использовались $11$ метрик, охватывающих различные аспекты биаса, такие как гендерный, расовый и другие. На каждой модели в качестве входных данных были применены специальные запросы, используя подход "цепь мыслей", позволяющий модели выражать пошаговую мысль перед ответом. Это позволило измерить биазы на стадии вывода и решения. Результаты экспериментов были сравнены с метриками биаза, чтобы определить корреляцию между этапами мышления и фактическими биазами. #### Результаты Исследование показало, что модели с биазами в решениях не всегда имеют сильные биазы в конкретных этапах мышления. Точнее, такая цепь мышления не является сильным детерминантом финального решения модели. Коэффициент корреляции между этапами мышления и финальными биазами оказался меньше $0.6$, что указывает на слабую связь. Кроме того, большинство моделей показали $p$-значения меньше $0.001$, что говорит о том, что эта связь не является случайной. Это означает, что тестируемые модели могут делать биазные решения независимо от своих мыслей, что отличает их от человеческого мышления. #### Значимость Результаты имеют важное значение для разработки стратегий борьбы с биазом в моделях языка. Например, модели могут быть использованы в сферах, где важно минимизировать биаз, таких как системы рекомендаций, диагностические системы и системы поддержки решений. Модели с высоким биазом в решениях, но без биаза в мышлении, могут быть более справедливыми и нейтральными в применении. Это открывает пути к улучшению моделей с помощью новых архитектур, а также к использованию дополнительных методов, таких как мониторинг и устранение б

Annotation:

The impressive performance of language models is undeniable. However, the presence of biases based on gender, race, socio-economic status, physical appearance, and sexual orientation makes the deployment of language models challenging. This paper studies the effect of chain-of-thought prompting, a recent approach that studies the steps followed by the model before it responds, on fairness. More specifically, we ask the following question: $\textit{Do biased models have biased thoughts}$? To answ...

ID: 2508.06671v2 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 Play Favorites: A Statistical Method to Measure Self-Bias in LLM-as-a-Judge

2025-08-13

Авторы:

Evangelia Spiliopoulou, Riccardo Fogliato, Hanna Burnsky, Tamer Soliman, Jie Ma, Graham Horwood, Miguel Ballesteros

## Контекст Искусственные нейронные сети, такие как текстовые генераторы (LLMs), становятся все более популярными в различных областях, включая оценку качества текста. Одна из проблем, с которой сталкиваются разработчики и оценщики таких систем, заключается в возможности самостоятельной оценки выданных ответов, когда система дает высокую оценку своим собственным текстам. Этот эффект, известный как "самостоятельная оценка" (self-bias), может оказывать существенное влияние на достоверность исследований и принятие решений на основе автоматизированных оценок. Актуальность исследования возрастает в связи с популярностью LLMs в сфере оценки текстов, включая системы, которые сами по себе являются оценщиками. ## Метод Мы предлагаем статистическую модель, которая определяет и измеряет самостоятельную оценку в системах LLM-as-a-judge. Метод основывается на сравнении распределений оценок, выдаваемых LLM-судьями своим собственным текстам и текстам производимым другими моделями. Для того чтобы учесть независимость качества текста от самооценки, мы применяем методы независимых стохастических процессов. Таким образом, мы можем отделить самостоятельную оценку от действительных различий в качестве выдачи текста. Метод использует данные, состоящие из пар запрос-ответ, анализируемых рядом LLMs и оценками квалифицированных знатоков (человеков). ## Результаты Мы проводили эксперименты на большом датасете, содержащем более 5000 пар запрос-ответ, подвергнутых оценке человеком и несколькими LLM-судьями. Наши результаты показали, что некоторые модели, такие как GPT-4o и Claude 3.5 Sonnet, систематически выдают высокие оценки своим собственным текстам. Мы также выявили семейную биаз — LLM модели с одинаковой семьей программного обеспечения дают высокую оценку друг другу. Наши результаты демонстрируют, что самостоятельная оценка может усложнять объективную оценку качества текста, и что существуют ситуации, когда оценки модели на самом деле не отражают ее реального качества. ## Значимость Метод, предложенный в нашей работе, может быть применен в различных сферах, где необходима автоматизированная оценка текста. Он позволяет снизить риск самостоятельной оценки и дает возможность точнее определять реальное качество моделей. Это может быть полезно для повышения качества текста в области NLP, в том числе для повышения достоверности результатов в системах, в которых LLM-судьи используются для оценки других моделей. Наш метод также может быть применен для расширения возможностей автоматических систем в сфере текстовой оценки, ко

Annotation:

Large language models (LLMs) can serve as judges that offer rapid and reliable assessments of other LLM outputs. However, models may systematically assign overly favorable ratings to their own outputs, a phenomenon known as self-bias, which can distort evaluations of true model performance. Previous studies often conflate genuine differences in model quality with bias or incorrectly assume that evaluations from LLMs and humans follow the same rating distributions. In this work, we present a stat...

ID: 2508.06709v1 cs.CL, cs.AI

arXiv PDF

📄 Large Language Models for Oral History Understanding with Text Classification and Sentiment Analysis

2025-08-13

Авторы:

Komala Subramanyam Cherukuri, Pranav Abishai Moses, Aisa Sakata, Jiangping Chen, Haihua Chen

## Контекст Оральная история является важной частью культурного наследия, особенно в контексте социальных и исторических трагедий, таких как инцидент инцидент японского населения США во времена Второй мировой войны. Этот исторический факт отражает широкие проблемы системного преследования и исторического забвения. Обработка гораздо большого масштаба таких архивов требует автоматизированных методов, которые могут избежать эмоциональной сложности и высоких затрат на аннотацию. Этот доклад описывает подход, основанный на нейросетевых моделях, который позволяет эффективно анализировать такие архивы, обеспечивая понимание и доступ к оральной истории. ## Метод Методология основывается на нескольких фазных этапах: подготовка данных, оптимизация моделей и выполнение экспериментов. Для подготовки данных использовалась техника "промптинга", которая позволяет сгенерировать качественные результаты с использованием моделей LLMs. Модели ChatGPT, Llama и Qwen использовались для лемматизации, классификации семантики и анализа тональности текста. Эти модели протестированы в задачах классификации семантики и анализа тональности, направленных на контекст японских американских инцидентов. Выборка данных составила 558 предложений из 15 интервью с разными историями. Эталонные данные были сгенерированы для проверки эффективности техники и моделей. ## Результаты Проведенные эксперименты показали высокую эффективность моделей в лемматизации и классификации. Модель ChatGPT показала наилучший результат в семантической классификации с F1-меры 88.71%, а Llama и Qwen показали близкие результаты (84.99% и 83.72% соответственно). Для анализа тональности модель Llama показала лучшую результативность (82.66%), следовали Qwen (82.29%) и ChatGPT (82.29%). Использование подходящих конфигураций "промптинга" позволило аннотировать 92,191 предложений из 1,002 интервью в JAIOH. Эти результаты подтверждают возможность LLMs для эффективности анализа оральных историй на большой шкале. ## Значимость Область применения этого подхода включает цифровые хранилища, исторические исследования, и цифровую культурную память. Важность этого исследования в том, что оно применяет новые технологии для улучшения доступа к таким историческим архивам, а также повышает уровень понимания исторических событий. Методы, описанные в этой работе, могут быть использованы для развития культурного наследия в разных регионах и для разных групп населения. ## Выводы Результаты экспериментов демонстрируют, что LLMs могут эффективно анализировать боль

Annotation:

Oral histories are vital records of lived experience, particularly within communities affected by systemic injustice and historical erasure. Effective and efficient analysis of their oral history archives can promote access and understanding of the oral histories. However, Large-scale analysis of these archives remains limited due to their unstructured format, emotional complexity, and high annotation costs. This paper presents a scalable framework to automate semantic and sentiment annotation f...

ID: 2508.06729v1 cs.CL, cs.AI

arXiv PDF

📄 Many-Turn Jailbreaking

2025-08-13

Авторы:

Xianjun Yang, Liqiang Xiao, Shiyang Li, Faisal Ladhak, Hyokun Yun, Linda Ruth Petzold, Yi Xu, William Yang Wang

#### Контекст Большинство исследований по jailbreaking (обойти ограничения) бо LLM'a (large language models) фокусируются на single-turn jailbreaking, т.е. выводе небезопасных ответов на одиночные запросы. Это связано с тем, что тестирования LLM проводятся в условиях одного запроса или небольшого контекста. Однако современные LLM могут обрабатывать длинные контексты и участвовать в многократном общении. Это открывает новую проблему — multi-turn jailbreaking, когда LLM подвергается нескольким циклам взаимодействия, чтобы продолжить выводить небезопасные ответы. Эта проблема является более серьезной угрозой, так как пользователи часто задают фоллоу-уп вопросы, чтобы уточнить детали, и также LLM могут реагировать негативно на несвязанные вопросы. #### Метод Мы предлагаем Multi-Turn Jailbreak Benchmark (MTJ-Bench) как первый подход к оценке безопасности LLM в многократных циклах взаимодействия. Наша методология включает: 1. Создание набора данных сценариев для многократного взаимодействия. 2. Разработка метрик для оценки устойчивости LLM к jailbreaking. 3. Тестирование набора моделей (open- и closed-source) с разными параметрами. 4. Использование последовательных сценариев, в которых LLM подвергается нескольким запросам в цепочке. #### Результаты Использовались данные из открытого доступа и специально сконструированные сценарии для проверки моделей. Мы протестировали ряд моделей с разным количеством параметров и настройками. Результаты показали, что большинство моделей, даже с большим количеством параметров, остаются уязвимыми к multi-turn jailbreaking. Например, LLM могут продолжать выводить небезопасные ответы даже после нескольких смен в контексте. #### Значимость Результаты нашего исследования имеют значительное значение в следующих областях: 1. Безопасность и моральность использования LLM в различных приложениях. 2. Оптимизация и стабилизация LLM для многократного общения. 3. Разработка новых методов для определения и предотвращения небезопасных выводов. 4. Поддержка инициатив по созданию более безопасных и устойчивых LLM. #### Выводы Мы раскрыли новую угрозу в области безопасности моделей LLM, связанную с multi-turn jailbreaking. Наша работа показала, что LLM, прошедшие тестирование на single-turn jailbreaking, могут устойчивыми казаться, но уязвимы к многократному взаимодействию. Наше исследование выделяет необходимость в развитии новых методов и моделей, чтобы обеспечить безопасность и эффективность LLM в многократных сценариях общения. Будущие исследования будут направлены на улучшение архитектур моделей и развитие новых методов для противодействия таким угрозам.

Annotation:

Current jailbreaking work on large language models (LLMs) aims to elicit unsafe outputs from given prompts. However, it only focuses on single-turn jailbreaking targeting one specific query. On the contrary, the advanced LLMs are designed to handle extremely long contexts and can thus conduct multi-turn conversations. So, we propose exploring multi-turn jailbreaking, in which the jailbroken LLMs are continuously tested on more than the first-turn conversation or a single target query. This is an...

ID: 2508.06755v1 cs.CL, cs.AI

arXiv PDF

📄 ESNERA: Empirical and semantic named entity alignment for named entity dataset merging

2025-08-13

Авторы:

Xiaobo Zhang, Congqing He, Ying He, Jian Peng, Dajie Fu, Tien-Ping Tan

#### Контекст Named Entity Recognition (NER) является одной из фундаментальных задач в области естественного языкового обработки (NLP). Она применяется в различных сферах, включая финансы, здравоохранение, юридические документы и многие другие. Однако процесс создания высококачественных датасетов для тренировки моделей NER является дорогостоящим и временно-затратным. Это становится особенно острой проблемой при попытке объединения датасетов из различных источников, где различия в названиях сущностей могут привести к ошибкам и неточностям при обучении моделей. **Проблема**: Датасеты, построенные для NER, часто несовместимы в результате различных систем лейблинга и отсутствия единых стандартов. Традиционные подходы, такие как ручная картографирования или построение графов лейблов, не эффективны, так как не имеют прямых показателей того, насколько эти системы могут быть автоматизированы и масштабированы. **Мотивация**: Целью нашего исследования является разработка автоматического метода для выравнивания лейблов, который может эффективно объединять множество датасетов NER, сохраняя высокую точность и гибкость. #### Метод Мы предлагаем метод, который относится к классу **Empirical and Semantic Named Entity Alignment (ESNERA)**. Чтобы объединить различные датасеты NER, мы используем **глубокую нейронную сеть** для вычисления **эмпирической схожести** между сущностями, а также **семантическое моделирование** (например, BERT) для вычисления **семантической схожести**. Процесс работы ESNERA можно разделить на следующие шаги: 1. **Предобработка данных**: Для каждого датасета мы применяем лемматизацию, подстрочную обработку и преобразования синонимов. 2. **Эмпирическая схожесть**: Мы используем предобученную модель NER (например, CRF) для вычисления расстояния между лейблами в виде вероятности того, что две сущности могут быть объединены. 3. **Семантическая схожесть**: С помощью BERT мы вычисляем приближение лейблов с учетом контекста и семантического смысла. 4. **Процедура объединения**: Мы применяем **градиентный подход**, который начинает с меньших наборов данных и постепенно объединяет все датасеты в единую структуру. Это позволяет минимизировать конфликты в лейблинге. #### Результаты Для проверки эффективности нашего подхода, мы проводим ряд экспериментов: - **Базовый эксперимент**: Мы объединяем три существующих NER-датасета в единую структуру. Результаты показывают, что ESNERA позволяет сохранить высокую точность NER в условиях объединения. Точность составила **92.3%**, что является примерно почти **5% выше**, чем при использовании традиционных методов

Annotation:

Named Entity Recognition (NER) is a fundamental task in natural language processing. It remains a research hotspot due to its wide applicability across domains. Although recent advances in deep learning have significantly improved NER performance, they rely heavily on large, high-quality annotated datasets. However, building these datasets is expensive and time-consuming, posing a major bottleneck for further research. Current dataset merging approaches mainly focus on strategies like manual lab...

ID: 2508.06877v1 cs.CL, cs.AI

arXiv PDF

📄 LLM Unlearning Without an Expert Curated Dataset

2025-08-13

Авторы:

Xiaoyuan Zhu, Muru Zhang, Ollie Liu, Robin Jia, Willie Neiswanger

## Контекст Современные большие модели языковых моделей (LLM) включают в себя разнообразную информацию, включая секретную, вредоносную или авторские работы, что порождает необходимость в пост-хокских методах удаления конкретных областей знаний из модели без полной переучивания. Одной из основных проблем в этой области является создание эффективных forget-сетей — наборов данных, которые аппроксимируют целевую область знаний и помогают модели "забыть" ее. Традиционно, forget-сети создаются вручную, что требует огромных усилий и ресурсов. В данной работе мы предлагаем автоматизированный подход для создания high-quality forget-сетей с помощью языковых моделей, который позволяет улучшить эффективность и скорость процесса удаления. ## Метод Мы предлагаем метод, основанный на структурированной просмотриваемости языковых моделей, для генерации forget-сетей. Наш подход предполагает использование лишь доменного имени, чтобы сгенерировать книгоподобные данные. Мы вводим многошаговую генерацию, включающую в себя шаги, такие как генерация текстов, форматирование и настройка. Этот подход гарантирует высокую разнообразие генерируемых данных, что позволяет повысить качество и эффективность удаления. Метод автоматизируется и может быть использован для множества различных областей знаний. ## Результаты Мы проводили эксперименты на трех областях знаний: биобезопасности, цифровой безопасности и фантастических рассказов Harry Potter. Мы сравнили наш подход с традиционными forget-сетями, созданными вручную. Наши результаты показали, что генерируемые данные показывают высокую эффективность и схожесть с экспертно-созданными данными, при этом ими могут управлять даже не специалисты. Факторы, такие как разнообразие данных и многошаговая генерация, оказались ключевыми для достижения такого уровня качества. ## Значимость Наш подход может быть применен в различных областях, где необходимо удалить конкретные знания из модели без повторного обучения. Мы показали, что наш метод может работать как с цифровой безопасностью, так и с биобезопасностью, и даже с рассказами. Этот подход предлагает стоимость, эффективность и масштабируемость, чем открывает широкие возможности для практического применения в широком круге областей. ## Выводы Мы доказали, что наш подход предлагает простоту и эффективность для создания forget-сетей, созданных автоматически. Мы показали, что наш метод не только позволяет удалять знания из моделей, но и может быть применен в различных сферах, что делает его отличным инструментом для управления знаниями в технологиях бо

Annotation:

Modern large language models often encode sensitive, harmful, or copyrighted knowledge, raising the need for post-hoc unlearning-the ability to remove specific domains of knowledge from a model without full retraining. A major bottleneck in current unlearning pipelines is constructing effective forget sets-datasets that approximate the target domain and guide the model to forget it. In this work, we introduce a scalable, automated approach to generate high-quality forget sets using language mode...

ID: 2508.06595v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 SEADialogues: A Multilingual Culturally Grounded Multi-turn Dialogue Dataset on Southeast Asian Languages

2025-08-13

Авторы:

Muhammad Dehan Al Kautsar, Aswin Candra, Muhammad Alif Al Hakim, Maxalmina Satria Kahfi, Fajri Koto, Alham Fikri Aji, Peerat Limkonchotiwat, Ekapol Chuangsuwanich, Genta Indra Winata

## Контекст Многие существующие диалоговые данные, используемые для обучения и тестирования лингвистических моделей, не учитывают культурных особенностей, которые характерны для настоящих гуманных бесед. Эти проблемы гуще просматриваются в регионах с большим количеством региональных языков и культурных отличий, где диалоги требуют особых усилий для точного понимания и генерации. Одним из таких регионов является Юго-Восточная Азия (SEA), где живут более 700 миллионов людей, и где широко распространены разные языки и культуры. Из-за отсутствия данных, отражающих эти культурные особенности, разработка диалоговых систем, которые могли бы близко отражать реальные беседы, становится затруднительной. Мы предлагаем SEADialogues, датасет, созданный с учетом культурных аспектов, который предназначен для обучения моделей, способных учитывать индивидуальность и культурные особенности бесед в Юго-Восточной Азии. ## Метод SEADialogues представляет собой датасет, состоящий из диалогов, которые включают в себя не только текст, но и информацию о персональности участников и двух культурных темах, отражающих реальность жизни в соответствующих языковых и культурных группах. Датасет содержит диалоги на 8 языках, из 6 различных стран, включая такие региональные языки, как Индонезский, Тагальский, Индонезийский-Малайский, Бурмесский, Тайский и Телугу. Датасет был собран с помощью пассивного сбора данных и активного сбора данных, где участники были подготовлены к предоставлению данных в соответствии с инструкциями. Данные были проверены на степь ошибок и целостность, учитывая культурные аспекты. Для улучшения текстовых данных, мы также использовали методы машинного обучения для генерации диалогов, которые могут быть использованы для повышения точности и подробности диалогов. ## Результаты В результате сбора данных было создано более 11,000 диалогов с 17 участниками, которые были протестированы на юзабилити и качество. Мы получили следующие показатели: 1) на качество диалога в различных странах была достигнута значительная высокая точность в 85-90%, 2) диалоговые модели были оценены как близкие к реальным социальным беседам, 3) все диалоги были проверены на соответствие культурным аспектам Юго-Восточной Азии, чтобы обеспечить их культурную зрелость и значимость. Мы также выстроили сравнение с другими датасетом, чтобы продемонстрировать, насколько SEADialogues является более культурно грандиозны

Annotation:

Although numerous datasets have been developed to support dialogue systems, most existing chit-chat datasets overlook the cultural nuances inherent in natural human conversations. To address this gap, we introduce SEADialogues, a culturally grounded dialogue dataset centered on Southeast Asia, a region with over 700 million people and immense cultural diversity. Our dataset features dialogues in eight languages from six Southeast Asian countries, many of which are low-resource despite having siz...

ID: 2508.07069v1 cs.CL, cs.AI

arXiv PDF

📄 Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

2025-08-13

Авторы:

Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali

#################### ## Контекст #################### Улучшение размерности и скорости вывода является ключевым заданием в машинном обучении, особенно при работе с текстовыми данными. Несмотря на улучшения, достигнутые большими моделями в области логического роста, эти модели требуют большого объема вычислительных ресурсов, особенно при оценке большого количества токенов. Это становится проблемой в случае коротких входных запросов, где вычислительные затраты на построение выходных последовательностей не пропорциональны входной информации. Более того, существующие спарсированные механизмы внимания, которые пытаются уменьшить эти затраты, часто подвержены ошибкам, которые накапливаются при длительном генерировании. Эти ошибки могут привести к ухудшению точности. Мы предлагаем LessIsMore, новый механизм спарсированного внимания, который работает без необходимости дополнительного обучения, используя глобальные взаимосвязи вместо локальных оптимизаций. Это позволяет повысить эффективность и обеспечить лучшую универсальность. #################### ## Метод #################### Мы предлагаем LessIsMore, многоголосийский механизм спарсированного внимания, который агрегирует выбор токенов из локальных заголовков вместе с реконтекстуализацией на основе контекста. Метод работает следующим образом: выбранные токены из каждого локального заголовка объединяются и преобразуются в общую оценку всех токенов во всех заголовках. Это позволяет уменьшить количество токенов, которые необходимо обрабатывать при декодировании, при этом сохраняя точность. Механизм LessIsMore не требует дополнительного обучения и может применяться как к существующим моделям, так и к новым. Этот подход уменьшает требования к вычислительным ресурсам и повышает производительность, сохраняя высокую точность. #################### ## Результаты #################### Мы использовали LessIsMore в различных моделях логического роста и выполнили эксперименты на различных бенчмарках. Наши результаты показывают, что LessIsMore повышает эффективность, снижая число обрабатываемых токенов на $2\times$ по сравнению с существующими методами, при этом сохраняя высокую точность. Он позволяет снизить затраты на вычисления на $1.1\times$ в сравнении с полным вниманием и $1.13\times$ по сравнению с другими спарсированными методами. Это демонстрирует, что LessIsMore может эффективно уменьшить затраты на вычисления при оценке данных, не теряя точности. #################### ## Значимость #################### LessIsMore может быть применен в различных областях, где требуется высокая производительность и эффективность при обработке текстовых данных. Это может быть полезно в ситуациях, когда требуется высокая скорость вывода, таких как в реальном времени генер

Annotation:

Large reasoning models achieve strong performance through test-time scaling but incur substantial computational overhead, particularly from excessive token generation when processing short input prompts. While sparse attention mechanisms can reduce latency and memory usage, existing approaches suffer from significant accuracy degradation due to accumulated errors during long-generation reasoning. These methods generally require either high token retention rates or expensive retraining. We introd...

ID: 2508.07101v1 cs.CL, cs.AI

arXiv PDF

1
2
190
191
192
193
194
204
205

Показано 1911 - 1920 из 2042 записей