📚 Саммари научных статей из arXiv

Найдено 370 результатов по запросу 'cs.CL, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GENUINE: Graph Enhanced Multi-level Uncertainty Estimation for Large Language Models

2025-09-11

Авторы:

Tuo Wang, Adithya Kulkarni, Tyler Cody, Peter A. Beling, Yujun Yan, Dawei Zhou

## Контекст Область исследования, сосредоточенная на необходимости точной оценки неопределенности в работе больших языковых моделей (LLMs), особенно в высокорисковых сферах применения, таких как медицина, финансы и юриспруденция. Существующие методы недостаточно учитывают семантические зависимости, а детальные данные по формированию текста часто остаются невзятыми в расчетах. Это приводит к неточности оценки достоверности, чтобы сделать результаты LLM более надежными. GENUINE предлагает структурно-наблюдательную модель для улучшения оценки неопределенности, используя синтаксические зависимости и относительную группировку в графах. Это может дать новый уровень точности и потенциально внести вклад в понимание высококачественных выводов. ## Метод GENUINE (Graph ENhanced mUlti-level uncertaINty Estimation) представляет собой подход, основанный на графах и глубинно настраиваемый. Он использует деревья синтаксических зависимостей для построения графа текста, где узлы представляют слова, а связи — синтаксические зависимости. Эта структура позволяет построить графическую модель, которая активно учитывает не только токенами, но и семантическими отношениями между ними. Метод также включает в себя упрощенный графический пуллинг, чтобы сократить размерность входных данных. Его цель — повысить точность оценки неопределенности, учитывая зависимости в генерируемом тексте. ## Результаты Чтобы проверить эффективность GENUINE, проведены ряд экспериментов на различных задачах естественного языкового процессинга. Модель была сравнена с существующими методами оценки неопределенности, такими как semantic entropy. Наборы данных включили обученные модели, такие как BERT и GPT. Главные результаты показали, что GENUINE демонстрирует до 29% более высокого AUROC (Area Under the Receiver Operating Characteristic Curve) и сокращает ошибки калибровки на 15% в сравнении с текущими лучшими решениями. Эти результаты подтверждают, что GENUINE повышает точность и надежность оценок неопределенности в тексте. ## Значимость GENUINE может быть использована в различных критически важных приложениях, таких как диагностическая помощь, финансовый анализ и проверка документов. Избавление от ошибок калибровки и повышение точности оценки неопределенности может сделать решения, принимаемые на основе LLM, более надежными. Помимо этого, GENUINE может помочь в адаптации моделей для специализированных областей, где необходимо учитывать сложные структуры и семантические зависимости. Эти достижения демонстрируют перспективу графовых моделей для улучшения безопасности и надежности моделей языка. ## Выводы GENUINE представляет собой прорыв в области оценки неопре

Annotation:

Uncertainty estimation is essential for enhancing the reliability of Large Language Models (LLMs), particularly in high-stakes applications. Existing methods often overlook semantic dependencies, relying on token-level probability measures that fail to capture structural relationships within the generated text. We propose GENUINE: Graph ENhanced mUlti-level uncertaINty Estimation for Large Language Models, a structure-aware framework that leverages dependency parse trees and hierarchical graph p...

ID: 2509.07925v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Direct-Scoring NLG Evaluators Can Use Pairwise Comparisons Too

2025-09-10

Авторы:

Logan Lawrence, Ashton Williamson, Alexander Shelton

## Контекст В последние годы роль глубоко обученных языковых моделей в анализе и генерации текстов существенно выросла. Эти модели теперь применяются для оценки свободного текста, включая сводки, диалоги и генерацию рассказов. Однако оценка качества такого текста через методики, основывающиеся на сравнениях с реальными данными, часто сталкивается с проблемами, такими как недостаточная точность в абсолютной оценке или трудности в использовании для задач, требующих определения порогов качества. Существующие методы, основанные на сравнении пар, хотя и эффективны в выявлении относительных отличий, часто не могут предоставить абсолютные оценки. Это решаетейми подходом, который использует синтетические сводки для формирования парного рейтинга текстов. ## Метод Метод, предложенный в работе, основывается на генерации синтетических сводных текстов, которые позволяют формировать парные сравнения между машинно-генерированным и гуманно-созданным текстом. Эти синтетические тексты генерируются специальноми для сравнений, чтобы добиться более точной оценки качества. Архитектура метода включает в себя определение множества характеристик, которые используются для сравнения в рамках парных сравнений. Технические решения включают механизмы аггрегации этих характеристик для вычисления абсолютной оценки. Метод работает в реальном времени и позволяет получить не только относительные, но и абсолютные оценки текстов. ## Результаты Результаты экспериментов показали, что предлагаемый подход дает сходные результаты с текущими состояниями технологии в области парных экспериментов. Метрики, такие как axis-averaged sample-level correlations, показали значительные улучшения на бенчмарках SummEval (+0.03) и HANNA (+0.05), хотя на TopicalChat результат оказался незначительно ниже (-0.03). Эти результаты подтверждают, что новый метод может давать абсолютные оценки с разумной точностью без потери в относительных сравнениях. Данные синтетических сводных текстов, использованные в экспериментах, также были опубликованы для поддержки дальнейших исследований. ## Значимость Метод может применяться в различных областях, включая анализ сводных текстов, диалоговых систем, и генерацию рассказов. Он предоставляет значительные преимущества перед текущими методами, так как обеспечивает как относительные, так и абсолютные оценки без издержек на скорость и ресурсы. Это может быть применено в системах, требующих определения порогов качества текста или в анализе массового текста для интеллектуальных систем. Будущие исследования мо

Annotation:

As large-language models have been increasingly used as automatic raters for evaluating free-form content, including document summarization, dialog, and story generation, work has been dedicated to evaluating such models by measuring their correlations with human judgment. For \textit{sample-level} performance, methods which operate by using pairwise comparisons between machine-generated text perform well but often lack the ability to assign absolute scores to individual summaries, an ability cr...

ID: 2509.05440v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Let's Roleplay: Examining LLM Alignment in Collaborative Dialogues

2025-09-10

Авторы:

Abhijnan Nath, Carine Graff, Nikhil Krishnaswamy

## Контекст Коллаборативные диалоги, в которых AI-коллабораторы взаимодействуют с несколькими участниками, становятся важной областью исследования. Большинство существующих методик выравнивания LLMs разрабатываются для простых однопользовательских сценариев, не учитывая сложности многопользовательских, многократных взаимодействий. Эти динамики требуют новых подходов для обеспечения надежности и кредибильности AI в коллаборативных задачах. Мотивацией для данного исследования является значимость создания AI-коллабораторов, которые могут адекватно участвовать в групповых задачах, обеспечивая предсказуемость и эффективность взаимодействия. ## Метод Исследование основывается на использовании метода ролевой игры, где AI-агенты применяются в качестве "friction agent" во время групповых диалогов, стимулируя участников к продолжительному рефлектирующему обсуждению. Модели тренировались с разными настройками, чтобы изучить их влияние на процесс коллаборации. Основной фокус данного исследования лежит на разработке нового фреймворка для оценки эффективности AI-коллабораторов, который измеряет изменения в групповых траекториях, верификацию версий и заключение взаимного договоренности. ## Результаты В ходе экспериментов были проведены несколько ролевых игр с различными моделями AI-агентов, использующими различные методы выравнивания. Участники наблюдали за групповыми диалогами, в которых агенты вносили фракти-интервенции, стимулирующие группу к согласованию и рефлексивному анализу. Оценка проводилась с помощью разработанного квантитативного фреймворка, показавший что метод с friction-aware позволил достичь лучших результатов в достижении общего понимания и достижения задачи в отношении точности решений. ## Значимость Результаты данного исследования демонстрируют, что метод friction-aware может быть применен в различных областях, где требуется улучшение качества коллаборации AI с человеком. Это включает групповые принятия решений, управление проектами и образовательные программы. Главным преимуществом является повышение точности решений и упрощение процесса достижения общих целей, что может увеличить эффективность в работе групп. Данный подход также открывает новые возможности для изучения интерактивных систем в будущих исследованиях. ## Выводы Исследование показало, что friction-aware-approach эффективно повышает уровень коллаборативности в многопользовательских сценариях, стимулируя надежность и точность решений. На основе этого подхода, будущие исследования могут более подробно изучить динамики многопользовательских диалогов и развить новые методы для улуч

Annotation:

As Large Language Models (LLMs) integrate into diverse workflows, they are increasingly being considered "collaborators" with humans. If such AI collaborators are to be reliable, their behavior over multiturn interactions must be predictable, validated and verified before deployment. Common alignment techniques are typically developed under simplified single-user settings and do not account for the dynamics of long-horizon multiparty interactions. This paper examines how different alignment meth...

ID: 2509.05882v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

2025-09-10

Авторы:

Eugene Kwek, Wenpeng Yin

## Контекст В последние годы широко распространились большие языковые модели (LLMs), которые достигли поразительных успехов в области естественного языка и процессов автоматизации. Однако эффективность LLMs остается значимой проблемой, особенно при их использовании на устройствах с ограниченными ресурсами, в интерактивных приложениях и при масштабной трансформации потоков данных. Одним из основных подходов к улучшению эффективности является применение методов экстремального упрощения моделей (pruning), которые уменьшают размер модели и повышают ее производительность. Несмотря на это, существующие методы признаны недостаточно эффективными в условиях разных приложений. Целью настоящей работы является разработка нового подхода к моделированию, который был бы эффективным, удобным в применении и гибким в контексте разных задач. ## Метод Метод, предложенный в работе, назван COMPACT (Common-token Optimized Model Pruning Across Channels and Tokens). Он предлагает совмещение двух техник: 1. **Удаление редких слов (токенов)** из словаря модели, чтобы уменьшить размер словарей входа и выхода (embedding и unembedding). 2. **Оптимизация слоёв FFN (функциональных нейронных сетей)** с использованием весов, определяемых соотношением редких и частых токенов в потоке данных. COMPACT построен на основе стандартной многослойной перцептронной структуры трансформера, что позволяет избежать разрушения архитектуры модели. Алгоритм оптимизации свойственной для разных моделей (например, Qwen, LLaMA, Gemma) и работает без дополнительной тренировки, что делает его высокоэффективным. ## Результаты Проведены эксперименты с моделями размеров от 0.5B до 70B параметров, включая Qwen, LLaMA и Gemma. Была произведена сравнительная оценка различных стратегий моделирования. Результаты показали, что COMPACT достигает значительных уменьшений в размере модели и повышений производительности, не ухудшая точность на задачах, связанных с естественным языком. Особое внимание уделено сравнению с другими методами pruning, где COMPACT показывает выигрыш в памяти и времени работы без потерь в производительности. ## Значимость Решение, предложенное в работе, может быть применено в различных областях, таких как обработка естественного языка, интерактивные приложения, а также для создания устойчивых моделей для обработки больших массивов данных. Оно обеспечивает значительные экономии памяти при высокой производительности и гибкость при применении в различных условиях. Это делает COMPACT универсальным инструментом для повышения эффективности и снижения затрат в широком кругу приложений. ## Выводы Разработанный подход COMPACT доказал свою эффективность в сочетании

Annotation:

Making LLMs more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a key technique toward this goal. However, prior pruning methods are limited: width pruning often breaks the standard transformer layout or requires custom inference code, while depth pruning removes entire layers and can cause abrupt accuracy drops. In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to sh...

ID: 2509.06836v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 PLaMo 2 Technical Report

2025-09-09

Авторы:

Preferred Networks, :, Kaizaburo Chubachi, Yasuhiro Fujita, Shinichi Hemmi, Yuta Hirokawa, Toshiki Kataoka, Goro Kobayashi, Kenichi Maehashi, Calvin Metzger, Hiroaki Mikami, Shogo Murai, Daisuke Nishino, Kento Nozawa, Shintarou Okada, Daisuke Okanohara, Shunta Saito, Shotaro Sano, Shuji Suzuki, Daisuke Tanaka, Avinash Ummadisingu, Hanqin Wang, Sixue Wang, Tianqi Xu

#### Контекст В последние годы языковые модели становятся все более важной частью области искусственного интеллекта, особенно в сфере обработки и понимания естественных языков. Однако существуют серьезные проблемы, связанные с нехваткой качественных данных для обучения таких моделей, особенно в языках, отличных от английского. Для японского языка этот вопрос является актуальнее, так как доступный ему корпус данных часто ограничен и не позволяет обеспечить масштабируемость и качество многих моделей. Мотивация для создания PLaMo 2 заключается в преодолении этих ограничений, обеспечении высокого качества и эффективности модели для японского языка с помощью инновационных техник обучения и оптимизации. #### Метод PLaMo 2 основывается на гибридной Samba-архитектуре, которая включает в себя этапы непрерывного пре-тренирования для преодоления скрытых состояний и перехода к полноценной аттенции с 32K токенов. Обучение производится на огромных синтетических данных, позволяющих преодолеть нехватку качественных естественных данных. Для эффективности методы структурированного урезания весов и реинтеграции параметров используются для создания моделей с высокой эффективностью ресурсов. Для дальнейшей оптимизации используется цикл постобучения, включающий в себя супервизированное файн-тюнинг, оптимизацию по предпочтениям и методы создания моделей. Высокая производительность достигается благодаря инновационной поддержке инфраструктуры и оптимизации инференса, включая vLLM и кванторизацию. #### Результаты Полученные результаты показывают, что PLaMo 2 достигает состояния артефакта на нескольких японских бенчмарках, превосходя соответствующие модели размера. Модель показывает выдающиеся результаты в области понимания инструкций, языковой повествовательности и японского языка-конкретной знания. Эти достижения достигаются благодаря уникальному подходу к обучению, который использует синтетические данные, высокоэффективное урезание весов и постобучение. Это дает PLaMo 2 преимущества в сравнении с другими моделями с равным количеством параметров. #### Значимость PLaMo 2 имеет широкое применение в области японского языка и обработки естественных языков. Из-за своей эффективности и высокого качества она может быть применена в различных сферах, включая синтез речи, ответы на вопросы, развитие новых технологий для языка, а также в приложениях, требующих высокой скорости инференса. Благодаря использованию синтетических данных модель предоставляет решение для нехватки качеств

Annotation:

In this report, we introduce PLaMo 2, a series of Japanese-focused large language models featuring a hybrid Samba-based architecture that transitions to full attention via continual pre-training to support 32K token contexts. Training leverages extensive synthetic corpora to overcome data scarcity, while computational efficiency is achieved through weight reuse and structured pruning. This efficient pruning methodology produces an 8B model that achieves performance comparable to our previous 100...

ID: 2509.04897v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 CURE: Controlled Unlearning for Robust Embeddings -- Mitigating Conceptual Shortcuts in Pre-Trained Language Models

2025-09-09

Авторы:

Aysenur Kocak, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci

#### Контекст Pre-trained language models (PLMs) достигли великолепных успехов во многих задачах естественного языка, однако остаются чувствительными к спуравидным, концептуальным отношениям, которые могут привести к спуравидным корреляциям. Эти отношения не только снижают надежность и справедливость модели, но и ограничивают её пригодность для применения в реальных условиях. В этой работе мы предлагаем CURE (Controlled Unlearning for Robust Embeddings), новый фреймворк, который активно призван устранить ключевые недостатки, связанные с концептуальными корреляциями, при этом сохранив основную текстовую информацию. #### Метод CURE предлагает трехэтапный подход к решению проблемы. Во-первых, с помощью **dedicated content extractor**, мы извлекаем представления, которые не затрагивают ключевые концепты, но при этом сохраняют смысловую нагрузку. Этот этап подкрепляется системой **reversal network**, которая обеспечивает минимальную потерю полезной информации. Во-вторых, мы вводим **controllable debiasing module**, который использует контрастное обучение для тонкого управления влиянием оставшихся концептуальных признаков. Это позволяет модели либо уменьшить негативные корреляции, либо, наоборот, использовать полезные признаки в зависимости от целевой задачи. Заметно, что CURE оптимизирована для лёгкого и эффективного использования, не требуя тяжёлых модификаций существующих PLMs. #### Результаты Мы проверили CURE на двух значимых датасетах — IMDB и Yelp. На IMDB, наши эксперименты показали абсолютный прирост в F1-меру на +10 баллов, что свидетельствует о сильном изменении в способности модели различать положительные и отрицательные отзывы. На Yelp, где задача была более сложной из-за меньшего количества признаков, CURE показала прирост в F1-меру на +2 балла. Эти результаты были достигнуты с незначительным дополнительным вычислительным накладным. Мы также проверили модель на спуравидных данных, где CURE показала существенное улучшение в справедливости и стабильности в сравнении с оригинальными PLMs. #### Значимость CURE предлагает универсальный подход к контролируемому удалению предрассудков в предрасположенных моделях. Он может быть применён в различных задачах, включая классификацию отзывов, моделирование мнений и генерацию текстов. Основные преимущества CURE включают: 1. **Улучшение справедливости и надежности** моделей в условиях, где спуравидные корреляции могут привести к несправедливости результатов. 2. **Минимальный накладываемый накладный эффект**, что делает её пригодной для практических задач. 3. **Гибкость**, позволяющая применять CURE в различных сценариях, от устранения ошибок до усиления нужных признаков. #### Выводы

Annotation:

Pre-trained language models have achieved remarkable success across diverse applications but remain susceptible to spurious, concept-driven correlations that impair robustness and fairness. In this work, we introduce CURE, a novel and lightweight framework that systematically disentangles and suppresses conceptual shortcuts while preserving essential content information. Our method first extracts concept-irrelevant representations via a dedicated content extractor reinforced by a reversal networ...

ID: 2509.05230v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Crosscoding Through Time: Tracking Emergence & Consolidation Of Linguistic Representations Throughout LLM Pretraining

2025-09-09

Авторы:

Deniz Bayazit, Aaron Mueller, Antoine Bosselut

## Контекст Large language models (LLMs) подвергаются широкому исследованию из-за их способности принимать непредсказуемые решения, сложности которых могут происходить из-за своих глубоких абстракций. Однако существуют проблемы с эффективным определением, когда и как эти абстракции появляются, так как традиционные методы оценки не позволяют проследить постепенный процесс их развития. Это ограничивает возможность оценить, какие явления языка могут проявиться во время подготовки модели. Мотивация заключается в создании более точного понимания, как LLMs учитывают языковые закономерности, и в развитии методов, которые позволят оценить не только финальную эффективность моделей, но и процесс их обучения. ## Метод Для развития понимания появления языковых признаков во время подготовки моделей был применен метод **sparse crosscoders**. Это специальная техника, позволяющая выделить и анализировать отдельные функции, возникающие во время обучения, сравнивая промежуточные модели, которые отличаются по производительности и характеру ответа. Для оценки влияния отдельных признаков была введена новая метрика **Relative Indirect Effects (RelIE)**. Эта метрика позволяет отслеживать эволюцию признаков во времени и определять моменты их важности для задачи. Такой подход не зависит от архитектуры LLM и позволяет изучать данные на разных этапах обучения, предоставляя более точную картину развития модели. ## Результаты Используя этот подход, авторы провели многочисленные эксперименты, которые позволили отследить возникновение, развитие и затухание языковых признаков во время обучения. Они установили, что модели не только учитывают языковые закономерности сразу после начала обучения, но и продолжают их уточнять и консолидировать в течение всего процесса. Например, модели начинают замечать и исправлять сложности с неправильными склонениями в процессе работы. Метрика RelIE позволила отследить точные моменты, когда отдельные функции становятся критичными для достижения высокой производительности. ## Значимость Результаты этого исследования имеют большое значение для областей, где необходимо понимание, как модели LLM обучаются и становятся способными выполнять языковые задачи. Например, это может помочь в разработке более точных моделей для перевода или генерации текстов. Благодаря методу crosscoders становится возможным выявлять проблемы в моделях на ранних этапах обучения и корректировать их, что повышает их качество и универсальность. Этот подход также открывает пути для более глубокого интерпретируемого исследования, так как позволяет понять, какие части модели важны для конкретных задач. ## Выводы Результаты исследования показывают,

Annotation:

Large language models (LLMs) learn non-trivial abstractions during pretraining, like detecting irregular plural noun subjects. However, it is not well understood when and how specific linguistic abilities emerge as traditional evaluation methods such as benchmarking fail to reveal how models acquire concepts and capabilities. To bridge this gap and better understand model training at the concept level, we use sparse crosscoders to discover and align features across model checkpoints. Using this ...

ID: 2509.05291v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 MLSD: A Novel Few-Shot Learning Approach to Enhance Cross-Target and Cross-Domain Stance Detection

2025-09-06

Авторы:

Parush Gera, Tempestt Neal

## Контекст Статья посвящена задаче стойкости кросс-целей и кросс-доменов (cross-target and cross-domain stance detection), которая является ключевой для понимания тональности высказываний в разных контекстах. Несмотря на прогресс в области машинного обучения, традиционные модели часто сталкиваются с проблемами при переходе между доменами или целями. Эта проблема становится особенно актуальной при обнаружении стойкости в реальном времени, где модели должны адаптироваться к новым целям или доменам с ограниченным количеством данных. Мотивацией для разработки нового подхода является необходимость в улучшении точности и универсальности стойкости, а также в снижении необходимости в больших объемах обучающих данных. ## Метод Предлагаемый подход, **Metric Learning-Based Few-Shot Learning for Cross-Target and Cross-Domain Stance Detection (MLSD)**, основывается на метрическом обучении с использованием триплетной функции потерь. Он нацелен на построение дискриминативного пространства признаков, в котором могут быть легко отделены стойкости различных целей и доменов. Механизм работы включает в себя: 1. **Триплетный подход к обучению**: Триплеты состоят из примера (anchor), позитивного примера (positive) и негативного примера (negative), чтобы определить различия в стойкости. 2. **Доменная адаптация**: MLSD использует метрические требования для адаптации моделей к новым доменам, не требуя больших обучающих данных. 3. **Процесс обучения**: Модель обучается на множестве целей и доменов, чтобы улучшить общую стойкость и передовать знания в новых сценариях. ## Результаты Исследование включало выполнение экспериментов на двух различных данных, а также использование шести существующих моделей стойкости. Модель MLSD показала статистически значимый выигрыш в точности по сравнению с существующими подходами. В кросс-целевой стойкости MLSD повысила производительность на 15%, а в кросс-доменной стойкости — на 12%. Эти результаты доказывают, что MLSD эффективно использует метрическое обучение для решения проблем доменной адаптации и перехода между целями. ## Значимость Результаты MLSD имеют широкий потенциал в различных областях, включая мониторинг социальных сетей, обнаружение мнений в реальном времени и анализ новостных материалов. Модель предоставляет следующие преимущества: 1. **Универсальность**: Может быть применена к разным сценариям, не требуя полного переноса обучения для каждой новой цели или домена. 2. **Эффективность**: Требует меньшего объема данных для обучения и позволяет быстро адаптироваться к новым условиям. 3. **Потенциал в применении**: Возможность оптимизировать стойкость в различных сценариях, включая медиа-мо

Annotation:

We present the novel approach for stance detection across domains and targets, Metric Learning-Based Few-Shot Learning for Cross-Target and Cross-Domain Stance Detection (MLSD). MLSD utilizes metric learning with triplet loss to capture semantic similarities and differences between stance targets, enhancing domain adaptation. By constructing a discriminative embedding space, MLSD allows a cross-target or cross-domain stance detection model to acquire useful examples from new target domains. We e...

ID: 2509.03725v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Expanding Foundational Language Capabilities in Open-Source LLMs through a Korean Case Study

2025-09-06

Авторы:

Junghwan Lim, Gangwon Jo, Sungmin Lee, Jiyoung Park, Dongseok Kim, Jihwan Kim, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Kibong Choi, Jaeyeon Huh, Beomgyu Kim, Jangwoong Kim, Taehyun Kim, Haesol Lee, Jeesoo Lee, Dongpin Oh, Changseok Song, Daewon Suh

## Контекст В последние годы рост искусственных нейронных сетей, особенно языковых моделей (LLMs), достиг новых высот. Однако, несмотря на их успех, существуют значительные трудности при адаптации таких моделей к языкам, отличающимся синтаксическими и лексикографическими особенностями. Корейский язык, своими уникальными характеристиками, представляет сложности для обучения моделей, отсутствующих специальной архитектуры и данных. Это приводит к узкому спектру применения языковых моделей в корейском контексте, ограничивая их эффективность. Llama-3-Motif — это языковая модель, разработанная для улучшения производительности на корейском языке, при этом сохраняя высокую эффективность на английском. Наша модель основывается на Llama 3, но включает усовершенствованные методы обучения и специально подобранные данные для расширения функциональности модели на корейском языке. ## Метод Llama-3-Motif основывается на Llama 3, но имеет специальные приемлеты для работы с корейским языком. Это реализовано через **LlamaPro** и **Masked Structure Growth**, которые позволяют масштабировать модель без изменения основной архитектуры Transformer. Мы использовали MoAI-platform для эффективного обучения на высокомасштабных GPU-кластерах. Для обучения включена сбалансированная комбинация корейских и английских данных, чтобы сделать модель более универсальной. Этот подход позволяет Llama-3-Motif оптимизироваться для корейского языка, при этом сохраняя высокую производительность на английском. ## Результаты Мы проводили эксперименты, используя широкий набор корейских и английских тестов, включая корейские специфические бенчмарки. Результаты показали, что Llama-3-Motif превосходит существующие модели, достигая результатов, которые приближаются к GPT-4. На корейских тестах, Llama-3-Motif отличается значительным улучшением в сравнении с другими моделями, особенно в задачах понимания языка и вывода. Эти результаты указывают на успешное расширение функциональности модели для корейского языка без потери производительности на английском. ## Значимость Llama-3-Motif может применяться в различных областях, включая трансляцию, анализ документов на корейском языке, обучение и развитие новых моделей. Основное преимущество заключается в усовершенствовании производительности для корейского языка, что открывает новые возможности для использования в региональных приложениях. Эта модель может стать ключевым инструментом для развития ИИ на корейском языке, повышая эффективность в различных сферах бизнеса и образования. ## Выводы Результаты Llama-3-Motif

Annotation:

We introduce Llama-3-Motif, a language model consisting of 102 billion parameters, specifically designed to enhance Korean capabilities while retaining strong performance in English. Developed on the Llama 3 architecture, Llama-3-Motif employs advanced training techniques, including LlamaPro and Masked Structure Growth, to effectively scale the model without altering its core Transformer architecture. Using the MoAI platform for efficient training across hyperscale GPU clusters, we optimized Lla...

ID: 2509.03972v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 PARCO: Phoneme-Augmented Robust Contextual ASR via Contrastive Entity Disambiguation

2025-09-06

Авторы:

Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda

## Контекст Автоматическое распознавание речи (ASR) широко применяется в различных областях, но сталкивается с значительными проблемами в распознавании доменно-специфических названий сущностей, особенно при наличии гомофонов. Традиционные методы часто не могут точно различать похожие фонетические варианты слов, что приводит к высокой ошибке распознавания. Это особенно актуально для языков с богатой фонетической структурой, таких как китайский, где неточности в распознавании названий сущностей могут привести к серьезным последствиям. Поэтому, целью данного исследования является разработка метода, позволяющего значительно повысить точность распознавания доменно-специфических лексем, включая гомофоны. ## Метод Предлагаемый метод, Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), включает несколько ключевых компонентов: 1. **Phoneme-Aware Encoding**: Использование фонемов в качестве дополнительных признаков для улучшения точности распознавания. 2. **Contrastive Entity Disambiguation**: Метод, позволяющий отличать похожие звуковые сущности, используя контрастное сравнение. 3. **Entity-Level Supervision**: Обучение системы на основе супервайзед данных, которое позволяет лучше учитывать контекст и фонетические особенности. 4. **Hierarchical Entity Filtering**: Фильтрация сущностей на разных уровнях вложенности, чтобы уменьшить false positives и увеличить precision. Техническая архитектура PARCO основана на взаимодействии этих компонентов, что обеспечивает уверенное распознавание и сокращение ошибок. ## Результаты Проведенные эксперименты показали, что PARCO достигает следующих результатов: - **Chinese AISHELL-1**: Character Error Rate (CER) составил 4.22% при работе с 1,000 distractors. - **English DATA2**: Word Error Rate (WER) составил 11.14% при работе с 1,000 distractors. - **Out-of-Domain Datasets**: Значимые улучшения также были продемонстрированы на данных THCHS-30 и LibriSpeech, что указывает на широкую применимость PARCO. Сравнение с базовыми методами показало, что PARCO обеспечивает значительные повышения точности, особенно в условиях высокой конфузии. ## Значимость Предложенный подход может быть применен в различных сферах, где точность распознавания доменных названий ключевая. Например, в системах контроля доступа, сервисах поддержки или системах распознавания речи в медицинской информатике. Основные преимущества PARCO заключаются в улучшенной точности, уменьшении false positives и обеспечении гибкости при работе с различными типами данных. Потенциальное влияние PARCO заключается в улучшении качества работы ASR-систем, что может привести к улучшению пользовательского опыта и эффективности в различных промышленных приложениях. ## Выводы Результаты исследо

Annotation:

Automatic speech recognition (ASR) systems struggle with domain-specific named entities, especially homophones. Contextual ASR improves recognition but often fails to capture fine-grained phoneme variations due to limited entity diversity. Moreover, prior methods treat entities as independent tokens, leading to incomplete multi-token biasing. To address these issues, we propose Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), which integrates phoneme-aware e...

ID: 2509.04357v1 cs.CL, cs.AI, cs.LG, cs.SD

arXiv PDF

1
2
27
28
29
30
31
36
37

Показано 281 - 290 из 370 записей