📚 Саммари научных статей из arXiv

Найдено 370 результатов по запросу 'cs.CL, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Debiasing Multilingual LLMs in Cross-lingual Latent Space

2025-08-27

Авторы:

Qiwei Peng, Guimin Hu, Yekun Chai, Anders Søgaard

## Контекст Скрытые предрассудки в больших моделях естественного языка (LLMs) являются важной проблемой, особенно в мультилингвальных задачах. Несмотря на прогресс в методах debiasing, модели часто не могут эффективно перевести эти техники на другие языки. Эта проблема становится критичной при кросс-лингвальных задачах, где необходимо уменьшить уровень скрытого англоцентризма и улучшить контекстуальную гранулярность. Несмотря на работы по оценке кросс-лингвальной трансфертивности таких методов, есть недостаток моделей, которые могли бы адаптироваться к различным языкам. В настоящей работе предлагается первый подход, в котором debiasing выполняется в "скрытом" пространстве, а не напрямую на выходных данных модели. ## Метод Для создания кросс-лингвального пространства использован автоэнкодер, основанный на параллельных данных (TED Talk скриптов). Обучение автоэнкодера направлено на создание низкоразмерного пространства, которое сохраняет гранулярность языка и позволяет эффективно передавать скрытые предрассудки между языками. Для дебиасинга использованы две техники: SentDebias и HardDebias. Данные для экспериментов были извлечены из входных предложений моделей и представлены в трех языках (французский, немецкий, голландский), с целью оценки эффективности кросс-лингвального дебиасинга. ## Результаты Эксперименты показали, что автоэнкодер эффективно строит кросс-лингвальное пространство, сохраняя языковые характеристики и уменьшая корреляцию скрытых предрассудков. Техники debiasing, примененные в этом пространстве, показали значительный повышение эффективности по сравнению с дебиасингом напрямую в выходных данных модели. В частности, SentDebias показал улучшение в 10% для всех языков в сравнении с безучетом входа в пространство. HardDebias также показал улучшение в 7%, особенно для языков с меньшим представительством в обучающих данных. ## Значимость Данный подход может быть применен в различных мультилингвальных задачах, включая перевод, суммирование текста и распознавание субъективных выражений. Он предоставляет преимущества в улучшении скрытого дебиасинга, а также работы с языками с недостатком данных. Будущие исследования могут сосредоточиться на улучшении алгоритмов автоэнкодера и расширении кросс-лингвального пространства для широкого спектма языков. ## Выводы Результаты экспериментов показали, что дебиасинг в кросс-лингвальном пространстве значительно улучшает эффективность и кросс-лингвальную трансфертивность LLMs. Этот подход может стать базой для дальнейшего раз

Annotation:

Debiasing techniques such as SentDebias aim to reduce bias in large language models (LLMs). Previous studies have evaluated their cross-lingual transferability by directly applying these methods to LLM representations, revealing their limited effectiveness across languages. In this work, we therefore propose to perform debiasing in a joint latent space rather than directly on LLM representations. We construct a well-aligned cross-lingual latent space using an autoencoder trained on parallel TED ...

ID: 2508.17948v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Understanding Subword Compositionality of Large Language Models

2025-08-27

Авторы:

Qiwei Peng, Yekun Chai, Anders Søgaard

## Контекст Понимание способа формирования слов из подстроковых элементов (субвордов) является ключевой проблемой в анализе и генерации текстов с помощью бо LARGE LANGUAGE MODELS (LLM). LLMs обрабатывают последовательности субвордов, комбинируя их в слова. Эта способность является критической для понимания и генерирования значимых текстов. Несмотря на то, что субворды широко используются в машинном обучении, существуют недостатки в понимании того, как LLM объединяют эти элементы в целостные слова. Эта проблема становится все более актуальной в свет растущего интереса к LLM в области текстового понимания, генерации и доступности. В данной работе мы описываем подробный анализ того, как LLM обрабатывают субворды и компонуют их в слова, чтобы понять, что LLM "видят" в словах и как они это делают. ## Метод Мы провели три ключевых эксперимента для изучения способа построения слов из подстроковых элементов в LLM: **структурная схожесть**, **семантическое разделение** и **формообразующие черты**. 1. **Структурная схожесть**: Мы измеряли, насколько похожи сложные субворды (например, "un" + "happy") и их соответствующие целые слова (например, "unhappy") на уровне слоев LLM. 2. **Семантическое разделение**: Мы проверяли, насколько хорошо LLM разделяют семантические компоненты слов (например, производные слова, такие как "run" vs. "runner"). 3. **Формообразующие черты**: Мы исследовали, насколько LLM устойчивы к формальным особенностям, таким как длина символов и графем. Эксперименты проводились на 5 представительных LLM семейств, включая BERT, RoBERTa, GPT-2, T5 и XLM-R, чтобы охватить разнообразие подходов. ## Результаты 1. **Структурная схожесть**: Мы обнаружили три различных тренда в эволюции структурной схожести между субвордами и целыми словами в разных слоях LLM. Например, в некоторых слоях субворды становятся все более похожи на слова, в то время как в других наблюдается обратный эффект. 2. **Семантическое разделение**: Мы выяснили, насколько хорошо LLM выполняют семантическое разделение в разных слоях. Например, в некоторых слоях LLM показывают высокую точность в различении производных слов (например, "run" vs. "runner"), в то время как в других это делается с меньшей точностью. 3. **Формообразующие черты**: Мы обнаружили, что LLM отличаются в устойчивости к формальным особенностям, таким как длина символов и графем. Например, некоторые модели чувствительны к длине символов, в то время как другие — нет. ## Значимость Наши результаты демонстрируют, что LLM могут быть к

Annotation:

Large language models (LLMs) take sequences of subwords as input, requiring them to effective compose subword representations into meaningful word-level representations. In this paper, we present a comprehensive set of experiments to probe how LLMs compose subword information, focusing on three key aspects: structural similarity, semantic decomposability, and form retention. Our analysis of the experiments suggests that these five LLM families can be classified into three distinct groups, likely...

ID: 2508.17953v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 CYCLE-INSTRUCT: Fully Seed-Free Instruction Tuning via Dual Self-Training and Cycle Consistency

2025-08-26

Авторы:

Zhanming Shen, Hao Chen, Yulei Tang, Shaolin Zhu, Wentao Ye, Xiaomeng Hu, Haobo Wang, Gang Chen, Junbo Zhao

## Контекст Инструкционный tuning — это ключевая задача для адаптации бо LLM к потребностям пользователей, но она часто ограничивается сильной зависимостью от больших выборок с маркировкой (seed data) или сильно налаженных внешних моделей. Эти зависимости не только ограничивают саму процедуру, но и формируют риск внедрения биаса. Недостатки существующих подходов, включая использование back-translation, становятся очевидными в связи с их несовершенством в эффективном использовании немаркированных данных. Целью CYCLE-INSTRUCT является устранение этих проблем, предлагая seed-free подход, который позволяет извлекать значимость из немаркированных данных без привлечения дополнительных источников. ## Метод CYCLE-INSTRUCT предлагает двухуровневый самостоятельный тренировочный подход, основанный на циклической консистенции. Используется два модели — **answer generator** и **question generator**, которые обучаются друг с другом в объеме немаркированных данных. Они обмениваются сгенерированными псевдо-метками, которые затем используются для дополнительного тренирования. Этот процесс демонстрирует эффективность в обучении самостоятельно, не зависящем от какой-либо формальной маркировки. Архитектура строится на создании параллельных моделей, решающих взаимно похожие задачи, в которых каждая модель использует входные данные другой модели как псевдо-текст для обучения. ## Результаты Эксперименты проводились на данных с различной спецификой: универсальные инструкции, доменные задачи, диалоги и простые тексты. Замеры показали, что CYCLE-INSTRUCT не только превосходит традиционные seed-driven методы, но и достигает показателей, схожих с методами, использующими сильную супервизию. Измерения включали F1-меру, BLEU-скоры, accuracy, а также общую качественную оценку поведения модели в задачах генерации и анализа. ## Значимость CYCLE-INSTRUCT может использоваться в различных областях, включая NLP, n-shot инструкционное обучение, моделирование диалога и автоматизацию процессов обработки текстов. Его особенно успешно применять там, где отсутствуют доступные выборки маркировки, но есть большие исходные тексты. Это не только позволяет значительно сократить накладные расходы на тренировку, но и демонстрирует высокую эффективность самообучения, которая приводит к независимости от сторонних моделей или данных. ## Выводы CYCLE-INSTRUCT представляет собой новую модель, которая достигает полного seed-free tuning с помощью двухуровневого self-training. Он успешно показывает, что модели могут быть эффективно обучены только на базе немаркированных данных, избегая рисков внедрения биаса. Будущие исследования будут нацелены на улучшение точности модели и добав

Annotation:

Instruction tuning is vital for aligning large language models (LLMs) with human intent, but current methods typically rely on costly human-annotated seed data or powerful external teacher models. While instruction back-translation techniques reduce this dependency, they remain fundamentally tethered to an initial seed set, which limits full automation, introduces biases, and can lead to inefficient use of unlabeled corpora. In this paper, we propose Cycle-Instruct, a novel framework that achiev...

ID: 2508.16100v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian

2025-08-26

Авторы:

Ana-Cristina Rogoz, Radu Tudor Ionescu, Alexandra-Valentina Anghel, Ionut-Lucian Antone-Iordache, Simona Coniac, Andreea Iuliana Ionescu

## Контекст Область исследования естественных языковых процессинговых систем (NLP) становится все более важной для развития искусственного интеллекта (AI). Одним из ярких примеров является **задача вопроса-ответа (QA)**, которая является одной из основных задач в этой области. Несмотря на то, что QA в общих текстах уже достигла некоторого уровня успеха, **специальные области, такие как медицина**, представляют дополнительные сложности. В частности, в медицине важность точности и достоверности ответов на высокотехнологичном уровне. Однако, существуют ограничения в доступности качественных данных и ресурсов для обучения AI-систем, особенно в узкоспециализированных языках, таких как румынский. Данная работа предлагает решение этой проблемы, представляя **MedQARo** — первый большой бенчмарк для QA в медицине на румынском языке. ## Метод **MedQARo** — это **большой датасет**, состоящий из **102 646 QA-пар**, специально созданных для задачи вопроса-ответа в медицинских случаях. Данные были собраны вручную с помощью **семьи опытных онкологов и радиотерапевтов**, которые провели примерно **2100 часов** работы над этой задачей. Основным источником данных были **медицинские случаи с 1011 пациентов**, где каждая вопрос-ответ-пара требует **ключевого слова** или **рассуждений** для правильного ответа. Датасет был разделен на **тренировочную** и **тестовую** часть в соотношении 80/20. Для оценки **текущих технологий** были использованы **четыре лидерских языковых модели (LLMs)**, как в **сценарии zero-shot**, так и в **сценарии файн-тюнинга**. ## Результаты **MedQARo** позволил провести серьезные эксперименты с четырьмя моделями: **BERT-like**, **T5-like**, **RoBERTa-like** и **ALBERT-like**. Изучение показало, что **файн-тюнинг моделей** (с учетом контекста и языка) дает значительное улучшение по сравнению с **zero-shot**. В частности, **файн-тюнингные модели** показали более высокую точность в ответах, что продемонстрировано **F1-метрикой**, подтверждая, что **контекст и языковые особенности** играют ключевую роль в достижении надежной производительности в медицинской QA. Эти результаты подтверждают, что без должного внимания к специфике языка и домена модели не могут достичь высокой точности. ## Значимость **MedQARo** имеет **многочисленные приложения** в области клинического QA, помогая в развитии медицинских AI-систем, которые могут помогать врачам в **выборе лечения** и **ответах на вопросы пациентов**. Одним из **основных преимуществ** данной работы является то, что она представляет **первый большой датасет на румы

Annotation:

Question answering (QA) is an actively studied topic, being a core natural language processing (NLP) task that needs to be addressed before achieving Artificial General Intelligence (AGI). However, the lack of QA datasets in specific domains and languages hinders the development of robust AI models able to generalize across various domains and languages. To this end, we introduce MedQARo, the first large-scale medical QA benchmark in Romanian, alongside a comprehensive evaluation of state-of-the...

ID: 2508.16390v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 NEAT: Concept driven Neuron Attribution in LLMs

2025-08-25

Авторы:

Vivek Hruday Kavuri, Gargi Shroff, Rahul Mishra

#### Контекст В последние годы широко распространены бо LLM (large language models), которые обладают выдающимися способностями в обработке естественного языка. Однако такие модели часто называют "черным ящиком", так как понять, каким образом они принимают решения, остается загадкой. Одним из ключевых вопросов является определение роли отдельных нейронов в принятии решений. Этот вопрос не только ключевой для понимания LLM, но и важен для возможности вмешательства в работу моделей, например, для устранения биаса или высказываний ненависти. Несмотря на некоторые усилия по поиску таких "ответственных" нейронов, существуют проблемы, связанные с неоптимальностью вычислений и несовершенством методов. #### Метод Мы предлагаем метод под названием **NEAT** (Neuron-level Explanation via Attribution Transformers), который основывается на идее использования **concept vectors** (векторов понятий) для поиска "concept neurons" (нейронов, ответственных за определенные концепции). Метод уменьшает количество необходимых проходов (forward passes) с $O(n \times m)$ до $O(n)$, где $n$ - число нейронов, а $m$ - число примеров. Эта оптимизация позволяет сократить вычислительные затраты и ускорить процесс. Мы также используем кластеризацию для оптимизации поиска concept neurons. #### Результаты Мы проверяем наш метод на нескольких базовых моделях и сравниваем его с существующими методами. Результаты показывают, что **NEAT** демонстрирует лучшую точность и эффективность в сравнении с базовыми и состояниями технологии. Для примера, мы смогли уменьшить расход вычислительных ресурсов в несколько раз, при этом сохранив высокую точность. Особое внимание уделяется применению наших методов для выявления и устранения биаса в LLMs, включая тестирование на конкретных примерах из индийского контекста. #### Значимость Наш метод может применяться в различных областях, таких как мониторинг биаса в тексте, анализ языковых моделей и улучшение понимания человеком работы AI. Он позволяет не только улучшить понимание того, как работают LLM, но и создает шанс вмешательства в их работу. Например, можно отключить нейроны, ответственные за высказывания ненависти или биаз, и изучить последствия таких манипуляций. Это открывает путь к более предсказуемому и человекоподобному поведению моделей. #### Выводы Мы показали, что наш метод не только эффективен, но и эффективен в том смысле, что он дает новый подход к пониманию и вмешательству в работу LLM. Мы также отметили, что наши результаты открывают новые возможности для изучения роли отдельных нейронов в широких и глубоких LLM. Наше исследование демонстрирует перспективы для будущих исследований в области поиска concept neurons и вмешательства в

Annotation:

Locating neurons that are responsible for final predictions is important for opening the black-box large language models and understanding the inside mechanisms. Previous studies have tried to find mechanisms that operate at the neuron level but these methods fail to represent a concept and there is also scope for further optimization of compute required. In this paper, with the help of concept vectors, we propose a method for locating significant neurons that are responsible for representing ce...

ID: 2508.15875v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

2025-08-25

Авторы:

Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai

#### Контекст Современные языковые модели широко применяются в различных областях, включая обработку естественного языка, генерацию текста и анализ данных. Однако существуют значимые проблемы, связанные с оптимальным дизайном этих моделей. Они часто требуют больших вычислительных ресурсов, что усложняет их развертывание в реальных системах. Также существуют ограничения в скорости подготовки данных и вывода, что сказывается на общем эффективности этих моделей в практических задачах. **Jet-Nemotron** является решением этих проблем, предлагая новую гибридную архитектуру языковых моделей, которая сочетает в себе высокую точность и высокую скорость генерации текста. Модель разработана с помощью **Post Neural Architecture Search** (PostNAS), новый подход к эффективному дизайну архитектур нервных сетей, который позволяет эффективно оптимизировать модели для различных задач. #### Метод **Jet-Nemotron** разработана с использованием Postnas, представляющего собой алгоритм поиска лучшей архитектуры с помощью пост-оптимизации. Этот подход характеризуется четырьмя ключевыми компонентами: 1. **Оптимальное размещение и удаление полносвязных слоёв (full-attention layers)**: позволяет оптимизировать структуру модели, удаляя ненужные слои и сохраняя только самые важные. 2. **Выбор линейных блоков аттенции (linear attention blocks)**: упрощает модель, заменяя сложные блоки аттенции на более простые, но эффективные. 3. **Дизайн новых блоков аттенции**: разработка новых блоков, которые позволяют улучшить производительность и точность модели. 4. **Поиск гиперпараметров, ориентированный на железо (hardware-aware hyperparameter search)**: оптимизация модели с учетом ограничений ресурсов, таких как вычислительная мощность и память. Таким образом, **Jet-Nemotron** использует предварительно обученную модель с полносвязной архитектурой, замороженную во время обучения, что позволяет эффективно экспериментировать с архитектурой без потерь в точности. #### Результаты **Jet-Nemotron** была проверена на различных наборах данных и бенчмарках, включая **MMLU** и **MMLU-Pro**. Модель показала существенное улучшение производительности по сравнению с другими языковыми моделями, такими как **Qwen3**, **Qwen2.5**, **Gemma3** и **Llama3.2**. Она достигла точности, сопоставимой или лучшей, чем у этих моделей, при этом показала значительные повышения в скорости генерации текста: до **53.6x** в сравнении с другими моделями. Также **Jet-Nemotron** показала выигрыш в скорости подготовки данных (prefilling) до **6.1x**. Эти результаты достигнуты благодаря оптимальному дизайну архитектуры, который позволяет использовать ресурсы

Annotation:

We present Jet-Nemotron, a new family of hybrid-architecture language models, which matches or exceeds the accuracy of leading full-attention models while significantly improving generation throughput. Jet-Nemotron is developed using Post Neural Architecture Search (PostNAS), a novel neural architecture exploration pipeline that enables efficient model design. Unlike prior approaches, PostNAS begins with a pre-trained full-attention model and freezes its MLP weights, allowing efficient explorati...

ID: 2508.15884v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset

2025-08-23

Авторы:

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

## Контекст Одним из наиболее затруднительных и интересных областей исследований в машинном обучении является построение моделей с высокими резольюциями, которые могут обрабатывать сложные логические задачи, включая математический анализ и программирование. Для этого необходимо обучать модели на больших, высококачественных данных, которые могут поддерживать и улучшать разумные решения. Несмотря на то, что существуют многочисленные наборы данных для математического моделирования, они часто страдают от несогласованности, потери структуры и ошибок в форматировании. Это приводит к ограниченному улучшению моделей в области проблем с логическими и математическими елементами. ## Метод Методология, предложенная в работе, заключается в создании новой многошаговой архитектуры для построения высококачественных корпусов данных, ориентированных на математические задачи. На начальном этапе используется пайплайн, основанный на различных инструментах для визуального распознавания математических формул и кода. Это позволяет извлекать математические формулы и код из различных форматов, включая MathJax, KaTeX и MathML. Затем применяется целевой LLM-based cleaning stage для удаления ненужных элементов, стандартизации форматирования на LaTeX и исправления неточностей. Это позволяет сохранить структурную целостность данных и улучшить их качество. ## Результаты В результате применения предложенной методологии был получен большой, высококачественный математический корпус Nemotron-CC-Math-3+, содержащий 133 миллиардов токенов, и Nemotron-CC-Math-4+, содержащий 52 миллиардов токенов. Эти данные были использованы для обучения моделей типа Nemotron-T 8B, которые показали результаты, значительно превосходящие существующие базы данных, такие как MegaMath, FineMath и OpenWebMath. Этот подход привел к +4.8 до +12.6 улучшений на математических задачах и до +14.3 на задачах по программированию. ## Значимость Предложенный подход имеет широкие области применения в машинном обучении, обработке текстов, моделировании математических задач и кодировании. Преимущество заключается в улучшении качества моделей, благодаря достижению более высокого уровня точности и стабильности в обработке математических задач. Это может привести к новым возможностям в области автоматизации проблемно-ориентированных задач, включая распознавание и решение математических задач в реальном времени. ## Выводы Результаты работы указывают на будущие направления исследований в повышении качества математических данных для обучения моделей. Модели, обученные на таких высококачественных данных, могут продемонстрировать значительный прогресс в выполнении логических и математических за

Annotation:

Pretraining large language models (LLMs) on high-quality, structured data such as mathematics and code substantially enhances reasoning capabilities. However, existing math-focused datasets built from Common Crawl suffer from degraded quality due to brittle extraction heuristics, lossy HTML-to-text conversion, and the failure to reliably preserve mathematical structure. In this work, we introduce Nemotron-CC-Math, a large-scale, high-quality mathematical corpus constructed from Common Crawl usin...

ID: 2508.15096v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 SparK: Query-Aware Unstructured Sparsity with Recoverable KV Cache Channel Pruning

2025-08-23

Авторы:

Huanxuan Liao, Yixing Xu, Shizhu He, Guanchen Li, Xuanwu Yin, Dong Li, Emad Barsoum, Jun Zhao, Kang Liu

#### Контекст Современные боLты на основе текста сталкиваются с значительными проблемами в обработке длинных контекстов. Это связано с тем, что хранилище ключ-значение (KV cache) растет линейно с увеличением длины последовательностей, в то время как вычисление внимания происходит квадратично. Это приводит к значительным ограничениям в памяти и вычислительной сложности. Одним из главных подходов является сжатие KV-хранилища по временной оси с помощью таких методов, как удаление токенов, объединение каналов или мерджинг. Однако эти методы часто не учитывают тонкости важности каналов (например, на строковой оси), что ограничивает их эффективность. Наша мотивация заключается в разработке метода, который бы учитывал важность каналов в зависимости от контекста, чтобы эффективно уменьшить вычислительные затраты. #### Метод Мы предлагаем SparK, совершенно новый метод, который уменьшает нагрузку на KV-хранилище при обработке ввода, используя спарсинг по каналам. SparK применяет неструктурированную спарсингу на уровне каналов, что означает, что он удаляет некоторые каналы, но восстанавливает их при вычислении скорости внимания. Этот подход позволяет сохранить модельную точность, даже если большая часть каналов будет удалена. Метод не требует обучения и является взаимозаменяемым с другими методами сжатия KV-хранилища. #### Результаты Мы провели эксперименты на различных датасетах, включая LongBench, Long-Range Arena и другие. Проанализировали поведение SparK в сценариях с длинными контекстами и по сравнению с другими методами сжатия KV-хранилища. Наши результаты показали, что SparK уменьшает расход памяти на более чем 30% по сравнению с удалением токенов, при этом сохраняя почти те же результаты точности. Кроме того, даже при сжатии на 80%, SparK сохраняет модельную точность близкую к базовому методу с восстановлением токенов. Эти результаты демонстрируют высокую эффективность SparK в уменьшении нагрузки на KV-хранилище. #### Значимость SparK широко может быть применен в области обработки естественного языка, где требуется обработка длинных контекстов. Этот метод имеет преимущества перед существующими подходами, так как он уменьшает нагрузку на память, не требуя дополнительного обучения. Также SparK может быть интегрирован с другими методами сжатия KV-хранилища для дополнительного увеличения производительности. Это открывает новые возможности для работы с большими моделями и длинными контекстами. #### Выводы Мы представили метод SparK, который предлагает новый подход к сжатию KV-хранилища при обработке длинных контекстов. Метод SparK демонстрирует высокую эффективно

Annotation:

Long-context inference in large language models (LLMs) is increasingly constrained by the KV cache bottleneck: memory usage grows linearly with sequence length, while attention computation scales quadratically. Existing approaches address this issue by compressing the KV cache along the temporal axis through strategies such as token eviction or merging to reduce memory and computational overhead. However, these methods often neglect fine-grained importance variations across feature dimensions (i...

ID: 2508.15212v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 VocabTailor: Dynamic Vocabulary Selection for Downstream Tasks in Small Language Models

2025-08-23

Авторы:

Hanling Zhang, Yayu Zhou, Tongcheng Fang, Zhihang Yuan, Guohao Dai, Yu Wang

## Контекст Small Language Models (SLMs) предлагают существенные выгоды в плане вычислительной эффективности для ресурсно-ограниченных сред, таких как edge devices. Однако они сталкиваются с значительным ограничением — ограниченным объемом памяти. Это ограничение особенно актуально для компонентов, связанных с семантическим представлением языка, таких как входные тензоры (embeddings) и модели языка (LM heads). Эти компоненты требуют большого объема памяти из-за великого размера словаря. Однако статическая оптимизация, например, pruning, часто приводит к утере информации и неэффективности в условиях реальных задач. В статье предлагается новый подход к динамическому управлению словарем, который адаптируется к конкретным задачам и устраняет недостатки статических методов. ## Метод Работа предлагает VocabTailor — новую систему динамического управления словарем, основывающуюся на двух ключевых принципах. Во-первых, **lexical locality principle**, подчеркивающий, что только малая часть словаря используется в каждом отдельном запросе. Во-вторых, **asymmetry in computational characteristics**, отражающий разные уровни сложности вычислений для разных частей словаря. VocabTailor предлагает декоупленную архитектуру, включающую: 1. **Dynamic Embedding Offloading**: возможность загружать в память только те части входных тензоров, которые требуются для конкретной задачи. 2. **Hybrid Static-Dynamic Vocabulary Selection**: стратегия, которая загружает только те части словаря, необходимые для конкретной задачи, во время выполнения. Эта система разработана с учетом того, чтобы обеспечить эффективность в ресурсно-ограниченных условиях, не ущемляя точность модели. ## Результаты Проведены ряд экспериментов для оценки эффективности VocabTailor на различных задачах, включая текстовый классификатор, трансформацию текста и генерацию текста. Использовались стандартные данные, такие как GLUE benchmark и собственные наборы данных для реальных приложений. Результаты показали, что VocabTailor достигает снижения потребления памяти в 99% для входных тензоров и в значительной степени для словарей LM Head, при этом сохраняя высокую точность модели. Был проведен анализ того, как динамическая система словарей позволяет уменьшить время исполнения и потребление памяти без значительного снижения качества решения задачи. ## Значимость VocabTailor внедряет новый подход к динамическому управлению ресурсами в моделях языка, который может быть применен в различных областях: 1. **Edge Devices**: обеспечение эффективности ресурсов для мобильных приложений и IoT-устройств. 2. **Resource-Constrained Environments**: перенос моделей языка на серверы с ограниченным объемом памяти. 3. **Flexibility and Adaptability**: разработка моделе

Annotation:

Small Language Models (SLMs) provide computational advantages in resource-constrained environments, yet memory limitations remain a critical bottleneck for edge device deployment. A substantial portion of SLMs' memory footprint stems from vocabulary-related components, particularly embeddings and language modeling (LM) heads, due to large vocabulary sizes. Existing static vocabulary pruning, while reducing memory usage, suffers from rigid, one-size-fits-all designs that cause information loss fr...

ID: 2508.15229v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model

2025-08-23

Авторы:

Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen

## Контекст Развитие больших спеech-language моделей (LSLMs) сталкивается с рядом проблем, включая разрозненные архитектуры, непрозрачность процесса обучения и невозможность повторного воспроизведения результатов. Эти проблемы затрудняют сравнение и репликацию исследований в этой области. В отличие от визуально-языковых моделей, в сфере speech-language широко распространена практика выпуска моделей с неполными данными обучения и непрозрачными конфигурациями. Для устранения этих проблем мы предлагаем LLaSO — первый полностью открытый и полностью доступный фреймворк для моделирования speech-language на большом масштабе. LLaSO предоставляет сообществу три ключевые ресурса: 1) LLaSO-Align — 12 миллионов записях спеech-text alignment; 2) LLaSO-Instruct — 13.5 миллионов записей для многозадачного тренирования; и 3) LLaSO-Eval — реплицируемый бенчмарк для стандартной оценки моделей. ## Метод Мы разработали LLaSO как полностью открытый фреймворк, который включает в себя следующие этапы: (1) Создание и открытие LLaSO-Align — крупномасштабного корпуса спеech-text alignment, покрывающего различные регионы и акценты. (2) Создание и открытие LLaSO-Instruct — многозадачного датасета для тренировки моделей на основе инструкций. (3) Разработка LLaSO-Eval — создание реплицируемого и прозрачного метода оценки моделей. Для подтверждения эффективности, мы выпустили LLaSO-Base — модель с 3.8 миллиардами параметров, обученную исключительно на открытых данных. ## Результаты Мы провести эксперименты, в ходе которых проанализировали различные аспекты LLaSO-Base. Модель была протестирована на нескольких задачах, включая потоковое распознавание речи, транскрипцию и синтез речи. Мы получили нормализованный результат 0.72, набираясь перед подобными моделями в своем классе. Наши результаты показали, что широкое покрытие обучения модели повышает ее общеуниверсальную производительность, но в случае с чисто аудиовыводом существуют существенные проблемы с generalization. Это открывает путь для последующих исследований в области достижения более высокой универсальности. ## Значимость LLaSO предлагает несколько значимых приложений: 1) Использование в научных исследованиях для построения более открытых и реплицируемых моделей. 2) Улучшение практик открытого образования в AI. 3) Продвижение совместных усилий в развитии новых алгоритмов. 4) Ускорение прогресса в решении задач многоязычного транскриптирования и распознавания речи. Этот фреймворк позволяет сообществу создавать и анализировать модели с более высокой прозрачностью и доступностью, что делает его ключевым инструментом для продвижения научных исследо

Annotation:

The development of Large Speech-Language Models (LSLMs) has been slowed by fragmented architectures and a lack of transparency, hindering the systematic comparison and reproducibility of research. Unlike in the vision-language domain, the LSLM field suffers from the common practice of releasing model weights without their corresponding training data and configurations. To address these critical gaps, we introduce LLaSO, the first fully open, end-to-end framework for large-scale speech-language m...

ID: 2508.15418v1 cs.CL, cs.AI, cs.LG, cs.MM, cs.SD

arXiv PDF

1
2
30
31
32
33
34
36
37

Показано 311 - 320 из 370 записей