📚 Саммари научных статей из arXiv

Найдено 370 результатов по запросу 'cs.CL, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Reveal and Release: Iterative LLM Unlearning with Self-generated Data

2025-09-20

Авторы:

Linxi Xie, Xin Teng, Shichang Ke, Hongyi Wen, Shengjie Wang

#### Контекст В последние годы появилось много методов удаления влияния нежелательных данных (также называемых данными для забывания) из больших языковых моделей (LLM). Эти методы используются для обеспечения конфиденциальности данных, соблюдения законов об авторском праве и улучшения моделей. Однако существуют две ключевые проблемы. Во-первых, данные для забывания часто являются конфиденциальными, редкими или подчиненными закону, что делает их дорогими и сложными в получении. Во-вторых, данные для забывания могут не соответствовать их представлению внутри модели, что создает проблемы для эффективного удаления. Эти проблемы подчеркивают необходимость развития более продвинутых методов удаления. #### Метод Мы предлагаем метод "Reveal-and-Release", который использует самостоятельно сгенерированные данные для удаления влияния нежелательных данных. Этот метод работает в два этапа: "Reveal" и "Release". В первом этапе мы используем оптимизированные инструкции для того, чтобы модель "раскрыла" всю информацию, которую она знает о нежелательных данных. Во втором этапе мы создаем и используем итеративный фреймворк для удаления, в котором вносятся малые изменения в веса модели с помощью параметр-эффективных модулей, обученных на самостоятельно сгенерированных данных. Этот подход позволяет использовать самостоятельно сгенерированные данные эффективнее, при этом сохраняя качество и удобство использования модели. #### Результаты Мы провели эксперименты для оценки качества и эффективности нашего подхода. Данные для этих экспериментов были получены из различных источников, включая текстовые базы, имитирующие реальные сценарии использования. Мы сравнили нашу методику с несколькими существующими методами удаления. Результаты показали, что наш подход дает лучший баланс между удалением нежелательной информации и сохранением качества работы модели. Мы также провели анализ того, как различные параметры влияют на результат, что дает нам гибкость в настройке метода для различных сценариев. #### Значимость Метод "Reveal-and-Release" может применяться в различных областях, где необходимо удаление конфиденциальных данных, таких как защита личных данных, соблюдение законов об авторском праве, и улучшение моделей. Он предоставляет несколько преимуществ по сравнению с существующими методами, включая эффективность, точность и гибкость. Этот подход может быть использован в приложениях, где требуется максимальная конфиденциальность данных или где данные для забывания сложно получить. Мы также увидели, что наш метод может быть применен в различных типах моделей LLM, что делает его широко применимым. #### Выводы О

Annotation:

Large language model (LLM) unlearning has demonstrated effectiveness in removing the influence of undesirable data (also known as forget data). Existing approaches typically assume full access to the forget dataset, overlooking two key challenges: (1) Forget data is often privacy-sensitive, rare, or legally regulated, making it expensive or impractical to obtain (2) The distribution of available forget data may not align with how that information is represented within the model. To address these...

ID: 2509.14624v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding

2025-09-20

Авторы:

Xiaobo Xing, Wei Yuan, Tong Chen, Quoc Viet Hung Nguyen, Xiangliang Zhang, Hongzhi Yin

## Контекст Моделирование семантической и структурной информации из табличных данных является основной сложностью в области табличного понимания. Обычно используются два подхода: Table-as-Text, который преобразует таблицу в текст для обработки большими языковыми моделями (LLMs), и Table-as-Image, который сохраняет структуру таблицы в виде изображения для обработки глубокими нейронными сетями. Несмотря на эти подходы, Table-as-Text теряет важные структурные сведения, тогда как Table-as-Image сталкивается с трудностями в моделировании тонких семантических оттенков. Недавние Table-as-Multimodality-стратегии стремятся объединить текстовый и визуальный подходы, но их работа требует дорогостоящего гибернационного онтотренирования больших табличных моделей. Это затрудняет их применение в реальном мире. Для решения этих проблем мы предлагаем TableDART, фреймворк, который эффективно интегрирует текстовые и визуальные репрезентации таблиц, используя тренированные модели одиночной модальности, уменьшая при этом затраты на ресурсы. ## Метод TableDART предлагает новую стратегию для динамического мультимодального маршрутинга в табличном понимании. Основным элементом является лайтвариант MLP-сеть с 2.59M параметрами, которая динамически выбирает оптимальный маршрут для каждой пары таблица-запрос: либо обработка только текста, либо только изображения, либо их синтез. Эта сеть эффективно устраняет ненужные повторы и конфликты, возникающие при статической обработке модальностей. Кроме того, мы предлагаем новую агентскую модель, которая анализирует выводы от текстовой и визуальной моделей, выбирая лучший из них или синтезируя новый ответ с помощью рассуждений. Эта концепция позволяет избежать дорогостоящих онтотренировок больших моделей, улучшая эффективность и точность. ## Результаты Мы проверили TableDART на семи бенчмарках, включая общие и специализированные табличные данные. Результаты показывают, что TableDART достигает нового состояния искусства среди открытых моделей, превосходя стройную базу средней по 4.02%. Это достигается благодаря эффективному использованию предварительно обученных моделей и динамическому маршрутингу, который уменьшает затраты на вычисления и улучшает точность результатов. ## Значимость TableDART может быть применен в различных областях, таких как банковские системы, биология, экономика и другие, где табличные данные являются ключевым источником информации. Он предлагает более эффективный и точный подход к табличному пониманию, уменьшая затраты на ресурсы и улучшая качество

Annotation:

Modeling semantic and structural information from tabular data remains a core challenge for effective table understanding. Existing Table-as-Text approaches flatten tables for large language models (LLMs), but lose crucial structural cues, while Table-as-Image methods preserve structure yet struggle with fine-grained semantics. Recent Table-as-Multimodality strategies attempt to combine textual and visual views, but they (1) statically process both modalities for every query-table pair within a ...

ID: 2509.14671v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Patent Language Model Pretraining with ModernBERT

2025-09-20

Авторы:

Amirhossein Yousefiramandi, Ciaran Cooney

## Контекст Патентные документы являются ключевым источником информации для технологического прогресса и анализа технических областей. Однако, по сравнению с общеупотребительным текстом, патентные документы обладают уникальными характеристиками: они характеризуются длинными, техническими, легально структурированными фрагментами текста. Нейронные модели направленные на общий язык (такие как BERT) имеют проблемы при применении к таким документам, поскольку недостаточно приспособлены для успешного понимания такой специализированной лексики и структуры. Таким образом, существует необходимость в разработке моделей, которые бы специализировались в обработке патентной лексики, обеспечивая более высокую точность и эффективность в патентном НЛП. ## Метод Для решения этих проблем была разработана модель ModernBERT, ориентированная на патентный домен. Модель основывается на архитектуре Transformer и использует ансамбль из трех моделей различного размера: base-PT, base-VX и large. Модели были обучены с помощью около 60 миллионов патентных документов, которые были аккуратно подготовлены для учебного процесса. В качестве оптимизаций внедрены техники, такие как FlashAttention, rotary embeddings и GLU feed-forward layers, чтобы повысить производительность и эффективность моделей. Для оценки производительности были выбраны четыре задачи классификации патентных документов. ## Результаты Проведенные эксперименты показали, что модель ModernBERT-base-PT овладевает трех из четырех датасетов более эффективно, чем генеральная модель ModernBERT. Также были получены доказательства того, что модели ModernBERT-base-VX и Mosaic-BERT-large показали высокую точность на определенных задачах, особенно при увеличении размера модели и использовании настраиваемых токенизаторов. Область применения моделей охватывает многочисленные аспекты патентного НЛП, включая классификацию, тегирование и поиск аналогов. Эти модели обладают высокой производительностью и могут быть применены в задачах, требующих быстрого реагирования. ## Значимость Результаты этих исследований демонстрируют значительные преимущества данной модели в специализированной области НЛП. Она позволяет повысить точность и эффективность анализа патентных документов, что полезно в таких областях, как технологический мониторинг, юридический анализ и инновационное развитие. Благодаря настраиваемой архитектуре и оптимизациям модель ModernBERT подходит для время от времени выполнения задач, что делает ее эффективной для ряда практических приложений. ## Выводы Результаты показывают, что domain-specific pretraining и архитектурные усовершенствования значительно повышают эффективно

Annotation:

Transformer-based language models such as BERT have become foundational in NLP, yet their performance degrades in specialized domains like patents, which contain long, technical, and legally structured text. Prior approaches to patent NLP have primarily relied on fine-tuning general-purpose models or domain-adapted variants pretrained with limited data. In this work, we pretrain 3 domain-specific masked language models for patents, using the ModernBERT architecture and a curated corpus of over 6...

ID: 2509.14926v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning

2025-09-20

Авторы:

Yeongbin Seo, Dongha Lee, Jaehyung Kim, Jinyoung Yeo

#### Контекст Существующие модели языка, основанные на авторегрессионной архитектуре (AR), генерируют текст по одному токену за раз. Это ограничивает их скорость инференса и приводит к неэффективности при больших объемах генерируемых данных. Одновременно, модели на основе диффузионного подхода (diffusion) позволяют проводить параллельную генерацию нескольких токенов, что обеспечивает повышенную скорость и параллелизм. Однако в существующих диффузионных моделях языка существует ключевая проблема — так называемый "long decoding-window problem", когда токены, генерируемые далеко от контекста входных данных, либо являются не относящимися к контексту, либо повторяются. Эта проблема ограничивает качество и скорость моделей. Нашим целью является исследование новых методов, улучшающих производительность диффузионных моделей языка, сохраняя их преимущества в скорости и параллелизме. #### Метод Для решения проблемы "long decoding-window problem" мы предлагаем два основных метода: **Convolutional Decoding (Conv)** и **Rejecting Rule-based Fine-Tuning (R2FT)**. **Conv** нормализует процесс генерации, уменьшая окно генерации токенов без жесткого разбиения на блоки. Это позволяет сохранить гармонию в тексте, повысить его целостность и сократить время генерации. **R2FT** — постобучение, предназначенное для точного выравнивания токенов, которые находятся далеко от контекста. Этот подход улучшает точность генерируемых моделями данных и их адекватность контексту. Мы использовали архитектуру базирующуюся на нейронных сетях, которая объединяет эти два метода для получения максимального эффекта. #### Результаты Мы провели эксперименты на открытых бенчмарках, таких как AlpacaEval. Результаты показали, что наш подход дает значительные улучшения как в скорости генерации, так и в качестве. Модель, использующая Conv и R2FT, демонстрирует значительно более высокую скорость генерации, чем существующие диффузионные модели, при этом сохраняя высокую точность и гармонию текста. Была достигнута лучшая скорость генерации с сохранением качества, что демонстрирует преимущества нашего подхода по сравнению с другими методами. #### Значимость Наш подход может быть применен в различных областях, где необходима быстрая и качественная генерация языка, например, в синтезе речи, в генерации текста для конкретных приложений, в области трансляции, и др. Он предоставляет два значительных преимущества: увеличение скорости и качества генерации, позволяя применять модели диффузионной генерации в реальном времени. Мы планируем продолжить работу над улучшением этих методов, особенно в

Annotation:

Autoregressive (AR) language models generate text one token at a time, which limits their inference speed. Diffusion-based language models offer a promising alternative, as they can decode multiple tokens in parallel. However, we identify a key bottleneck in current diffusion LMs: the long decoding-window problem, where tokens generated far from the input context often become irrelevant or repetitive. Previous solutions like semi-autoregressive address this issue by splitting windows into blocks...

ID: 2509.15188v1 cs.CL, cs.AI, cs.LG, 68T50, I.2.7

arXiv PDF

📄 Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency

2025-09-19

Авторы:

Colin Hong, Xu Guo, Anand Chaanan Singh, Esha Choukse, Dmitrii Ustiugov

## Контекст Исследования в области обучения глубоким сетям становятся все более актуальными в связи с повышением спроса на эффективные и быстрые методы обработки информации. Одним из актуальных направлений является улучшение реального времени ответа Large Language Models (LLM), чтобы они могли быстрее и точнее решать сложные задачи. Одной из популярных техник, которая получила внимание в этой области, является Self-Consistency (SC). SC использует множество параллельных цепочек рассуждений и выбирает решение на основе голосования большинством. Хотя SC показала себя эффективной, её значительная вычислительная стоимость ограничивает широкое развёртывание в реальном времени. Необходимо разработать более эффективные стратегии, которые сохранят эффективность SC, но снимут свои ограничения по ресурсам. ## Метод Мы разработали новую методику Slim-SC, основанную на анализе интер-цепочечной схожести в рассуждениях. Slim-SC использует стратегию шага по шагу позволяющую удалить ненужные рассуждения, оставив только самые важные. Мы проводили анализ теоретических неэффективностей SC и использовали эмпирические данные для проверки наших выводов. Наша методика включает в себя техники, которые позволяют уменьшить вычислительный оверхед, не уменьшая точности решений. Мы применили Slim-SC к трём STEM-датасетам и двум LLM-архитектурам, чтобы проверить её эффективность. ## Результаты Наши эксперименты показали, что Slim-SC эффективно уменьшает latency и количество вычислительных операций (KVC) до 45% при использовании R1-Distill, при этом сохраняя или даже улучшая точность решений. Это демонстрирует что Slim-SC является простым, но эффективным аналогом SC в случае решения STEM-задач. Мы также показали, что наши результаты могут быть расширены для других LLM-архитектур, что делает Slim-SC широко применимым в ситуациях, где необходима высокая эффективность и скорость работы. ## Значимость Этот подход может быть применён в различных областях, где требуется быстрая и эффективная обработка текста, таких как NLP, решение STEM-задач и даже в сфере машинного обучения. Slim-SC не только уменьшает вычислительные затраты, но и улучшает производительность моделей в реальном времени. Это открывает новые возможности для развития моделей LLM, в том числе в ситуациях, где ресурсы ограничены и необходима высокая производительность. ## Выводы Мы доказали, что Slim-SC является эффективным альтернативным подходом к Self-Consistency, который снимает препятствия, связанные с высоким потреблением ресурсов, при этом сохраняя точность решений. В дальнейшем нам предстоит расширить нашу мето

Annotation:

Recently, Test-Time Scaling (TTS) has gained increasing attention for improving LLM reasoning performance at test time without retraining the model. A notable TTS technique is Self-Consistency (SC), which generates multiple reasoning chains in parallel and selects the final answer via majority voting. While effective, the order-of-magnitude computational overhead limits its broad deployment. Prior attempts to accelerate SC mainly rely on model-based confidence scores or heuristics with limited e...

ID: 2509.13990v1 cs.CL, cs.AI, cs.LG, I.2.7

arXiv PDF

📄 Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale

2025-09-19

Авторы:

Hasan Abed Al Kader Hammoud, Mohammad Zbeeb, Bernard Ghanem

## Контекст В последние годы естественнозная обработка текстов (NLP) получила значительный уклад, особенно в области перевода и управляемых инструкций. Однако, несмотря на эти успехи, тексты на арабском языке, одного из широко используемых в мире языков, по-прежнему имеют ограниченное представление в масштабных моделях. Это связано с расширением арабского языка, сложной морфологией и наличием многочисленных диалектов. Отсутствие доступных текстовых ресурсов и сложности предобученных моделей, приспособленных к арабскому языку, далеко не всегда удовлетворяют потребности пользователей и разработчиков. Для решения этих проблем, авторы предлагают Hala, семейство моделей, которые предназначены для работы с арабским языком на разных уровнях. ## Метод Hala был построен с помощью пайплайна "перевод и тюнинг" (translate-and-tune). Модели AR$\leftrightarrow$EN были сжаты до FP8, что привело к увеличению пропускной способности в два раза без потери качества. Эта сжатая модель использовалась для генерации высококачественных билингвальных данных для тренировки. Далее, лёгкая модель лексического моделирования LFM2-1.2B была настроена на эти данные, чтобы переводить высококачественные английские инструкции в арабский язык. Это позволило получить миллион-класс корпуса, приспособленного для обучения моделей, способных выполнять инструкции. Модели Hala были обучены в весах 350M, 700M, 1.2B и 9B параметров. Для улучшения баланса между специализацией на арабский язык и прочностью основной модели была применена техника смешивания (slerp merging). ## Результаты Модели Hala были протестированы на нескольких арабских бенчмарках, и они показали сверхудшие результаты как в категории "неньо" (малые модели $\leq$ 2B параметров), так и в категории "малого размера" (7-9B параметров). Модели Hala не только превзошли основные модели, на которых они основывались, но и достигли состояния лидера в своей области. Эти результаты свидетельствуют о том, что Hala может значительно повысить эффективность обработки текстов на арабском языке. ## Значимость Hala может применяться в различных областях, включая перевод, арабско-центрическую обработку текстов и инструкционный поиск. Она обеспечивает более точную и эффективную обработку текстов, что может быть полезно для разработчиков, ученых и пользователей, которые работают с арабским языком. Эта модель также открывает новые возможности для развития моделей, ориентированных на поддержку разных языков, включая недостаточно исследованные. ## Выводы Hala является первым набором мо

Annotation:

We present Hala, a family of Arabic-centric instruction and translation models built with our translate-and-tune pipeline. We first compress a strong AR$\leftrightarrow$EN teacher to FP8 (yielding $\sim$2$\times$ higher throughput with no quality loss) and use it to create high-fidelity bilingual supervision. A lightweight language model LFM2-1.2B is then fine-tuned on this data and used to translate high-quality English instruction sets into Arabic, producing a million-scale corpus tailored to ...

ID: 2509.14008v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 You Are What You Train: Effects of Data Composition on Training Context-aware Machine Translation Models

2025-09-19

Авторы:

Paweł Mąka, Yusuf Can Semerci, Jan Scholtes, Gerasimos Spanakis

Многократный улучшение качества контекстно-ориентированного перевода требует эффективного использования контекста, что позволит решать задачи, например, разрешения переменных. Данная работа проверяет гипотезу о том, что недостаточная представленность контекстно-богатых примеров в учебных данных является основным фактором затруднения этого процесса. Авторы систематически оценили эту гипотезу в одноязычных и многоязычных условиях, управляя пропорцией контекстных примеров в обучающих данных. Они показали, что увеличение контекстно-релевантных примеров сильно связано с улучшением моделей, что подтверждает эту проблему как ключевую ограничение. Однако улучшения в одном контекстном аспекте не обычно обобщаются на другие. Межязычный перевод показал незначительную преимущественность для языков одной подгруппы. Выводы: Разработаны и проверены два метода, улучшающих обучение, что приводит к повышению точности до 6-8 баллов в ctxPro-тесте в одноязычных и многоязычных условиях.

Annotation:

Achieving human-level translations requires leveraging context to ensure coherence and handle complex phenomena like pronoun disambiguation. Sparsity of contextually rich examples in the standard training data has been hypothesized as the reason for the difficulty of context utilization. In this work, we systematically validate this claim in both single- and multilingual settings by constructing training datasets with a controlled proportions of contextually relevant examples. We demonstrate a s...

ID: 2509.14031v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Synthesizing Behaviorally-Grounded Reasoning Chains: A Data-Generation Framework for Personal Finance LLMs

2025-09-19

Авторы:

Akhil Theerthala

## Контекст Одним из ключевых вопросов в области искусственных нейронных сетей является развитие моделей, способных эффективно решать задачи в области финансового планирования. На сегодняшний день существуют модели, которые могут давать финансовые рекомендации, оптимизировать бюджеты или анализировать денежные потоки, но они либо требуют высокой стоимости обучения, либо не учитывают цели и особенности пользователя. Из-за этого есть необходимость в развитии более персонализированных моделей, которые могут учитывать такие факторы, как личные цели, ограничения, риск-толерерантность и юридический контекст. В статье представлен фреймворк, который объединяет финансовую область и психологические характеристики пользователя для создания данных, необходимых для тренировки моделей. ## Метод В этом исследовании предлагается фреймворк, который использует методы глубокого обучения для создания данных, которые могут использоваться для обучения моделей финансового генеративного моделирования. Основной идеей является интеграция финансовой контекстной информации с поведенческими моделями, чтобы формировать подходящие входные данные для моделей. Для этого используется парадигма сгенерированных данных, которая позволяет моделям решать задачи, связанные с финансовым планированием или бюджетированием. Такая модель способна предсказывать решения, которые будут гораздо более точными, чем те, которые генерируются без учета контекста. Эта модель также позволяет снизить затраты на обучение сетей, так как она требует меньше данных и ресурсов для обучения. ## Результаты Для проверки работы предложенного фреймворка был создан 19 к больших данных с примерами решения задач финансового планирования. Эти данные были использованы для обучения модели Qwen-3-8B. Также проведены эксперименты, в ходе которых была проверена модель на задаче решения финансовых проблем пользователей. В результате получено, что модель Qwen-3-8B, обученная на этом датасете, показала хорошие результаты в плане точности, грамматической функциональности и персонализации ответов. Модель показала себя на уровне с моделями, имеющими значительно большие параметры (14-32B), но с меньшей стоимостью обучения. ## Значимость Предложенный фреймворк может быть применен в различных сферах, где необходимо отвечать на финансовые вопросы, таких как бюджетирование, оптимизация затрат, дебт-менеджмент, пенсионное планирование и т.д. Модель показывает высокую точность и персонализацию ответов, что делает ее привлекательной для широкого круга пользователей. Благодаря этой модели можно создавать более эффективные и пер

Annotation:

Personalized financial advice requires consideration of user goals, constraints, risk tolerance, and jurisdiction. Prior LLM work has focused on support systems for investors and financial planners. Simultaneously, numerous recent studies examine broader personal finance tasks, including budgeting, debt management, retirement, and estate planning, through agentic pipelines that incur high maintenance costs, yielding less than 25% of their expected financial returns. In this study, we introduce a...

ID: 2509.14180v1 cs.CL, cs.AI, cs.LG, 68T50, I.2.7; J.4

arXiv PDF

📄 Apertus: Democratizing Open and Compliant LLMs for Global Language Environments

2025-09-19

Авторы:

Alejandro Hernández-Cano, Alexander Hägele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank Ďurech, Ido Hakimi, Juan García Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabolčec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Ines Altemir Marinas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bösch, Maximilian Böther, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, María Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lübeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendoncça, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Léo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramèr, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag

## Контекст На данный момент, область развития бо LLM (large language models) стала центром внимания в сфере искусственного интеллекта, в связи с их перспективами в области технического прогресса, экономического роста и улучшения качества жизни. Несмотря на это, имеются значительные проблемы, включая несоответствие данных, приватность и недостаточное представление многоязычности. Открытая доступность моделей часто связана с недостатком транспарентности в их разработке, что может привести к проблемам соответствия, безопасности и этичного применения. Например, многие открытые модели либо не предоставляют доступ к данным использованию, либо не соблюдают права собственности и этичных норм при обработке данных. Эти аспекты порождают нужду в эффективных и этичных решениях, обеспечивающих соблюдение законов, глобальное представление языков и повышение безопасности. ## Метод Apertus — это полностью открытая система на основе LLM, разработанная для решения проблем несоответствия данных и недостаточного представления многоязычности в открытом экосистеме моделей. Модели Apertus тренируются только на открыто доступных данных, при этом учитываются права собственников контента, такие как robots.txt, и проводится фильтрация нежелательного, токсичного или личной информации. Для уменьшения риска запоминания данных во время обучения, во время этапа предварительной обучения использовалась целевая функция Goldfish, которая сильно подавляет возможность воспроизведения данных в подлинном виде, сохраняя при этом эффективность на задачах после обучения. Весь процесс разработки, включая скрипты подготовки данных, чекпоинты, методы оценки и коды обучения, доступны под лицензией с открытым исходным кодом, что обеспечивает прозрачность и возможность расширения. ## Результаты Apertus была протестирована на многоязычных задачах, использовавших данные из 1800 языков, что позволило достичь эффективных результатов. На момент выпуска, модели Apertus показали результаты, приближающиеся к состоянию технологии (SOTA) в многоязычных задачах, сравниваясь с другими открытыми моделями, и в некоторых случаях превосходя их. Эти результаты были достигнуты благодаря особенной архитектуре модели и стратегии обучения, которые позволяют поддерживать качество выполнения задач, одновременно стремясь к соблюдению норм соответствия и защиты конфиденциальности. ## Значимость Решение, представленное в Apertus, может быть применено в различных сферах, включая образовательные технологии, перевод, разработку контента и даже охрану прав человека в цифровых средах. Одним из основных преимуществ является полная открытост

Annotation:

We present Apertus, a fully open suite of large language models (LLMs) designed to address two systemic shortcomings in today's open model ecosystem: data compliance and multilingual representation. Unlike many prior models that release weights without reproducible data pipelines or regard for content-owner rights, Apertus models are pretrained exclusively on openly available data, retroactively respecting robots.txt exclusions and filtering for non-permissive, toxic, and personally identifiable...

ID: 2509.14233v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Multi-Model Synthetic Training for Mission-Critical Small Language Models

2025-09-18

Авторы:

Nolan Platt, Pragyansmita Nayak

#### Контекст Large Language Models (LLMs) проявляют выдающиеся возможности во многих областях, однако их применение в специализированных сферах становится ограниченным из-за ограниченности доступных данных и высокой сложности их обработки. Мы предлагаем новую подходящую стратегию, которая сокращает стоимость применения LLMs в области морской интеллектуальной деятельности в 261 раз, используя LLMs как однократные преподаватели, а не непосредственно для инференса. Наш метод превращает 3,2 миллиарда записей Automatic Identification System (AIS) по отслеживанию судоходства в 21 543 синтетических пар вопроса и ответа с помощью мультимодельного генерирования (GPT-4o и o3-mini), избегая переобучения и обеспечивая точное обоснование. Настроенный на эти данные Qwen2.5-7B модель достигает 75% точности в задачах морской интеллектуальной деятельности, в то же время значительно дешевле, чем использование более крупной модели для инференса. Мы доказываем, что меньшие и дешевле модели, когда они правильно настраиваются, могут показать точность, которая не уступает более крупным моделям, которые являются просто неосуществимыми из-за стоимости. Наше исследование добавляет новый раздел в растущей области синтетических наборов данных для специализированных моделей языкового моделирования и предлагает простой фреймворк для областей, где ручное описание невозможно. #### Метод Мы использовали 3,2 миллиарда записей Automatic Identification System (AIS) для построения синтетических данных. Эти записи были процессированы и преобразованы в 21 543 синтетических вопросов и ответов с помощью мультимодельного генерирования. Для этого применялись две модели: GPT-4о для создания более широкого контекста и o3-mini для точного внимательного анализа. Этот процесс помог избежать переобучения и обеспечить четкость и точность ответа. Затем мы использовали настроенную модель Qwen2.5-7B для выполнения задач морской интеллектуальной деятельности. Мы также проанализировали производительность и стоимость этого подхода в сравнении с использованием более крупных моделей для инференса. Этот процесс демонстрирует, как мультимодельное генерирование может быть использовано для создания производительных синтетических данных, чтобы обучить более эффективные модели для специализированных задач. #### Результаты Мы сравнили нашу методику с использованием более крупных моделей для инференса на задачах морской интеллектуальной деятельности. Наша модель Qwen2.5-7B, настроенная на синтетические данные, достигла 75% точности, что идентично или слегка превышает результаты более крупных моделей, но с значительной экономией затра

Annotation:

Large Language Models (LLMs) have demonstrated remarkable capabilities across many domains, yet their application to specialized fields remains constrained by the scarcity and complexity of domain-specific training data. We present a novel approach that achieves a 261x cost reduction for maritime intelligence by using LLMs as one-time teachers rather than using them directly for inference. Our method transforms 3.2 billion Automatic Identification System (AIS) vessel tracking records into 21,543...

ID: 2509.13047v1 cs.CL, cs.AI, cs.LG, 68T50 68T50, I.2.7; I.2.6

arXiv PDF

1
2
25
26
27
28
29
36
37

Показано 261 - 270 из 370 записей