Apertus: Democratizing Open and Compliant LLMs for Global Language Environments

2509.14233v1 cs.CL, cs.AI, cs.LG 2025-09-19
Авторы:

Alejandro Hernández-Cano, Alexander Hägele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank Ďurech, Ido Hakimi, Juan García Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabolčec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Ines Altemir Marinas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bösch, Maximilian Böther, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, María Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lübeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendoncça, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Léo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramèr, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag

Резюме на русском

## Контекст На данный момент, область развития бо LLM (large language models) стала центром внимания в сфере искусственного интеллекта, в связи с их перспективами в области технического прогресса, экономического роста и улучшения качества жизни. Несмотря на это, имеются значительные проблемы, включая несоответствие данных, приватность и недостаточное представление многоязычности. Открытая доступность моделей часто связана с недостатком транспарентности в их разработке, что может привести к проблемам соответствия, безопасности и этичного применения. Например, многие открытые модели либо не предоставляют доступ к данным использованию, либо не соблюдают права собственности и этичных норм при обработке данных. Эти аспекты порождают нужду в эффективных и этичных решениях, обеспечивающих соблюдение законов, глобальное представление языков и повышение безопасности. ## Метод Apertus — это полностью открытая система на основе LLM, разработанная для решения проблем несоответствия данных и недостаточного представления многоязычности в открытом экосистеме моделей. Модели Apertus тренируются только на открыто доступных данных, при этом учитываются права собственников контента, такие как robots.txt, и проводится фильтрация нежелательного, токсичного или личной информации. Для уменьшения риска запоминания данных во время обучения, во время этапа предварительной обучения использовалась целевая функция Goldfish, которая сильно подавляет возможность воспроизведения данных в подлинном виде, сохраняя при этом эффективность на задачах после обучения. Весь процесс разработки, включая скрипты подготовки данных, чекпоинты, методы оценки и коды обучения, доступны под лицензией с открытым исходным кодом, что обеспечивает прозрачность и возможность расширения. ## Результаты Apertus была протестирована на многоязычных задачах, использовавших данные из 1800 языков, что позволило достичь эффективных результатов. На момент выпуска, модели Apertus показали результаты, приближающиеся к состоянию технологии (SOTA) в многоязычных задачах, сравниваясь с другими открытыми моделями, и в некоторых случаях превосходя их. Эти результаты были достигнуты благодаря особенной архитектуре модели и стратегии обучения, которые позволяют поддерживать качество выполнения задач, одновременно стремясь к соблюдению норм соответствия и защиты конфиденциальности. ## Значимость Решение, представленное в Apertus, может быть применено в различных сферах, включая образовательные технологии, перевод, разработку контента и даже охрану прав человека в цифровых средах. Одним из основных преимуществ является полная открытост

Abstract

We present Apertus, a fully open suite of large language models (LLMs) designed to address two systemic shortcomings in today's open model ecosystem: data compliance and multilingual representation. Unlike many prior models that release weights without reproducible data pipelines or regard for content-owner rights, Apertus models are pretrained exclusively on openly available data, retroactively respecting robots.txt exclusions and filtering for non-permissive, toxic, and personally identifiable content. To mitigate risks of memorization, we adopt the Goldfish objective during pretraining, strongly suppressing verbatim recall of data while retaining downstream task performance. The Apertus models also expand multilingual coverage, training on 15T tokens from over 1800 languages, with ~40% of pretraining data allocated to non-English content. Released at 8B and 70B scales, Apertus approaches state-of-the-art results among fully open models on multilingual benchmarks, rivalling or surpassing open-weight counterparts. Beyond model weights, we release all scientific artifacts from our development cycle with a permissive license, including data preparation scripts, checkpoints, evaluation suites, and training code, enabling transparent audit and extension.

Ссылки и действия