📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Learning Dynamics of Meta-Learning in Small Model Pretraining

2025-08-09

Авторы:

David Demitri Africa, Yuval Weiss, Paula Buttery, Richard Diehl Martinez

Многопараметрические языковые модели показали свою мощь в адаптации к различным задачах, но их обучение требует больших ресурсов. Работа рассматривает возможность использования методов мета-обучения для улучшения обучения небольших языковых моделей, делая этот процесс эффективнее и интерпретируемым. Авторы интегрировали первый порядок Метода Моментов Фибоначчи (MAML) с маскированным подмножеством обучения на основе сабсета (subset-masked LM pretraining), создав четыре модели стиля LLama с 11–570 млн параметров. Они проверили эти модели на задаче многоязычного распознавания названий сущностей (NER). Результаты показали, что модели не только достигают одинаковой точности за меньшее время, но и показывают лучший результат в многоязычной NER. Обучение моделей проходит в два этапа: распространение (размазывание) представлений, за которым следует сжатие (компрессия) в более узкое пространство, что отражается в изменении кривых эффективного ранга и энтропии внимания. Эти динамики дают компактный и легко читаемый обзор мета-адаптации модели.

Annotation:

Large language models are powerful but costly. We ask whether meta-learning can make the pretraining of small language models not only better but also more interpretable. We integrate first-order MAML with subset-masked LM pretraining, producing four LLama-style decoder-only models (11M-570M params), and evaluate it on a fundamental NLP task with many settings and real-world applications. Compared with vanilla training, our model (i) reaches the same loss up to 1.6x sooner, (ii) improves F1 on m...

ID: 2508.02189v1 cs.CL, cs.AI

arXiv PDF

📄 Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

2025-08-09

Авторы:

Yuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou

**Резюме** В статье представлен Seed Diffusion Preview — большой языковой модель на основе диффузионного принципа с дискретными состояниями, которая обеспечивает высокую скорость осуществления. Несостоятельность последовательного генерирования, присущая традиционным токен-бай-токен алгоритмам, приводит к заметному замедлению работы. Дискретные модели диффузии устраняют эту проблему, обеспечивая параллельное генерирование, а Seed Diffusion Preview улучшает эти возможности. Она достигает скорости 2,146 токенов/с на GPU H20, оставаясь конкурентоспособной по результатам эвалидации на классических кодевалле-бенчмарках. Это значительно превосходит Mercury и Gemini Diffusion, устанавливая новый рекорд по скорости-качеству на спектре текущих моделей. Таким образом, Seed Diffusion Preview демонстрирует передовой подход к решению проблемы производительности в моделях языкового понимания.

Annotation:

We present Seed Diffusion Preview, a large-scale language model based on discrete-state diffusion, offering remarkably fast inference speed. Thanks to non-sequential, parallel generation, discrete diffusion models provide a notable speedup to mitigate the inherent latency of token-by-token decoding, as demonstrated recently (e.g., Mercury Coder, Gemini Diffusion). Seed Diffusion Preview achieves an inference speed of 2,146 token/s over H20 GPUs while maintaining competitive performance across a ...

ID: 2508.02193v1 cs.CL, cs.LG

arXiv PDF

📄 Proof2Hybrid: Automatic Mathematical Benchmark Synthesis for Proof-Centric Problems

2025-08-09

Авторы:

Yebo Peng, Zixiang Liu, Yaoming Li, Zhizhuo Yang, Xinye Xu, Bowen Ye, Weijun Yuan, Zihan Wang, Tong Yang

Оценка математических способностей бо LLM-систем является ключевым, но сложным заданием, усложненным недостатком релевантных бенчмарков, особенно для задач с центральной ролью доказательств. Традиционное ручное создание таких бенчмарков несравненно трудоемко и дорогостояще. В статье предлагается Proof2Hybrid — первый автоматизированный фреймворк, конвертирующий натурные тексты в математические доказательства в высококачественные проблемы, легко проверяемые. Основа фреймворка — Proof2X, который предлагает перевод доказательств в новый вид вопросов — “$m$-из-$n$ множественных судьи”, улучшающий точность и устойчивость к тривиальным ответам. Авторы представили AlgGeoTest — бенчмарк в сложной области алгебраической геометрии с 456 вопросами. Исследования на новейших LLM-системах показали значительные пробелы в их математическом понимании. Этот подход открывает путь к развитию исследований в области AI-математического здравомыслия.

Annotation:

Evaluating the mathematical capability of Large Language Models (LLMs) is a critical yet challenging frontier. Existing benchmarks fall short, particularly for proof-centric problems, as manual creation is unscalable and costly, leaving the true mathematical abilities of LLMs largely unassessed. To overcome these barriers, we propose Proof2Hybrid, the first fully automated framework that synthesizes high-quality, proof-centric benchmarks from natural language mathematical corpora. The key novelt...

ID: 2508.02208v2 cs.CL, cs.AI

arXiv PDF

📄 LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

2025-08-09

Авторы:

Yike Zhang, Zhiyuan He, Huiqiang Jiang, Chengruidong Zhang, Yuqing Yang, Jianyong Wang, Lili Qiu

Large language models (LLMs) обеспечивают высокую эффективность для задач с длинным контекстом, однако сталкиваются с проблемами эффективности в связи с быстрым увеличением размера ключ-значение (KV) кэша. Предлагаемое решение — LeanK: Learnable K Cache Channel Pruning — — метод, основанный на технике канальной сжатия KV-кэша, использующий новшество двухэтапной обучаемой сжимаемости. LeanK удаляет незначительные канали K-кэша с помощью чистого обучения и удовлетворяет требованиям к статической сжимаемости и аппаратной алгоритмичности. Для повышения производительности включена пользовательская шина аттенции, которая обеспечивает до 70% снижения размера K-кэша и ускорение обработки в 1,3 раза. На основе экспериментов показано, что LeanK эффективно улучшает время выполнения LLM в задачах с длинным контекстом, не приводя к потере точности. Анализ также дает понимание влияния подхода на модельные каналы и заголовки аттенции во время работы с длинным контекстом. Детали реализации доступны по адресу https://aka.ms/LeanK.

Annotation:

Large language models (LLMs) enable long-context tasks but face efficiency challenges due to the growing key-value (KV) cache. We propose LeanK, a learning-based method that prunes unimportant key (K) cache channels by leveraging static channel sparsity. With a novel two-stage training process, LeanK learns channel-wise static mask that could satisfy specific sparsity ratio and hardware alignment requirement. LeanK reduces GPU memory and accelerates decoding without sacrificing accuracy. Experim...

ID: 2508.02215v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Isolating Culture Neurons in Multilingual Large Language Models

2025-08-09

Авторы:

Danial Namazifard, Lukas Galke

**Резюме** В данной работе исследуется вопрос о том, как и где многоязычные большие языковые модели (LLM) хранят информацию о культуре. Авторы расширяют существующую методологию, нацеленную на выявление языково-специфичных нейронов, для изоляции культурно-специфичных нейронов, а также изучают их взаимодействие с языковыми нейронами и культурными нейронами других языков. Для экспериментов разработан корпус MUREL, содержащий 85.2 миллиона токенов из шести культурных групп. Исследования по localizу и воздействию показали, что нейроны, отвечающие за культуру, расположены в верхних слоях LLMs и могут быть изменены независимо от языковых и культурных нейронов других языков. Эти результаты подтверждают возможность выборочного извлечения и редактирования культурной информации в LLM, что может способствовать созданию более справедливых, включающих и адекватных моделей. Данные и код доступны по адресу https://github.com/namazifard/Culture_Neurons.

Annotation:

Language and culture are deeply intertwined, yet it is so far unclear how and where multilingual large language models encode culture. Here, we extend upon an established methodology for identifying language-specific neurons and extend it to localize and isolate culture-specific neurons, carefully disentangling their overlap and interaction with language-specific neurons. To facilitate our experiments, we introduce MUREL, a curated dataset of 85.2 million tokens spanning six different cultures. ...

ID: 2508.02241v1 cs.CL

arXiv PDF

📄 Interference Matrix: Quantifying Cross-Lingual Interference in Transformer Encoders

2025-08-09

Авторы:

Belen Alastruey, João Maria Janeiro, Alexandre Allauzen, Maha Elbayad, Loïc Barrault, Marta R. Costa-jussà

В статье представлено исследование сосредоточенное на изучении перекрестного влияния языков в моделях Трансформеров с одним режимом обучения. Авторы изучили 83 языка и разработали так называемую матрицу перекрестного влияния, используя BERT-подобные модели, обученные на всем наборе возможных пар языков. Основным выводом является то, что перекрестное влияние языков не симметрично и не соответствует традиционным характеристикам, таким как языковые семьи или схожесть словряных векторов. Его влияние лучше может быть прослежено через свойства скрипта языков. Исследование также показало, что матрица перекрестного влияния может эффективно предсказывать поведение моделей на различных задачах, что позволяет оптимизировать разработку многоязычных моделей для достижения наилучшего результата.

Annotation:

In this paper, we present a comprehensive study of language interference in encoder-only Transformer models across 83 languages. We construct an interference matrix by training and evaluating small BERT-like models on all possible language pairs, providing a large-scale quantification of cross-lingual interference. Our analysis reveals that interference between languages is asymmetrical and that its patterns do not align with traditional linguistic characteristics, such as language family, nor w...

ID: 2508.02256v1 cs.CL

arXiv PDF

📄 Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning

2025-08-09

Авторы:

Jia Deng, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Ji-Rong Wen

**Резюме** В современной искусственном интеллекте, reinforcement learning with verifiable rewards (RLVR) широко применяется для улучшения разума и реакции на какие-либо действия (данные) бо LLM. Однако, главную проблему системы RLVR заключается в том, что требуется сбалансировать взаимосвязанность системы между вероятностью получения результатов и качеством принятых решений (подробностей в тексте). В данной работе мы проводим систематический анализ работы этого механизма на разных уровнях гранулярности: со стадиями обучения (возрастания и плато), типами данных (примерами, сегментами и токенами), а также различными техниками вывода (регулирования сигнала). Основываясь на полученных результатах, мы предлагаем два новых метода, которые динамически корректируют вознаграждение, ориентируясь на только на те токены, которые могут сделать систему более эффективной. В результате, наши методы улучшают показатели на различных моделях языковых моделей, повышая их разумность и надежность.

Annotation:

Recently, reinforcement learning with verifiable rewards (RLVR) has been widely used for enhancing the reasoning abilities of large language models (LLMs). A core challenge in RLVR involves managing the exchange between entropy and performance of policies. Despite the importance of this exchange, a fine-grained understanding of when and how this exchange operates most effectively remains limited. To bridge this gap, we conduct a systematic empirical analysis of the entropy-performance exchange m...

ID: 2508.02260v1 cs.CL, cs.AI

arXiv PDF

📄 SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System

2025-08-09

Авторы:

Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila

Языковой спектр Арабских государств характеризуется острой проблемой диглоссии: развитие носителя Модерн Стандартная Арабская (MSA), применяемого в официальной сфере, в сильное семантическое расхождение от региональных диалектов, широко распространенных в повседневной речи. Это ставит перед NLP-сообществом задачу решения проблемы машинного перевода между MSA и диалектами. В статье представлена разработка **SHAMI-MT**, бибидирекционная система перевода между MSA и сирийским диалектом (Shami). Используя архитектуру AraT5v2-base-1024, были разработаны два модели для перевода MSA->Shami и Shami->MSA. Эти модели были обучены на Nabra dataset и тестированы на невиденных данных MADAR corpus. Модель MSA->Shami достигла высокой оценки **4.01 из 5.0** по OpenAI GPT-4.1, показывая свою силу в поддержании носителя и локализации контента. Это решение открывает новые возможности в локализации, хранении культурного наследия и расширении межкультурного общения в регионе.

Annotation:

The rich linguistic landscape of the Arab world is characterized by a significant gap between Modern Standard Arabic (MSA), the language of formal communication, and the diverse regional dialects used in everyday life. This diglossia presents a formidable challenge for natural language processing, particularly machine translation. This paper introduces \textbf{SHAMI-MT}, a bidirectional machine translation system specifically engineered to bridge the communication gap between MSA and the Syrian ...

ID: 2508.02268v1 cs.CL

arXiv PDF

📄 Dynaword: From One-shot to Continuously Developed Datasets

2025-08-09

Авторы:

Kenneth Enevoldsen, Kristian Nørgaard Jensen, Jan Kostkan, Balázs Szabó, Márton Kardos, Kirten Vad, Johan Heinsen, Andrea Blasi Núñez, Gianluca Barmina, Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup, Per Møldrup Dalum, Desmond Elliott, Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo

**Резюме** В статье предлагается архитектура Dynaword, разработанная для создания больших, открытых языковых данных, которые могут быть постоянно обновляемыми благодаря участию сообщества. Основной проблемой, которую адресуется данный подход, является неэффективность и нестандартизация существующих методов создания и обновления данных. Эти проблемы включают зависимость от неясно указанных лицензий, статичность данных, которая мешает участию сообщества, и ограниченную возможность проверки качества данных. Dynaword предлагает создавать данные, основанные на открытой лицензии, с постоянным обновлением и способностью включать вклады сторонних участников. Таким образом, данные становятся более качественными, востребованными и сохраняются в динамичном виде. Проверена эффективность этого подхода на примере Danish Dynaword, который превзошёл по объёму и качеству других аналогичных ресурсов и подтвердил силу динамического подхода в создании и поддержании языковых данных.

Annotation:

Large-scale datasets are foundational for research and development in natural language processing. However, current approaches face three key challenges: (1) reliance on ambiguously licensed sources restricting use, sharing, and derivative works; (2) static dataset releases that prevent community contributions and diminish longevity; and (3) quality assurance processes restricted to publishing teams rather than leveraging community expertise. To address these limitations, we introduce two cont...

ID: 2508.02271v2 cs.CL, cs.AI

arXiv PDF

📄 CellForge: Agentic Design of Virtual Cell Models

2025-08-09

Авторы:

Xiangru Tang, Zhuoyun Yu, Jiapeng Chen, Yan Cui, Daniel Shao, Weixu Wang, Fang Wu, Yuchen Zhuang, Wenqi Shi, Zhi Huang, Arman Cohan, Xihong Lin, Fabian Theis, Smita Krishnaswamy, Mark Gerstein

Ограниченность получения точных выводов в биологии часто связана с нехваткой доступных моделей, адаптированных для конкретных задач. Мы предлагаем CellForge, систему, которая автоматически генерирует модели для виртуальных клеток, используя мультиагентный подход. Учитывая только сырые данные одноклеточных мультиомис и задачи, CellForge выдает оптимизированное моделирование и код для его выполнения. Фреймворк включает три модуля: анализ задач для исследования данных и поиска литературы, коллективное разработки моделей специализированными агентами, и автоматический код-генератор. Агенты-эксперты дискутируют решения с модератором для достижения сбалансированных решений. Демонстрируя это на сценариях подвижности клетки при генной модификации, лекарственных воздействиях и инфекциях, мы показали, что CellForge превосходит состояние технологий задач. Этот подход показывает, что совместная работа многообразных агентов может лучше решать сложные задачи моделирования, чем однозначный подход.

Annotation:

Virtual cell modeling represents an emerging frontier at the intersection of artificial intelligence and biology, aiming to predict quantities such as responses to diverse perturbations quantitatively. However, autonomously building computational models for virtual cells is challenging due to the complexity of biological systems, the heterogeneity of data modalities, and the need for domain-specific expertise across multiple disciplines. Here, we introduce CellForge, an agentic system that lever...

ID: 2508.02276v1 cs.LG, cs.AI, cs.CL, q-bio.QM

arXiv PDF

Показано 7231 - 7240 из 7506 записей