📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Chenghao Zhang, Qingqing Long, Ludi Wang, Wenjuan Cui, Jianjun Yu, Yi Du

## Контекст Текстовые атрибуты в графах (Text-Attributed Graphs, TAGs) широко распространены в реальных системах, где каждый узел сопровождается своими текстовыми признаками. Особенно важной является задача обработки текстовых атрибутов для сложных, нейтронного материала ограниченного размера, где узлы могут иметь различные типы, и связи между ними могут иметь значительную разновидность. Несмотря на их важность, существует недостаток больших бенчмарков для проверки методов обучения признаков на графах, в частности, для графов с текстовыми атрибутами. Это снижает возможности для сравнения и улучшения методов обработки таких данных. Мы предлагаем CITE, первый и крупнейший бенчмаркный датасет для сложных текстовых атрибутов графов в области катализаторов. CITE включает более 438K узлов и 1.2M связей, охватывающих четыре типа отношений. Наша мотивация заключается в поддержке развития методов обучения для таких сложных данных, стандартизации процессов оценки и поддержке инновационных исследований в этой области. ## Метод CITE — это граф, состоящий из четырех типов узлов (CITATIONS, PUBLICATIONS, AUTHORS и ENTITIES) и четырех типов связей (CITED_BY, WRITTEN_BY, MENTIONED_IN, IS_A). Узлы имеют текстовые признаки, в том числе тексты статей, авторов и элементов словаря. Мы использовали методы глубокого обучения для построения представлений для каждого типа узлов. Для оценки производительности методов мы определили стандартные процедуры, включающие многоклассовую классификацию узлов. Мы также провели подробные эксперименты, проверяя эффективность метода и его способность работать с текстовыми признаками. Методы, оцениваемые в рамках CITE, включают традиционные методы графа, графы с текстовыми атрибутами, модели на базе ИИ с текстовыми данными и модели, объединяющие графы и модели текстового генерации. Мы старались покрыть широкий спектр подходов для обеспечения комплексной оценки CITE. ## Результаты Мы провели расширенные эксперименты на CITE, оценивая удовлетворенность решений, достигаемую в задаче многоклассовой классификации узлов. Эксперименты показали, что модели, использующие текстовые атрибуты, превосходят традиционные методы в этой задаче. Мы также провели ряд аблационных экспериментов, которые подтвердили важность текстовых признаков и сложности задачи. Наши результаты показали, что модели, объединяющие графы и модели текстового генерации (LLM+Graph), демонстрируют самые высокие показатели. Это означает, что использование текстовых атрибутов в контексте графов может
Annotation:
Text-attributed graphs(TAGs) are pervasive in real-world systems,where each node carries its own textual features. In many cases these graphs are inherently heterogeneous, containing multiple node types and diverse edge types. Despite the ubiquity of such heterogeneous TAGs, there remains a lack of large-scale benchmark datasets. This shortage has become a critical bottleneck, hindering the development and fair comparison of representation learning methods on heterogeneous text-attributed graphs...
ID: 2508.15392v1 cs.LG, cs.CL
Авторы:

Lucas Gautheron, Evan Kidd, Anton Malko, Marvin Lavechin, Alejandrina Cristia

## Контекст Оступление в развитии речи у детей является ключевым показателем раннего обучения. Одним из популярных способов изучения взаимосвязи между языковым окружением детей и их развитием является использование записей голоса, позволяющих измерить частоту и качество говорения в реальной среде. Однако, несмотря на распространенность автоматических систем анализа голоса, меньше внимания уделяется последствиям неточностей в их работе. Эти неточности могут оказать значительное влияние на выводы в области развития речи. Целью настоящей работы является изучение этих эффектов и предложение решений для их устранения. ## Метод Для изучения влияния классификационных ошибок использовались данные аудиозаписей, анализируемых с помощью двух автоматических систем классификации голоса: LENA и ACLEW. Ошибки классификации обнаруживались и сравнивались с ручными меткими. Для избежания неточностей в статистических выводах, предложена байесовская модель, которая добавляет новую величину ошибки к меткам. Эта модель была применена к двум разным наборам данных, измеряющих влияние братьев и сестер на языковое развитие детей и соотношение между входящим языковым воздействием и произносимым ребенком. ## Результаты Изучение двух разных классификаторов показало, что классификационные ошибки могут существенно деформировать выводы. Например, в системе LENA, классификационные ошибки привели к тому, что влияние братьев и сестер на языковое воздействие было ошибочно оценено ниже, чем статистический порог значимости. Байесовская модель позволила восстановить несколько более точные оценки этих эффектов, но не всегда удалось устранить все деформации. Эти находки обобщаются на более широкий круг аналитических систем в области автоматического классификационного анализа. ## Значимость Результаты этого исследования могут быть применены в различных областях, таких как развитие речи, обучение и диагностика ранних дефицитов развития. Байесовская модель предлагает более точный способ учета классификационных ошибок, что может иметь значительное значение при оценке влияния многих факторов на раннее развитие. Это также открывает возможность улучшения существующих систем и развития новых методов, более устойчивых к ошибкам. ## Выводы Наше исследование подтверждает, что классификационные ошибки могут иметь значительное влияние на меры и статистические выводы в области автоматического классификационного анализа. Байесовская модель представляет собой эффективный подход для восстановления более точных оценок. Будущи
Annotation:
With the advent of wearable recorders, scientists are increasingly turning to automated methods of analysis of audio and video data in order to measure children's experience, behavior, and outcomes, with a sizable literature employing long-form audio-recordings to study language acquisition. While numerous articles report on the accuracy and reliability of the most popular automated classifiers, less has been written on the downstream effects of classification errors on measurements and statisti...
ID: 2508.15637v1 cs.LG, cs.CL, stat.AP
Авторы:

Lei Bai, Zhongrui Cai, Maosong Cao, Weihan Cao, Chiyu Chen, Haojiong Chen, Kai Chen, Pengcheng Chen, Ying Chen, Yongkang Chen, Yu Cheng, Yu Cheng, Pei Chu, Tao Chu, Erfei Cui, Ganqu Cui, Long Cui, Ziyun Cui, Nianchen Deng, Ning Ding, Nanqin Dong, Peijie Dong, Shihan Dou, Sinan Du, Haodong Duan, Caihua Fan, Ben Gao, Changjiang Gao, Jianfei Gao, Songyang Gao, Yang Gao, Zhangwei Gao, Jiaye Ge, Qiming Ge, Lixin Gu, Yuzhe Gu, Aijia Guo, Qipeng Guo, Xu Guo, Conghui He, Junjun He, Yili Hong, Siyuan Hou, Caiyu Hu, Hanglei Hu, Jucheng Hu, Ming Hu, Zhouqi Hua, Haian Huang, Junhao Huang, Xu Huang, Zixian Huang, Zhe Jiang, Lingkai Kong, Linyang Li, Peiji Li, Pengze Li, Shuaibin Li, Tianbin Li, Wei Li, Yuqiang Li, Dahua Lin, Junyao Lin, Tianyi Lin, Zhishan Lin, Hongwei Liu, Jiangning Liu, Jiyao Liu, Junnan Liu, Kai Liu, Kaiwen Liu, Kuikun Liu, Shichun Liu, Shudong Liu, Wei Liu, Xinyao Liu, Yuhong Liu, Zhan Liu, Yinquan Lu, Haijun Lv, Hongxia Lv, Huijie Lv, Qidang Lv, Ying Lv, Chengqi Lyu, Chenglong Ma, Jianpeng Ma, Ren Ma, Runmin Ma, Runyuan Ma, Xinzhu Ma, Yichuan Ma, Zihan Ma, Sixuan Mi, Junzhi Ning, Wenchang Ning, Xinle Pang, Jiahui Peng, Runyu Peng, Yu Qiao, Jiantao Qiu, Xiaoye Qu, Yuan Qu, Yuchen Ren, Fukai Shang, Wenqi Shao, Junhao Shen, Shuaike Shen, Chunfeng Song, Demin Song, Diping Song, Chenlin Su, Weijie Su, Weigao Sun, Yu Sun, Qian Tan, Cheng Tang, Huanze Tang, Kexian Tang, Shixiang Tang, Jian Tong, Aoran Wang, Bin Wang, Dong Wang, Lintao Wang, Rui Wang, Weiyun Wang, Wenhai Wang, Yi Wang, Ziyi Wang, Ling-I Wu, Wen Wu, Yue Wu, Zijian Wu, Linchen Xiao, Shuhao Xing, Chao Xu, Huihui Xu, Jun Xu, Ruiliang Xu, Wanghan Xu, GanLin Yang, Yuming Yang, Haochen Ye, Jin Ye, Shenglong Ye, Jia Yu, Jiashuo Yu, Jing Yu, Fei Yuan, Bo Zhang, Chao Zhang, Chen Zhang, Hongjie Zhang, Jin Zhang, Qiaosheng Zhang, Qiuyinzhe Zhang, Songyang Zhang, Taolin Zhang, Wenlong Zhang, Wenwei Zhang, Yechen Zhang, Ziyang Zhang, Haiteng Zhao, Qian Zhao, Xiangyu Zhao, Xiangyu Zhao, Bowen Zhou, Dongzhan Zhou, Peiheng Zhou, Yuhao Zhou, Yunhua Zhou, Dongsheng Zhu, Lin Zhu, Yicheng Zou

## Контекст В последние годы открытые фундаментальные модели показали замечательные результаты в различных областях, приближаясь к решениям, достигнутым закрытыми моделями. Однако в высокоценных, но более сложных научных областях, эти модели остаются за барьером, не достигая качества закрытого программного обеспечения. Это приводит к узкому разрыву между открытыми и закрытыми моделями в сферах, где достижения в науке требуют особой точности и экспертности. Чтобы помочь закрыть этот разрыв и приблизиться к Искусству Общего Разума (AGI), мы предлагаем **Intern-S1**, новая фундаментальная модель с многомодальным подходом, которая обладает универсальным пониманием и разумами, способными анализировать различные модели научных данных. ## Метод **Intern-S1** является многомодальной моделью Mixture-of-Experts (MoE) с 28 миллиардов активных параметров и 241 миллиардами общих параметров. Для обучения использовалось более 5 токенов, в том числе более 2,5 токенов из научных источников. Модель прошла развитие в среде **InternBootCamp**, где использовалась процедура **Mixture-of-Rewards (MoR)** для одновременного обучения на более чем 1000 задачах с помощью метода участия. Это позволило модели развиваться в условиях высокой сложности и конкуренции. ## Результаты Мы провели широкий диапазон экспериментов, использовав пересмотренные бенчмарки и научные данные. **Intern-S1** показала выдающиеся результаты в общих задачах оценки научных моделей. Она не только превосходит другие открытые модели в различных научных областях, но и выступает среди лучших моделей, превзойдя даже закрытые супермодели в специальных научных задачах - таких как планирование молекулярных синтезов, предсказание условий реакций и прогнозирование термодинамических стаблильностей кристаллов. ## Значимость **Intern-S1** может быть применена в различных научных сферах, в том числе химии, биологии, инжиниринга и других. Она предлагает значительные преимущества, включая расширение возможностей обработки научных данных, улучшение точности прогнозирования и моделирования, а также повышение эффективности в решении сложных научных проблем. Это может сократить разрыв между открытыми и закрытыми моделями, включив научные приложения в современные агенты ИИ. ## Выводы **Intern-S1** демонстрирует успех в сфере многомодальных научных моделей, обладая огромным потенциалом для улучшения решений в науке. Будущие исследования будут сосредоточены на расширении многомодальности, улучшении точности и увеличении возможностей модели для более сложных научных задач.
Annotation:
In recent years, a plethora of open-source foundation models have emerged, achieving remarkable progress in some widely attended fields, with performance being quite close to that of closed-source models. However, in high-value but more challenging scientific professional fields, either the fields still rely on expert models, or the progress of general foundation models lags significantly compared to those in popular areas, far from sufficient for transforming scientific research and leaving sub...
ID: 2508.15763v1 cs.LG, cs.CL, cs.CV
Авторы:

Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang

#### Контекст Одной из основных задач в области глубокого обучения является создание удобных и эффективных методов для оценки и оптимизации моделей глубокого обучения, особенно в случае трансформеров и л LLM. Несмотря на прогрессы в области машинного обучения, существуют значительные проблемы, связанные с необходимостью в регулярном подавлении моделей, чтобы улучшить их качество, точность и широту применения. Эти проблемы влекут за собой дополнительные затраты на оценку и аннотацию данных, что может ограничивать эффективность и развитие моделей. Методология, описанная в данной статье, нацелена на решение этих проблем, предоставляя новый подход к самостоятельной оценке и оптимизации моделей. #### Метод Разработанная методология, названная DuPO (Dual Preference Optimization), является развитием идеи двойного машинного обучения, но имеет более широкий круг применения. Она разделяет задачу на два основных компонента: известные и неизвестные компоненты входных данных, а затем использует вторую задачу для восстановления неизвестных данных, используя информацию, полученную от первой задачи. Этот подход расширяет возможности применения двойного машинного обучения, не ограничиваясь только двойными задачами, такими как перевод и обратный перевод. Архитектура DuPO строится на основе универсальной модели, которая может выполнять как приоритетные, так и двойные задачи, что делает ее гибкой и эффективной. #### Результаты В ходе экспериментов, проведенных на различных наборах данных, DuPO продемонстрировала существенные улучшения по сравнению с существующими методами. Например, в переводе текстов, DuPO улучшила архитектуру на 2.13 COMET за 756 направлений. Также, на трех разных задачах логического разума, модель достигла среднего увеличения показателей на 6.4 балла. Далее, в качестве реранкера в процессе инференса, DuPO показала увеличение точности на 9.3 балла при том, что расход ресурсов остался приемлемым. Эти результаты подтверждают, что DuPO является эффективной и универсальной методологией для оптимизации моделей глубокого обучения. #### Значимость Помимо того, что DuPO широко применима к различным задачам, в том числе и неинверсируемым, она также отличается своей синергичностью с технологиями глубокого обучения. Она позволяет улучшить качество моделей без необходимости разрабатывать дополнительные методы для каждой конкретной задачи. Это может привести к существенным экономиям во времени и ресурсах для разработчиков. Благодаря своей гибкости, она может быть использована в таких областях, как трансляция, распознавание речи, моделирование текстовых данных, и даже в задачах необратимости, таких как решение математических ура
Annotation:
We present DuPO, a dual learning-based preference optimization framework that generates annotation-free feedback via a generalized duality. DuPO addresses two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s reliance on costly labels and applicability restricted to verifiable tasks, and traditional dual learning's restriction to strictly dual task pairs (e.g., translation and back-translation). Specifically, DuPO decomposes a primal task's input into known and unknown com...
ID: 2508.14460v1 cs.LG, cs.CL
Авторы:

Yueming Yuan, Ahan Gupta, Jianping Li, Sajal Dash, Feiyi Wang, Minjia Zhang

#### Контекст Во всемирных исследованиях в области обработки и анализа данных, нейросетевые модели, основанные на архитектурах Mixture-of-Experts (MoE), приобрели популярность благодаря способности обеспечить высокую модельную качество при гибком использовании ресурсов. Однако, у текущих реализаций MoE существуют значимые проблемы. Это существенный потребление памяти во время активации и высокостоимостная связь "все с всем" (all-to-all communication), которые ограничивают их масштабирование. Кроме того, существующие решения для тренировки MoE как правило оптимизированы для NVIDIA GPUs, что приводит к неэффективности при использовании других платформ, таких как AMD или Intel. X-MoE предлагается как решение этих проблем, предлагая новую MoE-систему для тренировки скорострельных моделей с высокой эффективностью и масштабируемостью. #### Метод X-MoE представляет собой новую архитектуру тренировки сетей с тонкой сегментацией экспертов, которая использует несколько инновационных техник. Одной из основных техник является padding-free MoE training, которая уменьшает затраты на память и ускоряет вычисления. Другим ключевым моментом является редундантность-бипассинг диспатча, что позволяет избежать ненужных расходов на связи. Также, X-MoE внедряет механизм hybrid parallelism, который позволяет разбить модель на сегменты (MoE blocks), которые могут быть последовательно отправлены на разных узлов. Это подход повышает эффективность тренировки и обеспечивает поддержку кросс-платформенности. Таким образом, X-MoE предоставляет систему, которая может эффективно работать на разных платформах, включая AMD и NVIDIA GPUs. #### Результаты В ходе экспериментов с X-MoE, использовались данные, тренировочные модели и оценки производительности на Frontier supercomputer, который оснащен AMD MI250X GPUs. Тестирование показало, что X-MoE может скользьть DeepSeek-style MoEs до 545 миллиардов параметров (без отказа в качестве вывода) на 1024 GPUs — 10 раз больше, чем существующие методы под указанным объемом ресурсов. Это позволяет поддерживать высокую скорость обучения при минимизации затрат на память и вычислительных вычислений. Таким образом, X-MoE доказывает свою эффективность в сравнении с имеющимися решениями. #### Значимость Полученная система X-MoE имеет широкие области применения в области тренировки сложных нейронных сетей, в том числе для моделей, оптимизированных для роботов, искусственного интеллекта и анализа больших данных. Одним из главных преимуществ X-MoE является ее кросс-платформенность и высокая эффективность, что позволяет ей работать на разных платформах, включая AMD и NVIDIA GPUs.
Annotation:
Emerging expert-specialized Mixture-of-Experts (MoE) architectures, such as DeepSeek-MoE, deliver strong model quality through fine-grained expert segmentation and large top-k routing. However, their scalability is limited by substantial activation memory overhead and costly all-to-all communication. Furthermore, current MoE training systems - primarily optimized for NVIDIA GPUs - perform suboptimally on non-NVIDIA platforms, leaving significant computational potential untapped. In this work, we...
ID: 2508.13337v1 cs.LG, cs.CL, cs.DC
Авторы:

Bowen Dong, Yilong Fan, Yutao Sun, Zhenyu Li, Tengyu Pan, Xun Zhou, Jianyong Wang

## Контекст Микстура-оф-экспертов (MoE) — это архитектура нейросетей, которая состоит из нескольких экспертов, каждый из которых выполняет подсеть. Она используется для увеличения модели размера с минимальным увеличением вычислительных затрат. В стандартных сетях MoE используется механизм routing для динамического выделения входных токенов к топ-к экспертам. Однако существуют проблемы, такие как низкая эффективность железа из-за подpadding'а и высокая разброса потерь из-за неоптимального выделения ресурсов. Эти проблемы требуют разработки более эффективных методов routing-а для моделей MoE. ## Метод Мы предлагаем Maximum Score Routing ($\mathbf{MaxScore}$), новую модель routing-а для моделей MoE. Метод использует минимальное решение затрат для максимального потока для топ-к эксперта. Это позволяет решить задачу топ-к выделения токенов в сети MoE без использования итеративных решений или оптимальной транспортной задачи. Модель MaxScore обеспечивает лучшую балансировку ресурсов и эффективность вычислений без потерь. ## Результаты Мы провели эксперименты на нескольких моделях сетей и данных. Модель MaxScore показала лучшие результаты в сравнении с обычными методами routing-а. Она достигла более низких потерь при обучении и выше оценок при оценке, при этом требуя одинаковых вычислительных ресурсов (FLOPs). Эти результаты подтверждают то, что MaxScore лучше справляется с задачей топ-к выделения токенов в моделях MoE. ## Значимость Модель MaxScore может быть применена в различных областях, где требуется эффективная обработка больших моделей с минимальными вычислительными затратами. Ее преимущества заключаются в более оптимальной балансировке ресурсов, высокой эффективности вычислений и лучшем качестве моделей. Это может привести к развитию более эффективных алгоритмов обучения для сетей MoE и других архитектур сетей. ## Выводы Модель MaxScore представляет собой перспективное решение для routing-а в моделях MoE. Она разрешает основные ограничения существующих методов, улучшая качество обучения и вычислительные ресурсы. Будущие исследования будут нацелены на расширение модели на более сложные задачи и ее интеграцию с другими методами моделирования.
Annotation:
Routing networks in sparsely activated mixture-of-experts (MoE) dynamically allocate input tokens to top-k experts through differentiable sparse transformations, enabling scalable model capacity while preserving computational efficiency. Traditional MoE networks impose an expert capacity constraint to ensure GPU-friendly computation. However, this leads to token dropping when capacity is saturated and results in low hardware efficiency due to padding in underutilized experts. Removing the capaci...
ID: 2508.12801v1 cs.LG, cs.CL
Авторы:

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh

#### Контекст Текущие тенденции в развитии смарт-устройств и интернета вещей (IoT) привели к появлению микроконтроллеров с ограниченными ресурсами, которые требуют эффективных методов м MLOps. Одной из проблем в этой области является необходимость постоянного мониторинга моделей Машинного Обучения для обеспечения их надежности и точности в реальном времени. Существующие подходы, такие как early exits и deep ensembles, требуют значительных вычислительных ресурсов или дополнительных вычислений, что не всегда применимо для малоразмерных устройств. Это мотивирует развитие методов, которые обеспечивают непрерывный мониторинг моделей с минимальным потреблением ресурсов и высокой производительностью. #### Метод Метод TCUQ (Temporal Consistency for Uncertainty Quantification) основывается на использовании темпоральной консистенции в качестве источника информации для оценки неопределенности. Метод работает в режиме одного прохода и не требует якорных меток для каждого примера. Идея заключается в том, чтобы использовать характеристики структуры данных в течение короткого временного окна для построения бюджетного правила принятия решений. Для этого применяется структура буфера размером $W$ и метод простого обновления в режиме $O(1)$. Для сериализации результатов используется потоковая модель калибровки, которая преобразует полученные оценки неопределенности в правило принятия решений с фиксированным бюджетом (accept/abstain). Это позволяет достичь высокой точности в определении достоверности вывода без дополнительных вычислительных затрат. #### Результаты Результаты экспериментов показывают, что TCUQ эффективен в сравнении с современными подходами. Он применялся к малоразмерным устройствам с ограниченной памятью и потреблял значительно меньший объем ресурсов (около 50-60% меньше и около 30-45% быстрее) в сравнении с early exits и deep ensembles. Были проведены испытания на микроконтроллерах с килобайтным объемом памяти, где TCUQ показал себя как эффективный инструмент для мониторинга моделей. Особое внимание уделено оценке достоверности в условиях потоковых данных с повреждениями. TCUQ достиг значительного улучшения в обнаружении выпадения точности модели (до 3-7 AUPRC) и достиг 0.86 AUPRC при высоких уровнях повреждений. Для детекции неисправностей он достиг 0.92 AUROC. #### Значимость TCUQ предоставляет практический и ресурсосберегающий подход к мониторингу моделей в TinyML. Он отличается высокой скоростью работы и небольшим расходом ресурсов, что делает его применимым для экономии памяти и процессорных мощностей на микроконтроллерах. Этот подход может быть применен в различных областях, включая IoT-устройства,
Annotation:
We introduce TCUQ, a single pass, label free uncertainty monitor for streaming TinyML that converts short horizon temporal consistency captured via lightweight signals on posteriors and features into a calibrated risk score with an O(W ) ring buffer and O(1) per step updates. A streaming conformal layer turns this score into a budgeted accept/abstain rule, yielding calibrated behavior without online labels or extra forward passes. On microcontrollers, TCUQ fits comfortably on kilobyte scale devi...
ID: 2508.12905v1 cs.LG, cs.CL
Авторы:

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh

## Контекст Современные приложения с малым объемом памяти (TinyML) требуют эффективных методов оценки неуверенности (uncertainty quantification, UQ), которые не требуют большого объема вычислительных ресурсов и памяти. Оценка неуверенности в реальном времени позволяет обеспечить надежность и безопасность систем, применяемых в критических условиях, таких как автоматизация промышленных процессов и системы безопасности. Однако существующие подходы часто требуют многопроходных предсказаний, дополнительных буферов или сложных архитектур, что не подходит для систем с ограниченными ресурсами. Мотивирует разработку эффективных, легких и простых в использовании методов оценки неуверенности в реальном времени для TinyML. ## Метод "SNAP-UQ" (Self-supervised Next-Activation Prediction for Uncertainty in TinyML) — метод, основанный на самостоятельном обучении, который предсказывает следующую активацию (next-activation) в модели сжатого объема (tiny int8). Метод работает в одном проходе (single-pass) и не требует дополнительных входных данных, таких как метки или кэшированные выходы слоев. В нем две основные компоненты: (1) **Depth-wise Next-Activation Prediction (D-NAP)** — нейронные сетки сжатого формата (tiny int8) предсказывают статистику следующего слоя на основе сжатого представления предыдущего слоя, и (2) **Lightweight Monotone Mapper (LMM)** — векторные мапперы, которые преобразуют результаты предсказания в сокращенный, но действительный счетчик неуверенности. Метод SNAP-UQ не требует временных буферов, выходных точек или многопроходных предсказаний, что делает его особенно подходящим для реализации на микроконтроллерах (MCU). ## Результаты Результаты экспериментов показывают, что SNAP-UQ существенно сокращает размер моделей (flash) и задержки (latency) по сравнению с другими методами, например, с методами early-exit и deep ensembles. Например, SNAP-UQ уменьшает размер моделей на 40-60% и ускоряет выполнение на 25-35% при сохранении той же точности. Были проверены модели на задачах визуального и аудио-представления, и в большинстве случаев SNAP-UQ показал лучшие результаты. Он также демонстрирует улучшение обнаружения дефектов в потоках данных в реальном времени, особенно в условиях помех и раз Noise. Этот подход демонстрирует надежную работу с малыми ресурсами, обеспечивая критически важную оценку неуверенности в реальном времени для микроконтроллеров. ## Значимость Подход SNAP-UQ имеет широкое применение в реальном времени для оценки неуверенности в микроконтроллерах (TinyML). Он может применяться в таких областях, как мониторинг операций, безопасность систем, диагностика аппаратуры и системы управления. Основные преимущества SNAP-UQ за
Annotation:
We introduce \textbf{SNAP-UQ}, a single-pass, label-free uncertainty method for TinyML that estimates risk from \emph{depth-wise next-activation prediction}: tiny int8 heads forecast the statistics of the next layer from a compressed view of the previous one, and a lightweight monotone mapper turns the resulting surprisal into an actionable score. The design requires no temporal buffers, auxiliary exits, or repeated forward passes, and adds only a few tens of kilobytes to MCU deployments. Across...
ID: 2508.12907v1 cs.LG, cs.CL
Авторы:

Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi

## Контекст Мемори-аугментированные трансформеры (Memory-Augmented Transformers, MAT) являются перспективной направлением в развитии искусственного интеллекта, призванным решить ключевые проблемы, связанные с ограниченной способностью трансформеров к долгосрочному контексту, непрерывному обучению и интеграции новых знаний. Изучение этой темы мотивировано тем, что память является основополагающим элементом ума, необходимым для обучения, разума и адаптации в обоих биологических и искусственных системах. Несмотря на то, что трансформеры показали великолепные результаты в последовательной моделировании, они сталкиваются с рядом серьезных ограничений в долгосрочном памяти, в том числе в способности удерживать информацию на длительные периоды и эффективно интегрировать новые данные. Это делает стремление к развитию MAT не только актуальным, но и ключевым для развития новых моделей, которые могут более точно имитировать человеческое мышление. ## Метод MAT делают свои достижения благодаря интеграции принципов мозгового функционирования с техническими достижениями в области трансформеров. Основными методиками являются: 1. **Интеграция мозговых принципов**: Это включает в себя техники, такие как динамическое управление многосколочными памятными блоками, селективное внимание и статистическая мозайка. 2. **Функциональные объективы**: МО трансформеров включают контекстное расширение, разума, знаний и адаптации. 3. **Репрезентация Памяти**: Математические модели могут быть генерированы на основе параметров, государств или эксплицитного хранения. 4. **Интеграционные Механизмы**: Это включает в себя аттенцию, управление гейтами и ассоциативное восстановление. 5. **Операции С памятью**: Эти операции включают чтение, запись, забывание и управление емкостью. ## Результаты В рамках этого исследования были проведены ряд экспериментов, где использовались различные данные, включая образцы с распознаванием речи, моделирования текста и видео-анализа. Основными результатами являются: 1. **Улучшенное хранение контекста**: МО-трансформеры показали значительное улучшение в долгосрочном контексте по сравнению с базовыми трансформерами. 2. **Продолжительное обучение**: MAT поддерживают непрерывное обучение, без потерь в производительности. 3. **Интеграция знаний**: МО-трансформеры эффективно интегрируют новые знания в существующие модели. ## Значимость MAT имеют широкие применения в различных областях, таких как распознавание
Annotation:
Memory is fundamental to intelligence, enabling learning, reasoning, and adaptability across biological and artificial systems. While Transformer architectures excel at sequence modeling, they face critical limitations in long-range context retention, continual learning, and knowledge integration. This review presents a unified framework bridging neuroscience principles, including dynamic multi-timescale memory, selective attention, and consolidation, with engineering advances in Memory-Augmente...
ID: 2508.10824v2 cs.LG, cs.CL
Авторы:

Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt

#### Контекст В последние годы масштабное тренирование языковых моделей (LLM) стало ключевым инструментом для обработки и анализа текстовых данных. Однако в силу ограниченности доступных данных, традиционно используемых для тренировки, наблюдается предел эффективности. Использование синтетических данных, генерируемых специальными моделями, выступает как возможность развития LLM, позволяя преодолеть такие ограничения. Однако существуют множество вопросов относительно факторов, влияющих на качество синтетических данных и их удобство в использовании для тренировки LLM. В данной работе предлагается BeyondWeb — рамка для генерации высококачественных синтетических данных, которая расширяет возможности традиционных веб-масштабных данных. #### Метод BeyondWeb объединяет целый набор технологий, начиная от разработки генеративных моделей и заканчивая системами управления ресурсами. Основная генеративная модель, используемая в BeyondWeb, обладает широким объемом параметров, что позволяет генерировать тексты с высокой точностью и стилистикой. Данная модель адаптируется специальным образом для работы с веб-данными и визуальными содержаниями. Основной архитектурой является трансформер, применяемый для эффективного преобразования данных. Более того, BeyondWeb использует многоуровневую архитектуру, включающую в себя не только генеративную модель, но и слои предварительных оценок и классификаций, чтобы оптимизировать качество генерируемых данных. #### Результаты В ходе экспериментов с BeyondWeb был проведен ряд тестов на 14 различных метриках, сравнивая его с двумя лидирующими синтетическими наборами данных — Cosmopedia и Nemotron-Synth. В результате BeyondWeb показал значительные улучшения, достигая до 5.1% более высокого качества данных по сравнению с Cosmopedia и 2.6% — по сравнению с Nemotron-Synth. Кроме того, BeyondWeb позволяет быстрее обучать модели, достигая скорости 7.7 раз выше, чем при обучении на открытых веб-данных, и 2.7 раз выше, чем с использованием Nemotron-Synth. Для примера, 3B-модель, обученная на 180B токенов на BeyondWeb, показала лучшие результаты, чем 8B-модель на Cosmopedia. Эти результаты подтверждают преимущества BeyondWeb в сфере синтетических данных для LLM. #### Значимость BeyondWeb открывает новые пути для использования синтетических данных в области тренировки LLM. Его можно применять в различных сферах, включая общедоступные системы рекомендаций, модели распознавания речи, а также в сфере роботов-консультантов. Одним из основных преимуществ BeyondWeb является его масштабируемость и эффективность, что делает его привлекательным для больших корпора
Annotation:
Recent advances in large language model (LLM) pretraining have shown that simply scaling data quantity eventually leads to diminishing returns, hitting a data wall. In response, the use of synthetic data for pretraining has emerged as a promising paradigm for pushing the frontier of performance. Despite this, the factors affecting synthetic data quality remain poorly understood. In this work, we introduce BeyondWeb, a synthetic data generation framework that produces high-quality synthetic data ...
ID: 2508.10975v1 cs.LG, cs.CL
Показано 211 - 220 из 233 записей