📚 Саммари научных статей из arXiv

Найдено 278 результатов по запросу 'cs.LG, cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SpikingBrain Technical Report: Spiking Brain-inspired Large Models

2025-09-09

Авторы:

Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Zehao Liu, Bohan Sun, Yuhong Chou, Han Xu, Xuerui Qiu, Anlin Deng, Anjie Hu, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun, Bo Xu, Guoqi Li

#### Контекст Построение больших трансформер-моделей является ключевым решением для обработки естественного языка и других задач, но существуют значительные проблемы. Обучение таких моделей требует значительных вычислительных ресурсов, а процесс инференса требует большого объема памяти. Эти ограничения становятся более заметными при работе с длинными контекстами. Большинство существующих моделей ориентированы на архитектуру NVIDIA, что затрудняет их развертывание на других платформах. Кроме того, необходимость улучшить эффективность обучения и использования моделей для длинных контекстов ставит перед исследователями новые вызовы. #### Метод Мы представляем SpikingBrain — семейство моделей, основанных на идеях биоинспирированного моделирования. SpikingBrain использует MetaX GPU-кластер для разработки моделей с 7 миллиардами параметров (SpikingBrain-7B) и 76 миллиардов параметров (SpikingBrain-76B). Методология включает: 1. **Модельная архитектура**: включает линейные и гибридно-линейные архитектуры внимательных слоёв, адаптированные для работы с длинными контекстами. 2. **Алгоритмические оптимизации**: использование эффективных тренировочных цепочек и специального фреймворка для кодирования спайков. 3. **Системные оптимизации**: настроенные для MetaX-хардвара фреймворки, библиотеки операторов и стратегии параллелизма. #### Результаты Мы проводили эксперименты с двумя моделями SpikingBrain на MetaX C550-GPUs. Модель SpikingBrain-7B достигла скорости обработки последовательностей до 4 миллионов токенов с уменьшением Time to First Token (TTFT) в 100 раз. Модель SpikingBrain-76B показала возможность работы в гибридной архитектуре Mixture of Experts (MoE), которая повышает производительность и эффективность. Эти модели показали значительную эффективность с точки зрения использования вычислительных ресурсов и оптимизации памяти. #### Значимость SpikingBrain модели показывают, что биоинспирированные механизмы могут быть эффективными для обработки длинных контекстов в небольших моделях. Они улучшают производительность и уменьшают энергопотребление. Модели могут быть применены в сценариях, требующих длинных контекстов и ограниченных вычислительных мощностей. Будущие исследования будут сфокусированы на улучшении моделей и их применении в реальных сценариях. #### Выводы SpikingBrain является крупным шагом в области эффективного и мощного обучения крупных моделей. Мы доказали, что модели биоинспирированного типа могут представлять собой альтернативу традиционным трансформерам. Будущие исследования будут ориентированы на повышение производительности моделей и их применение

Annotation:

Mainstream Transformer-based large language models face major efficiency bottlenecks: training computation scales quadratically with sequence length, and inference memory grows linearly, limiting long-context processing. Building large models on non-NVIDIA platforms also poses challenges for stable and efficient training. To address this, we introduce SpikingBrain, a family of brain-inspired models designed for efficient long-context training and inference. SpikingBrain leverages the MetaX GPU c...

ID: 2509.05276v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Crossing the Species Divide: Transfer Learning from Speech to Animal Sounds

2025-09-06

Авторы:

Jules Cauzinille, Marius Miron, Olivier Pietquin, Masato Hagiwara, Ricard Marxer, Arnaud Rey, Benoit Favre

## Контекст Область исследования, посвященная методам обучения с малоизвестным наблюдением, набирает популярность в области обработки звука, в том числе для задач классификации животных и вредителей в сельскохозяйственных системах. Несмотря на прогресс в области самостоятельного обучения с использованием самостоятельных контекстов, эффективность таких методов на животных звуках остается достаточно неизученной. Установлено, что существуют специфические семантические и акустические особенности в животных звуках, которые могут снизить эффективность предварительно обученных моделей, ориентированных на звуковые данные. В статье рассматривается потенциал самостоятельного обучения с помощью говорения для системы классификации животных звуков. ## Метод В статье применяется методология, основанная на самостоятельном обучении для построения моделей, моделирующих звуки. Рассматриваются модели HuBERT, WavLM и XEUS, обученные на говорении, для генерирования богатых латентных представлений звуков животных. Были использованы техники линейной пробинга и расширенных архитектур для эффективного использования звуковых данных. Было осуществлено изучение представлений в акустической области, где были проанализированы влияние частотного диапазона и шума на результаты классификации. ## Результаты Исследования показали, что модели HuBERT, WavLM и XEUS могут эффективно генерировать латентные представления звуков животных, аналогичные результатам, полученным с использованием моделей, обученных на животных звуках. Было продемонстрировано, что линейная пробинга позволяет эффективно использовать звуковые представления, но с учетом временных данных результаты улучшаются. Также было проверено, что модели гибко реагируют на изменения частотного диапазона и шума, что демонстрирует их высокую резильтативность в трудных условиях. ## Значимость Высокая эффективность моделей, обученных на говорении, может быть использована в различных сельскохозяйственных приложениях, включая классификацию животных звуков и вредителей. Эти модели позволяют экономить время и ресурсы на подготовку данных, а также снижают необходимость в тщательном фине-тюнинге. Таким образом, создается возможность ускорения развития систем мониторинга и контроля животных в сельскохозяйственной сфере. ## Выводы Исследование показало, что модели, обученные на говорении, могут эффективно использоваться для классификации животных звуков. Однако для достижения максимальной эффективности требуется учесть актуальные свойства звуков

Annotation:

Self-supervised speech models have demonstrated impressive performance in speech processing, but their effectiveness on non-speech data remains underexplored. We study the transfer learning capabilities of such models on bioacoustic detection and classification tasks. We show that models such as HuBERT, WavLM, and XEUS can generate rich latent representations of animal sounds across taxa. We analyze the models properties with linear probing on time-averaged representations. We then extend the ap...

ID: 2509.04166v1 cs.LG, cs.AI, cs.CL, cs.SD, 68T07, I.5.4; I.2.6; H.5.5

arXiv PDF

📄 Towards a Unified View of Large Language Model Post-Training

2025-09-06

Авторы:

Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou

## Контекст В последние годы широко развиваются системы генерации текстов на основе трансформеров, основанных на ло LLM (Large Language Models). Однако достичь высокого качества текстов часто требуется дополнительная обучение, который называется post-training. Этот процесс может использовать различные виды данных, таких как генерированные моделью (online) или полученные от пользователей или других моделей (offline). Исследователи часто рассматривают эти два типа данных как несовместимые. Наша работа выявляет, что обучение с помощью этих данных может быть успешно интегрировано в единую модель, что упрощает процесс обучения и улучшает результаты. ## Метод Мы разработали новый метод, который объединяет различные подходы к post-training в единую модель. Этот подход основан на формуле политического градиента, которая позволяет динамически использовать различные источники данных. Мы разработали четыре основных компонента этой формулы: маска для стабилизации, ссылочная политика, оценка преимущества и градиент логарифмической вероятности. Эти компоненты позволяют нам эффективно интегрировать различные типы данных и корректно сбалансировать доминирование примеров и источников данных. ## Результаты Мы провели эксперименты с нашим методом на шести абстрактных бенчмарках и двух базовых наборах данных. Наш новый подход, Hybrid Post-Training (HPT), показал себя лучше, чем существующие подходы, в том числе Reinforcement Learning (RL) и Supervised Fine-Tuning (SFT). Мы получили значительные улучшения в распознавании текста и генерации новых текстов, с одинаковым успехом работающий с онлайновыми и оффлайновыми данными. Абляционные исследования подтвердили эффективность каждого из компонентов нашего метода. ## Значимость Предложенный подход имеет широкое применение в области генерации текстов, в том числе в сферах, где требуется высокое качество текста, такие как роботы-консультанты и генераторы текстов. Он позволяет объединить различные источники данных, что ускоряет и упрощает процесс обучения. Это может привести к более эффективным и мощным системам генерации текстов, которые будут более устойчивыми к разным типам данных. ## Выводы Наше исследование показало, что обучение моделей после их стандартного обучения может быть эффективно интегрировано в единую модель. Мы сформулировали новый подход, который динамически выбирает между различными типами данных и позволяет стабильно улучшать качество текста. Будущие исследования будут сфокусированы на расширении этой модели для более сложных задач, таких как диалоговые системы и моделирование знаний.

Annotation:

Two major sources of training data exist for post-training modern language models: online (model-generated rollouts) data, and offline (human or other-model demonstrations) data. These two types of data are typically used by approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT), respectively. In this paper, we show that these approaches are not in contradiction, but are instances of a single optimization process. We derive a Unified Policy Gradient Estimator, and present t...

ID: 2509.04419v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Delta Activations: A Representation for Finetuned Large Language Models

2025-09-06

Авторы:

Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim

#### Контекст Существует многочисленное количество открытого кода и моделей текстовых машинных носителей, созданных для конкретных задач и сфер, включая здравоохранение, юридические задачи и финансы. Однако существуют проблемы с организацией и поиском этих моделей, так как метаданные и репозитории часто являются несогласованными и неструктурированными. Это делает сложной навигацию и понимание того, как модели могут быть применены к новым задачам. Мы предлагаем Delta Activations, метод, который позволяет представить отлаженные модели в виде векторных представлений, измеряя изменения в их внутренних активациях относительно основной модели. Это представление позволяет эффективно кластеризовать модели по домену и задаче, демонстрируя структуру ландшафта моделей. #### Метод Delta Activations определяются как интегральные изменения внутренних активаций модели после обучения, относительно базовой модели. Мы используем методы снижения размерности, такие как t-SNE и UMAP, для визуализации векторных представлений. Для кластеризации используется agglomerative clustering, чтобы разделить модели по домену и задаче. Мы также проводим эксперименты для оценки свойств Delta Activations, включая робастность к разным схемам обучения, а также исследуем характеристики подхода для объединения моделей и выбора моделей. #### Результаты Мы проводим эксперименты с рядом отлаженных моделей, включая известные LLMs, построенные на основе масштабируемых архитектур, таких как T5 и RoBERTa. Мы проводим кластеризацию моделей по домену (например, здравоохранение и финансы) и по задаче (например, распознавание речи и перевод текста). Наши результаты показывают, что Delta Activations эффективно кластеризуют модели по схожести задач и домена, демонстрируя ценную структуру в ландшафте моделей. Мы также показываем, что Delta Activations могут быть использованы для выбора моделей и их объединения, а также позволяют закладывать задачи при помощи нескольких данных для подготовки. #### Значимость Delta Activations могут применяться для улучшения поиска, кластеризации и выбора моделей в среде больших текстовых моделей. Это позволяет сократить время и ресурсы, необходимые для понимания и применения моделей к новым задачам. Мы также ожидаем, что Delta Activations могут помочь повысить прозрачность и понимание в области обучения моделей, а также облегчить процесс применения моделей в различных сферах. #### Выводы Мы представили Delta Activations, метод для представления отлаженных моделей в виде векторных представлений, позволяющий эффективно кластеризовать модели по домену и задаче. Мы показали, что Delta Activations естественно вписываются в структуру ландшафта моделей, демонстрируя ценную информацию для понимания и применения моделей. Мы также показали,

Annotation:

The success of powerful open source Large Language Models (LLMs) has enabled the community to create a vast collection of post-trained models adapted to specific tasks and domains. However, navigating and understanding these models remains challenging due to inconsistent metadata and unstructured repositories. We introduce Delta Activations, a method to represent finetuned models as vector embeddings by measuring shifts in their internal activations relative to a base model. This representation ...

ID: 2509.04442v1 cs.LG, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 MEPT: Mixture of Expert Prompt Tuning as a Manifold Mapper

2025-09-05

Авторы:

Runjia Zeng, Guangyan Sun, Qifan Wang, Tong Geng, Sohail Dianat, Xiaotian Han, Raghuveer Rao, Xueling Zhang, Cheng Han, Lifu Huang, Dongfang Liu

## Контекст Многослойные нейронные сети (DNNs) часто интерпретируются как манифодные мапперы, которые могут активировать различные нейронные маршруты в зависимости от задачи. Однако подходы типа "предобучение-и-файн-тюнинг" (pretrain-then-fine-tune) обычно являются двухэтапными: предобучение устанавливает широкий базу знаний, а файн-тюнинг адаптирует модель к конкретной задаче. Несмотря на успех файн-тюнинга, его работа ограничена фиксированным пространством параметров, что не позволяет ему гибко адаптироваться к разнообразным и меняющимся распределениям данных. Эта проблема становится особенно актуальной в сложных и динамически изменяющихся различных областях применения. Мотивированы этими проблемами, авторы предлагают новый подход, **Mixture of Expert Prompt Tuning (MEPT)**, который предлагает более динамическую и эффективную модель для адаптации к нестационарным данным. ## Метод MEPT является надстроение на Mixture of Experts (MoE), структуру, которая использует несколько экспертов, каждый из которых специализируется на определенных подмножествах данных. В MEPT применяется процесс **prompt tuning**, где несколько предварительно обученных моделей (prompts) адаптируются к новым данным. Эта гибкость позволяет MEPT активировать только те нейронные пути, которые требуются для конкретной задачи, без необходимости переучивать все модельные параметры. Архитектура MEPT включает в себя несколько моделей (prompts), которые работают в параллели, и выбираются в зависимости от конкретной задачи. Это позволяет легко адаптироваться к различным манифолдам без значительного увеличения модели. ## Результаты Метод MEPT был протестирован на задаче классификации и обработки естественного языка (надстройка SuperGLUE). На этих задачах MEPT показал значительные улучшения по сравнению с другими параметр-эффективными методами. В частности, на SuperGLUE, MEPT улучшил средний результат на 1.94%, а также снизил число активируемых предложений (prompts) на 79.25%. Это указывает на то, что MEPT не только эффективнее, но и более экономно расходует ресурсы, активируя только те нейронные сети, которые необходимы для конкретной задачи. ## Значимость MEPT может быть применен в разных областях, где необходима гибкая адаптация к изменяющимся данным, например в медицине, финансах, интернет-технологиях, и т.д. Главное преимущество MEPT заключается в его универсальности и эффективности в активации только необходимых нейронных сетей, что позволяет экономить ресурсы и повысить производительность. Этот подход также может быть использован для обучения моделей, которые могут быть более сильно адаптированы к

Annotation:

Considering deep neural networks as manifold mappers, the pretrain-then-fine-tune paradigm can be interpreted as a two-stage process: pretrain establishes a broad knowledge base, and fine-tune adjusts the model parameters to activate specific neural pathways to align with the target manifold. Although prior fine-tuning approaches demonstrate success, their rigid parameter space limits their ability to dynamically activate appropriate neural pathways, rendering them ill-equipped to adapt flexibly...

ID: 2509.00996v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence

2025-09-05

Авторы:

Xingxuan Zhang, Gang Ren, Han Yu, Hao Yuan, Hui Wang, Jiansheng Li, Jiayun Wu, Lang Mo, Li Mao, Mingchao Hao, Ningbo Dai, Renzhe Xu, Shuyang Li, Tianyang Zhang, Yue He, Yuanrui Wang, Yunjia Zhang, Zijing Xu, Dongzhe Li, Fang Gao, Hao Zou, Jiandong Liu, Jiashuo Liu, Jiawei Xu, Kaijie Cheng, Kehan Li, Linjun Zhou, Qing Li, Shaohua Fan, Xiaoyu Lin, Xinyan Han, Xuanyue Li, Yan Lu, Yuan Xue, Yuanyuan Jiang, Zimu Wang, Zhenlei Wang, Peng Cui

## Контекст Область исследования связана с развитием продолжительных технологий универсального знания, которые могут обрабатывать различные типы данных. Несмотря на успех моделей, ориентированных на обработку текстов и изображений, существуют значительные проблемы в обработке данных структурированного характера, таких как табличные данные. Они широко применяются в науке, технике и бизнесе, но по-прежнему представляют заметные проблемы в обработке. Один из главных трудностей заключается в том, что существующие модели не в состоянии обрабатывать такие данные с высокой точностью. Таким образом, в целях достижения универсального знания необходимо развитие моделей, которые могут эффективно работать с структурированными данными. ## Метод Методология, использованная в работе, основана на технологии **Masked Joint-Distribution Modeling**, которая позволяет модели LimiX обрабатывать структурированные данные. Данная модель рассматривается как распределение переменных, отсутствующих в данных, в сочетании с их маской. Модель позволяет решать различные задачи, такие как классификация, регрессия и восстановление отсутствующих данных, с помощью **Query-Based Conditional Prediction**. Одним из основных преимуществ этого подхода является то, что модель может быть применена к различным задачам без постоянного обучения, что упрощает ее использование. Такая архитектура позволяет LimiX быть универсальной моделью для разных типов задач, используя единое решение для различных ситуаций. ## Результаты Результаты исследования указывают на высокую точность LimiX в различных типах задач, включая классификацию, регрессию и восстановление отсутствующих данных. Он превосходит существующие модели, такие как градиентные бустинговые деревья, нейросети для табличных данных и другие модели, основанные на табличных данных. Это достигается благодаря универсальной структуре модели, которая позволяет работать с различными режимами обучения и использует единственный интерфейс для различных задач. Эти результаты были получены в результате экспериментов с данными, включая несколько бенчмарков с разными характеристиками, такими как размер, число признаков, классов и представления данных. ## Значимость Полученные результаты могут быть применены в различных областях, таких как бизнес-аналитика, химическая инженерия, финансы и медицина, чтобы сделать табличные данные более доступными и эффективными для обработки. Основное преимущество LimiX заключается в его универсальности и точности при обработке различных структурированных задач без необходимости постоянного тренирования модели. Это может привести к значительным улучшения

Annotation:

We argue that progress toward general intelligence requires complementary foundation models grounded in language, the physical world, and structured data. This report presents LimiX, the first installment of our large structured-data models (LDMs). LimiX treats structured data as a joint distribution over variables and missingness, thus capable of addressing a wide range of tabular tasks through query-based conditional prediction via a single model. LimiX is pretrained using masked joint-distrib...

ID: 2509.03505v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Poison Once, Refuse Forever: Weaponizing Alignment for Injecting Bias in LLMs

2025-08-29

Авторы:

Md Abdullah Al Mamun, Ihsen Alouani, Nael Abu-Ghazaleh

--------------------------------------------------------------------------------------------------------------- ## Контекст **Область исследования** Large Language Models (LLMs) широко применяются в различных сферах, включая здравоохранение, образование и экономические процессы. Их универсальность и мощь делают их незаменимыми инструментами. Однако, в связи с их влиянием, становится важно обеспечить их безопасность и этичность. **Проблема** LLMs подвержены атакам, направленным на искажение их внешнего поведения. Одной из таких угроз является внедрение скрытых биаз, которые могут привести к несправедливости или социальному дискриминированию. **Мотивация** Убежденность в том, что LLMs могут подвергаться атакам, направленным на их внутреннюю архитектуру, побудила авторов рассмотреть возможность исследования этой проблемы. Целью является разработка метода, позволяющего оценить уязвимость LLMs к таким атакам. --------------------------------------------------------------------------------------------------------------- ## Метод **Описание методологии** Авторы предлагают Subversive Alignment Injection (SAI), метод, который использует механизмы ориентированной устойчивости LLMs для внедрения биаз или запускации цензуры. Это достигается путем ориентированной обучения модели отказа от ответов на конкретные запросы. **Технические решения** Метод SAI основывается на методике подбора специальных обучающих данных, которые нацелены на заставление модели отказаться от ответов именно на указанные вопросы. Архитектура SAI включает в себя сложные механизмы обучения с помощью метода подбора удовлетворяющих условию данных. **Архитектура** SAI использует структурно ориентированные методы для внедрения нежелательного поведения, используя механизмы, которые привязаны к структуре тренировочных данных. --------------------------------------------------------------------------------------------------------------- ## Результаты **Эксперименты и данные** Авторы провели ряд экспериментов на различных обучающих данных, включая сценарии, где LLM должен отказаться от ответов на конкретные темы. Исследования показали, что SAI атака может привести к существенному отказу от ответов на запросы, связанные с выбранными темами, без существенного ухудшения работы модели на непохожих запросах. **Полученные результаты** В результате оказалось, что SAI может вызвать отказ от ответов в различных задачах NLP, в том числе в тех, где LLM используется для разбора документов или ответов на вопросы. Например, при использовании LLM в сфере здравоохранения, с помощью SAI можно заставить модель отказаться от ответов на вопросы относительно определенного пола или расы. --------------------------------------------------------------------------------------------------------------- ## Значимость **Области применения** Результаты SAI могут быть применены для оценки безопасности и этичности LLMs в различных сферах, в том числе здравоохранении, образовании и системах рекомендаций. **Преимущества** SAI предоставляет новы

Annotation:

Large Language Models (LLMs) are aligned to meet ethical standards and safety requirements by training them to refuse answering harmful or unsafe prompts. In this paper, we demonstrate how adversaries can exploit LLMs' alignment to implant bias, or enforce targeted censorship without degrading the model's responsiveness to unrelated topics. Specifically, we propose Subversive Alignment Injection (SAI), a poisoning attack that leverages the alignment mechanism to trigger refusal on specific topic...

ID: 2508.20333v1 cs.LG, cs.AI, cs.CL, cs.DC

arXiv PDF

📄 MERIT: Maximum-normalized Element-wise Ratio for Language Model Large-batch Training

2025-08-29

Авторы:

Yang Luo, Zangwei Zheng, Ziheng Qin, Zirui Zhu, Yong Liu, Yang You

#### Контекст Повышение эффективности обучения глубоких нейронных сетей с помощью больших пакетов данных (large-batch training) является ключевым подходом для ускорения процесса обучения. Однако этот подход сопряжен с оптимизационными и затруднениями в общей Flexibility сетей. Особенно это чувствительно для моделей языка (language models), где увеличение размера пакета данных приводит к проблемам в оптимизации, в частности, к появлению "информационного бутапка" в слоях аттенции (attention layers). Это происходит из-за роста максимального значения аттенционного веса (max attention logit), который нарушает нормальное распределение весов. Традиционные методы, такие как LAMB, не полностью успешны в решении этой проблемы, так как их нормы $l_2$-based не всегда эффективны в контроле максимальных значений в аттенциях. #### Метод Мы предлагаем MERIT (Maximum-normalized Element-wise Ratio for Language Model Large-batch Training) — новую методологию для оптимизации больших пакетов в языковых моделях. MERIT использует максимальное значение (max-norm) для вычисления масштабирования (trust ratio), что позволяет более эффективно контролировать максимальные значения в аттенциях. Для дополнительного улучшения, мы вводим элемент-wise trust ratios, которые учитывают локальные структуры весов внутри каждой строки и столбца. Это позволяет лучше оптимизировать градиенты и сохранить стабильность обучения. #### Результаты Мы провести ряд экспериментов с GPT-2 моделями разных размеров (Small, Medium, Large). Наиболее заметным результатом была проверка на GPT-2 Medium, где MERIT позволил использовать большие пакеты данных (batch size 6k) без каких-либо потерь в качестве обучения, что соответствует использованию batch size 480 при обучении на 48B токенов. Это демонстрирует улучшение стабильности и эффективности обучения в сравнении с LAMB и AdamW. #### Значимость MERIT имеет широкие применения в области обучения языковых моделей, особенно при использовании больших пакетов данных. Он позволяет увеличить скорость обучения без потери качества и повысить удобство итерации при разработке моделей. Его преимущества включают улучшенную стабильность, эффективность и гибкость в тренировке моделей, что делает его ключевым инструментом для современного NLP. #### Выводы Мы представили MERIT — новую методологию для больших пакетов в языковых моделях, которая решает проблему максимальных аттенционных весов. Его успех указывает на важность учета max attention logit в оптимизации и открывает новые возможности для более быстрой и качественной разработки больших языковых моделей. Будущие исследования будут ориентированы на расширение MERIT для других типов нейронных сетей и его применение в сложных задачах NLP.

Annotation:

Large-batch training has become a cornerstone in accelerating the training of deep neural networks, yet it poses challenges in optimization and generalization. Existing optimizers like AdamW present performance degradation during language models' large-batch training, due to the information bottleneck in attention layers caused by the sharp increase of max attention logit. While the LAMB optimizer partially addresses this issue, some attention layers still face this issue. The reason is that $l_...

ID: 2508.20577v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 GDS Agent: A Graph Algorithmic Reasoning Agent

2025-08-29

Авторы:

Borun Shi, Ioannis Panagiotas

## Контекст Новые развития в области графовых алгоритмов и искусственного интеллекта позволяют обрабатывать и анализировать сложные структуры данных, но существуют значительные ограничения в их объединении с новыми моделями глубокого обучения, такими как большие языковые модели (LLMs). Хотя эти модели показали возможность решать разнообразные задачи, включая составные задачи, которые требуют различных способов решения, они сталкиваются с трудностями при работе с большими и сложными графовыми данными. Требуется новый подход, который бы объединил мощь LLMs с графовыми алгоритмами для эффективного решения задач, которым необходима графовая модель. ## Метод GDS Agent (Graph Data Science Agent) представляет собой современное решение для обработки и анализа данных в виде графов, которое интегрирует сложные графовые алгоритмы в сочетании с традиционными методами обработки текста, используя LLMs. Основной элемент GDS Agent — это Model Context Protocol (MCP), который позволяет интегрировать графовые алгоритмы с любой моделью глубокого обучения. Сервер GDS Agent использует широкий набор графовых алгоритмов, включая алгоритмы для поиска, распределения, группировки и других задач, и поддерживает их расширение с помощью пользовательских алгоритмов. Он также поддерживает пре- и пост-обработку данных, чтобы обеспечить точные и полезные ответы на запросы пользователей. ## Результаты В ходе экспериментов GDS Agent был протестирован на различных графовых задачах, включая поиск путей, кластеризацию, изоляцию вершин, а также более сложные задачи, для которых необходимо использовать глубокую интеллектуальную обработку. Результаты показали, что GDS Agent обеспечивает высокую точность и быстродействие при обработке задач, которым необходим графовый анализ. Был придуман новый бенчмарк, оценивающий интерфейсные вызовы и результаты, и он позволил проверить способность GDS Agent решать задачи сложной структуры. Отчет также включает случаи, где агент сталкивался с проблемами в решении, что дает возможность улучшить его в будущем. ## Значимость GDS Agent может быть применен в различных областях, где требуется графовый анализ, включая сетевые анализы, социальные сети, логистику, моделирование бизнес-процессов и многие другие. Он обеспечивает высокую точность и скорость решения задач, которые требуют анализа и расчета в графовой модели. Также GDS Agent может быть использован для расширения возможностей существующих лингвистических моделей, обеспечивая их доступ к графовым данным и возможность проводить графовый анализ непосредственно в контексте задачи. ## Выводы GDS Agent — это новая модель, кото

Annotation:

Large language models (LLMs) have shown remarkable multimodal information processing and reasoning ability. When equipped with tools through function calling and enhanced with retrieval-augmented techniques, compound LLM-based systems can access closed data sources and answer questions about them. However, they still struggle to process and reason over large-scale graph-structure data. We introduce the GDS (Graph Data Science) agent in this technical report. The GDS agent introduces a comprehens...

ID: 2508.20637v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Linear-Time Demonstration Selection for In-Context Learning via Gradient Estimation

2025-08-29

Авторы:

Ziniu Zhang, Zhenshuo Zhang, Dongyue Li, Lu Wang, Jennifer Dy, Hongyang R. Zhang

## Контекст В последние годы стала особенно актуальной работа с глубокими нейронными сетями, особенно в области обучения с подкреплением и машинного обучения. Одна из самых выгодных особенностей нейронных сетей — их потенциал для интеллектуального обработки больших объемов данных. Однако, в связи с этим потенциалом возникли новые проблемы, связанные с выбором оптимальных демонстрационных примеров для обучения. В частности, проблема выбора эффективных демонстраций для в контекстном обучении через интерпретацию информации попала в центр внимания. Необходимость быстрого и эффективного выбора примеров для ускорения процесса обучения и повышения точности модели стала приоритетной задачей в этой области. ## Метод Для решения этой задачи была разработана методология, основанная на использовании градиентной оценки. Метод предполагает вычисление градиентов модели в отношении входных примеров. На основе этих градиентов производится первоначальная оценка модели, которая позволяет производить выбор примеров без полного вычисления всех возможных комбинаций. Этот подход использует множество случайно выбранных подмножеств примеров, которые позволяют оценить вклад каждого примера в процесс обучения. Затем, с помощью этих оценок, выбираются $k$ самых важных примеров для дальнейшего обучения. Этот метод имеет линейную сложность по отношению к размеру модели и размеру обучающего множества. ## Результаты Опытные испытания проводились на различных моделях и данных. Было показано, что данный метод позволяет выбирать $k$ демонстрационных примеров быстрее, с меньшей ошибкой и высокой точностью. Например, средний процент улучшения выбора примеров составил около $11\%$ в сравнении с существующими методами, основанными на интерпретации входных примеров. Была также проведена оценка точности, показав, что градиентная оценка дает примерно $\mathbf{1}\%$ ошибки в сравнении с полным вычислением. Это позволяет ускорить выбор примеров до $\mathbf{37.7}\times$ при работе с моделями, имеющими до $34$ миллиардов параметров. ## Значимость Процедура выбора примеров, основанная на градиентной оценке, демонстрирует потенциал для распространенного применения в области контекстного обучения. Она позволяет существенно ускорить процесс обучения, уменьшить затраты ресурсов, а также повысить точность модели. Этот метод может быть применен в различных сферах, включая промышленные приложения, моделирование и анализ данных. Более того, он открывает новые возможности для расширения области применения нейронных сетей в сложных и больших объемах данных. ## Выводы На основе проведенных исследований, можно сделать вывод, что градиентна

Annotation:

This paper introduces an algorithm to select demonstration examples for in-context learning of a query set. Given a set of $n$ examples, how can we quickly select $k$ out of $n$ to best serve as the conditioning for downstream inference? This problem has broad applications in prompt tuning and chain-of-thought reasoning. Since model weights remain fixed during in-context learning, previous work has sought to design methods based on the similarity of token embeddings. This work proposes a new app...

ID: 2508.19999v1 cs.LG, cs.AI, cs.CL

arXiv PDF

1
2
21
22
23
24
25
27
28

Показано 221 - 230 из 278 записей