📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Aayush Mishra, Daniel Khashabi, Anqi Liu

#### Контекст Супервизированное тюнинг (Supervised Fine-Tuning, SFT) широко используется для приспособления моделей к конкретным задачам, позволяя их вырабатывать желаемые реакции на запросы. Однако модели, основанные на In-Context Learning (ICL), внедряют приемы взаимодействия во время инференса с использованием инструкций или демонстраций в подсказке. ICL обеспечивает лучшую общизну и более обоснованные ответы, особенно при недостатке данных, но при этом требует более высокого расхода вычислительных ресурсов. В данной работе мы рассматриваем вопрос о возможности использования внутренних вычислений ICL для повышения качества SFT. #### Метод Мы проводим исследования, которые показывают, что ICL и SFT используют разные механизмы функционирования, что демонстрируется разными активациями моделей. Чтобы использовать преимущества ICL, мы предлагаем технику само-дистилляции под названием ICL Activation Alignment (IA2). Эта методика нацелена на повторение активаций ICL в модели SFT, причем предварительное применение этой техники раньше SFT-процесса влияет на улучшение точности и калибровки моделей. Мы используем 12 основных бенчмарков и две модели для проверки нашего подхода. #### Результаты Наши эксперименты показали, что IA2 значительно улучшает точность и калибровку моделей в сравнении с стандартным SFT. На 12 бенчмарках и 2 моделях SFT с IA2 показали существенное увеличение качества исходных моделей. Эти результаты доказывают эффективность данного подхода и показывают, что ICL может быть эффективно интегрирована в SFT для повышения результатов. #### Значимость Данный подход имеет широкое применение в ситуациях, где данных для тюнинга мало, а требуется высокий уровень качества и калибровки результатов. IA2 позволяет использовать ICL как эффективное средство для улучшения SFT, не требуя дополнительных вычислений во время инференса. Это делает IA2 перспективным для применения в технологиях прикладного машинного обучения и систем многомодального понимания. #### Выводы Мы показали, что IA2 значительно улучшает качество SFT, используя ICL в качестве источника сигналов. Будущие исследования будут сфокусированы на детализации механизмов взаимодействия между ICL и SFT, а также на расширении этой техники для различных моделей и задач.
Annotation:
Supervised Fine-Tuning (SFT) is used to specialize model behavior by training weights to produce intended target responses for queries. In contrast, In-Context Learning (ICL) adapts models during inference with instructions or demonstrations in the prompt. ICL can offer better generalizability and more calibrated responses compared to SFT in data scarce settings, at the cost of more inference compute. In this work, we ask the question: Can ICL's internal computations be used to improve the quali...
ID: 2509.22621v1 cs.LG, cs.AI, cs.CL
Авторы:

Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei

## Контекст Ларже Лангуэдж Моделы (LLMs) широко используются для решения различных задач, включая генерацию текста, ответы на вопросы, трансформацию форматов, контентную генерацию и др. Однако эффективность этих моделей сильно зависит от используемых в процессе работы разума и согласованности стиля мышления. На данный момент, существует несколько стилей мышления, таких как Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT) и Chain-of-Draft (CoD). Несмотря на то, что у каждого стиля есть свои преимущества и недостатки, большинство тестирований проводились на отдельных моделях и задачах, что не позволяет получить полную картину их влияния на различные задачи и модели. В результате, возникает необходимость в разработке комплексного бенчмарка для тестирования и сравнения различных стилей мышления в LLMs. ## Метод Проведено значительное количество экспериментов, в которых 15 открытых моделей (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, DeepSeek) с параметрами от 270M до 120B были оценены на 5 различных задачах, используя 5 опций стиля мышления. Эти задачи включали в себя простые задачи форматирования, сложные задачи логического размышления и задачи с требованиями к поисковому процессу. Модели протестированы на различных уровнях параметров, чтобы понять, как масштаб модели влияет на ее возможности решать задачи с различными стилями мышления. Также были изучены архитектурные особенности моделей в различных задачах, чтобы понять, как они влияют на результат. ## Результаты На основе проведенных экспериментов выяснилось, что нет одного оптимального стиля мышления, который был бы эффективен для всех задач и моделей. Например, для работы с открытыми задачами (например, трансформация форматов), были самыми эффективными стили "Tree of Thought" (ToT) и "Algorithm of Thought" (AoT), которые демонстрировали высокую точность решений. Однако для задач с малой степенью неопределенности (таких как составление простых отчетов), были эффективными более короткие стили, такие как "Sketch of Thought" (SoT) и "Chain-of-Draft" (CoD), которые позволили экономить ресурсы, но при этом не уменьшили качество решения. Также были выявлены тенденции, когда малые модели часто не смогли выполнить инструкции или ошибались в выводах из-за недостатка параметров. ## Значимость Результаты данного исследования имеют значительное значение для развития систем машинного обучения. Бенчмарк StyleBench дает возможность глубокого понимания того, как различные стили мышления влияют на решения различных задач и модели. Это может быть использовано для выбора оптимальных стилей для конкретных задач, чтобы максимально эффективно использовать моде
Annotation:
The effectiveness of Large Language Models (LLMs) is heavily influenced by the reasoning strategies, or styles of thought, employed in their prompts. However, the interplay between these reasoning styles, model architecture, and task type remains poorly understood. To address this, we introduce StyleBench, a comprehensive benchmark for systematically evaluating reasoning styles across diverse tasks and models. We assess five representative reasoning styles, including Chain of Thought (CoT), Tree...
ID: 2509.20868v1 cs.LG, cs.AI, cs.CL
Авторы:

Hakaze Cho, Haolin Yang, Brian M. Kurkoski, Naoya Inoue

#### Контекст Большие языковые модели (LLMs) становятся все более популярными в различных приложениях, но их скрытые слои содержат множество функций, которые необходимо понять для механистической интерпретируемости. Несмотря на существующие методы, они часто ограничиваются локальными регуляризациями, что приводит к сбою в обеспечении глобальной спарсиности и атомарности функций. Это ограничивает понимание их работы. Мы предлагаем новый подход, основанный на методологии минимальной энтропии для более эффективной интерпретации. #### Метод Мы предлагаем Binary Autoencoder (BAE), который использует 1-битную дискретизацию скрытых активаций с помощью ступенчатой функции. Для обеспечения обратного распространения, мы применяем градиентное оптимизационное решение. Это позволяет BAE значительно уменьшить спарсиность и достичь лучшей атомарности. Мы также показываем, что BAE может вычислять сложность слоя и улучшать методы интерпретации для простоты и точности. #### Результаты Мы проверяем BAE на нескольких датасетах и LLM-моделях. Он показывает значительные улучшения в сравнении с базовыми методами: выводит больше точных функций и избегает заведомо неактивных. Мы также применяем BAE к оценке сложности и динамике LLMs и показываем, что он может лучше понять зависимости в In-context Learning. #### Значимость Предлагаемый подход может иметь широкое применение в области механистического понимания ЛСМ. Он позволяет улучшить понимание работы моделей, уменьшить количество заведомо неактивных функций и улучшить методы интерпретации. Это открывает пути для более глубокого понимания слоев скрытого слоя и их взаимодействия с задачами классификации, предсказания и In-context Learning. #### Выводы Мы представили Binary Autoencoder, позволяющий достичь минимальной энтропии в группе скрытых активаций для лучшего понимания LLMs. Он эффективно обеспечивает спарсиность и атомарность в 1-битных активациях. Мы показали, что BAE может лучше характеризовать динамику моделей и сократить функции, неактивные на масштабе минимальной энтропии. Будущие исследования будут стремиться к расширению этого метода для понимания других моделей и задач.
Annotation:
Existing works are dedicated to untangling atomized numerical components (features) from the hidden states of Large Language Models (LLMs) for interpreting their mechanism. However, they typically rely on autoencoders constrained by some implicit training-time regularization on single training instances (i.e., $L_1$ normalization, top-k function, etc.), without an explicit guarantee of global sparsity among instances, causing a large amount of dense (simultaneously inactive) features, harming th...
ID: 2509.20997v1 cs.LG, cs.AI, cs.CL
Авторы:

Hakaze Cho, Haolin Yang, Gouki Minegishi, Naoya Inoue

## Контекст In-context Learning (ICL) является продвинутой методологией нескольких примеров обучения, основанной на современных языковых моделях. Она позволяет моделям генерировать ответы на задачи, используя несколько примеров в качестве контекста. Несмотря на высокую точность и практическую полезность, механизм ICL остается недостаточно изученным. Этот недостаток ограничивает понимание способов оптимизации и применения этой методологии. Особенно актуальной является проблема необходимости удаления ненужной информации для улучшения фокусировки модели на задаче, что остается неясным. Данное исследование направлено на раскрытие такого механизма и на проведение экспериментов, подтверждающих его важность для повышения точности ICL. ## Метод Методология исследования основывается на анализе представлений в скрытых слоях моделей и применению техник, нацеленных на выделение и удаление ненужной информации. Исходный подход включал эксперименты с метриками, определяющими степень объединения информации в представлениях. Для отбора "денойзинговых" слоев, которые отвечают за удаление ненужной информации, применялась априорная оценка релевантности этих слоев в процессе вывода. Были разработаны новые метрики для измерения того, насколько хорошо ICL моделирует процесс выбора информации, относящейся к конкретной задаче. Эти алгоритмы позволяют регулировать поведение модели, принудительно выделяя нужное представление. ## Результаты На основе созданных метрик был проведен эксперимент, показавший, что ICL модели успешно отбирают информацию, относящуюся к конкретной задаче, и отбрасывают ненужные сведения. Этот процесс является ключевым для улучшения точности вывода. Были выявлены особенности работы "денойзинговых" слоев, которые отвечают за это удаление. Блокирование этих слоев приводит к существенной ухудшению точности ICL, особенно когда корректный ответ отсутствует в предоставленных демонстрациях. Эти результаты подтверждают важность информационного удаления для работы ICL. ## Значимость Результаты этого исследования имеют большое значение для области машинного обучения и специально для ICL. Они демонстрируют, что ICL модели могут ретрофитнуться для более точного удаления ненужной информации, что улучшает их применяемость в реальных задачах. Этот подход может быть использован в системах, требующих высокого фокусирования на конкретных задачах, таких как диагностика, поиск информации и принятие решений. На практике, это может привести к экономии ресурсов и повышению качества решений. ## Выводы В ходе исследования был показан значимый механизм информационного удаления в
Annotation:
In-context Learning (ICL) is an emerging few-shot learning paradigm based on modern Language Models (LMs), yet its inner mechanism remains unclear. In this paper, we investigate the mechanism through a novel perspective of information removal. Specifically, we demonstrate that in the zero-shot scenario, LMs encode queries into non-selective representations in hidden states containing information for all possible tasks, leading to arbitrary outputs without focusing on the intended task, resulting...
ID: 2509.21012v1 cs.LG, cs.AI, cs.CL
Авторы:

Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu

#### Контекст Стремительный развитий ИИ дал рождение крупным моделям рассуждений (Large Reasoning Models, LRMs), которые эффективно решают сложные задачи. Наибольшую эффективность они достигают при обучении на задачах, требующих глубокого математического рассуждения. Однако автоматическое синтезирование таких задач часто сталкивается с высокими затратами на вычисления и API, сложностью мотивирования и ограниченным уровнем сложности продуктов. Это значительно затрудняет масштабирование. Наша исследовательская группа разработала ScaleDiff, новый подход к эффективному масштабированию проблем с высоким уровнем сложности, чтобы стимулировать повышение уровня интеллектуальных моделей. #### Метод ScaleDiff основывается на простой, но эффективной методологии, которая позволяет эффективно отфильтровывать задачи с высоким уровнем сложности из уже имеющихся наборов данных. Мы применяем адаптивную модель "Thinking"/"NoThinking" для оценки сложности задачи. Эта модель работает в рамках одного прохода, что значительно уменьшает затраты на вычисления. Затем мы обучаем специализированный генератор сложных задач DiffGen-8B на фильтрованных данных. Это позволяет получать большое количество задач с высоким уровнем сложности без дорогостоящих процессов мотивирования для каждой задачи. Мы также проводим файн-тюнинг Qwen2.5-Math-7B-Instruct на ScaleDiff-Math, чтобы повысить производительность модели на сложных задачах. #### Результаты Мы провели эксперименты с ScaleDiff на множестве математических бенчмарков, включая AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 и MATH500. Qwen2.5-Math-7B-Instruct, настроенная на ScaleDiff-Math, показала повышение эффективности на 11.3% по сравнению с оригинальным набором данных. Она достигла 65.9% средней точности, превзойдя такие модели, как OpenThinker3. Это достижение было получено с использованием экономичного модели Qwen3-8B в качестве технического руководителя, что подтверждает эффективность нашего подхода без необходимости прибегать к дорожей модели. Мы также выявили явную тенденцию к повышению производительности с моделей, когда имеется больше сложности в обучающих данных. #### Значимость ScaleDiff может быть применен в различных областях, где требуется высокий уровень интеллектуального рассуждения, таких как образовательные платформы, проверки математических навыков или развитие интеллектуальных систем. Он отличается своим эффективным подходом к синтезу сложных задач и экономичностью в использовании ресурсов. Наши результаты могут положительно сказаться на развитии систем рассуждений и интеллектуальных систем, улучшая их качество и эффективность. #### Выводы Мы доказали эффектив
Annotation:
Large Reasoning Models (LRMs) have shown impressive capabilities in complex problem-solving, often benefiting from training on difficult mathematical problems that stimulate intricate reasoning. Recent efforts have explored automated synthesis of mathematical problems by prompting proprietary models or large-scale open-source models from seed data or inherent mathematical concepts. However, scaling up these methods remains challenging due to their high computational/API cost, complexity of promp...
ID: 2509.21070v1 cs.LG, cs.AI, cs.CL
Авторы:

Yu Ti Huang

#### Контекст В последнее время становится все важнее создавать роботы-консультанты, способные общаться на естественном языке и решать задачи, связанные с навигацией. Одной из ключевых проблем является перевод егогоцентрических указаний (например, "на моей правой стороне") в аллоцентрические направления (например, "на восток" или "на запад"). Данная задача становится особенно сложной в закрытых пространствах, таких как торговые центры и офисные здания, где сигналы GPS недоступны, и доступ к точным картам ограничен. Несмотря на то, что цепь мысли (Chain-of-Thought, CoT) позволила улучшить умения логического рассуждения в задачах языка и визуального распознавания, её применение к мультимодальной проблеме манипулирования спациальными ориентациями остается недостаточно исследовано. #### Метод Мы предлагаем Conversational Orientation Reasoning (COR), новую метрику для интерпретированных наборов данных на традиционном китайском языке, представленных в виде проекций реальных сред. Цель COR — развитие умений навигации, ориентируясь на смешанные сообщения, в том числе используя результаты транскрипции речи (ASR) и неточности в указаниях, встречающихся в реальных обстоятельствах. Мы предлагаем новую архитектуру Мультимодальной цепи мысли (MCoT), которая объединяет звуковые сигналы и координаты с помощью структурированного процесса в три этапа: (1) извлечение пространственных отношений, (2) преобразование координат в абсолютные направления и (3) интерпретация положения пользователя. Для развития COR в ресурсораспределенных условиях мы применили стратегию курсивного обучения, начиная с простых задач и продвигаясь к сложным. #### Результаты Мы провели исследования с помощью имитационного тестирования на реальных данных и показали, что MCoT достигает 100% точности на чистом тексте и 98,1% на текстах, полученных с помощью ASR. Это существенно превосходит результаты неупорядоченных и моно модальных подходов. Мы также проверили MCoT на нескольких тестах, связанных с контекстом, включая скейлинг по сложности, многоязычие и референтные неоднозначности. Модель показала высокую точность и устойчивость при различных условиях, что демонстрирует её потенциал в сфере интерактивного взаимодействия со средами. #### Значимость Мы видим возможности для применения нашего подхода в различных областях, включая промышленную навигацию, виртуальные помощники и системы управления в закрытых пространствах. МCoT обеспечивает интерпретируемые решения и эффективно использует ресурсы. Он также может быть применён к решению задач, в которых необходимо работать с нетрадиционными и м
Annotation:
Conversational agents must translate egocentric utterances (e.g., "on my right") into allocentric orientations (N/E/S/W). This challenge is particularly critical in indoor or complex facilities where GPS signals are weak and detailed maps are unavailable. While chain-of-thought (CoT) prompting has advanced reasoning in language and vision tasks, its application to multimodal spatial orientation remains underexplored. We introduce Conversational Orientation Reasoning (COR), a new benchmark design...
ID: 2509.18200v1 cs.LG, cs.AI, cs.CL, cs.RO
Авторы:

Prasanth K K, Shubham Sharma

#### Контекст Многие реальные классы являются многоформенными, с отдельными регионами в пространстве признаков, отведенными для каждого класса. Традиционные линейные модели, такие как логистическая регрессия или линейный SVM, используют единый глобальный пороговый слой и неэффективны при работе с такими данными. Однако высокосложностные методы, такие как RBF-SVM, деревья решений и неглубокие нейросети, могут хорошо подстроиться под многоформенные данные, однако это приводит к проблемам в интерпретируемости, высокой сложности настройки и большим потреблением ресурсов. Чтобы решить эти проблемы, мы предлагаем **Geometric Mixture Classifier (GMC)** — модель, представляющую каждый класс как смесь гиперплоскостей, что обеспечивает высокую точность и интерпретируемость. #### Метод GMC представляет каждый класс как смесь гиперплоскостей, где пороговые значения управляются тёплой операцией log-sum-exp с параметром "температура". Эта смесь позволяет гибко аппроксимировать логическое ИЛИ для классификации. Для улучшения многомерной структуры используются Random Fourier Features (RFF), что позволяет реализовывать нелинейности, не увеличивая сложность вывода, которая остаётся линейной по числу гиперплоскостей и признаков. Методы гиперпараметров GMC включают геометрически ориентированный к-средних для инициализации, бюджетирование гиперплоскостей с помощью метрики силуэта, линейная аннелинг-алгебра для штрафа, лабел-сглаживание и ранняя остановка. Это делает GMC простой в использовании и эффективным в применении. #### Результаты Мы провести эксперименты на синтетических многоформенных данных (в виде лун, кругов, спиралей, пузырьков) и реальных бенчмарках (IRIS, WINE, WDBC, цифры). GMC показал себя лучше линейных базовых моделей и k-NN, а также демонстрировал конкурентную скорость работы и точность по сравнению с RBF-SVM, Random Forest и неглубокими нейросетями. Благодаря геометрической интроспекции, GMC позволяет визуализировать ответы для каждой из гиперплоскостей и класса, что даёт пользователю глубокий пониманий работы модели. Также мы продемонстрировали, что **пост-хок температурная масштабирование** уменьшает Expected Calibration Error (ECE) с 0.06 до 0.02, что улучшает доверительность предсказаний. #### Значимость GMC обладает широким спектром применений в области многоклассовой классификации, включая как синтетические задачи, так и реальные задачи в области табличных и изображенческих данных. Он обеспечивает высокую точность, легкость в интерпретации и быстродействие, что делает его привлекательным для задач, где необходимо быстрое и прозрачно
Annotation:
Many real world categories are multimodal, with single classes occupying disjoint regions in feature space. Classical linear models (logistic regression, linear SVM) use a single global hyperplane and perform poorly on such data, while high-capacity methods (kernel SVMs, deep nets) fit multimodal structure but at the expense of interpretability, heavier tuning, and higher computational cost. We propose the Geometric Mixture Classifier (GMC), a discriminative model that represents each class as a...
ID: 2509.16769v1 cs.LG, cs.AI, cs.CL, 68T05, 62H30, 62M45, I.2.6; I.5.1; I.5.2; G.3
Авторы:

Junzhuo Li, Bo Wang, Xiuze Zhou, Xuming Hu

## Контекст В современной нейроинформатике наблюдается значительный рост внимания к моделям **Mixture-of-Experts (MoE)**, которые обеспечивают острое увеличение модельной мощности за счет использования спarsely gated expert subnetworks. Однако адаптация таких моделей к нескольким доменам представляет собой серьезную проблему, так как часто встречается так называемый **catastrophic forgetting** — убывание производительности на предыдущих задачах при обучении на новых. Традиционные подходы, такие как полное fine-tuning или кластеризация доменов, либо требуют высоких вычислительных затрат, либо неэффективны в условиях растущего числа доменов. Это влечет за собой необходимость разработки систем, которые могут справляться с этими проблемами с минимальными затратами ресурсов и четкой изоляцией доменных искажений. ## Метод Мы предлагаем **Dynamic Expert Specialization (DES)**, новую архитектуру для устранения проблемы catastrophic forgetting в моделях MoE. DES основывается на трех ключевых компонентах: 1. **Адаптивный раутер**, который стремится добиться баланса между сохранением предварительно обученного знания и приспособлению к новым задачам, используя методы дистилляции знаний. 2. **Корреляционная карта экспертов и доменов**, позволяющая определить изолированные градиенты для каждого домена, чтобы минимизировать влияние одного домена на другие. 3. **Тристадическая схема адаптивного fine-tuning**, которая постепенно замораживает неспециализированные параметры модели, уменьшая влияние изменений на общую структуру. Эти компоненты объединяются в систему, которая может эффективно адаптироваться к множеству доменов с минимальными затратами на обучение. ## Результаты Мы проводили эксперименты на данных, содержащих шесть различных доменов (включая математику, кодирование и правосудие). Наши результаты показывают, что DES-MoE полностью совпадает с показателями **single-domain ESFT**, но сохраняет возможность обучать единую модель. Мы сравнили DES-MoE с полным fine-tuning и обнаружили, что уменьшается **catastrophic forgetting** на 89% при увеличении числа доменов с 2 до 6. Благодаря изоляции доменных градиентов и адаптивной схеме обучения, DES-MoE существенно ускоряет конвергенцию в 68% по сравнению с традиционными методами. ## Значимость Наш подход имеет широкое применение в области многозадачного обучения с небольшими вычислительными затратами. Он позволяет уменьшить влияние catastrophic forgetting и повысить эффективность обучения в условиях многодоменности. Благодаря изоляции экспертов и доменов, DES-MoE может быть применен в задачах, требующих высокой степени настройки и изоляции, например, в юридических системах, медицинских решениях и компьютерных графических системах. ## Выводы Мы пред
Annotation:
Mixture-of-Experts (MoE) models offer immense capacity via sparsely gated expert subnetworks, yet adapting them to multiple domains without catastrophic forgetting remains an open challenge. Existing approaches either incur prohibitive computation, suffer cross-domain interference, or require separate runs per domain. We propose DES-MoE, a dynamic expert specialization framework for multi-domain adaptation of Mixture-of-Experts models. DES-MoE addresses catastrophic forgetting through three inno...
ID: 2509.16882v1 cs.LG, cs.AI, cs.CL
Авторы:

Weihua Du, Hailei Gong, Zhan Ling, Kang Liu, Lingfeng Shen, Xuesong Yao, Yufei Xu, Dingyuan Shi, Yiming Yang, Jiecao Chen

#### Контекст Одна из основных целей современной искусственной интеллектуальной системы — достижение границ заданного рабочего процесса. Несмотря на то, что существуют инструменты с искусственным интеллектом (LLMs), которые могут использоваться для выполнения различных задач в реальном мире, существуют проблемы, связанные с нехваткой гибкости в подходе. Например, существующие методы основываются на процедурах супервизованного оптимизации и расширения технических решений. Однако эти подходы ограничены рабочими процессами, в которых они были тренированы, и не могут обеспечивать общее понимание различных ситуаций. Кроме того, использование кода для примера демонстрирует многочисленные структуры в реальных рабочих процессах, что позволяет использовать его для развития оптимального алгоритма. Таким образом, целью этого исследования является создание нейросетевой системы, которая может использоваться для решения различных задач с помощью синтезированных скриптов. #### Метод Для решения этой проблемы предлагается методология, основанная на создании и использовании синтезированных скриптов. Основной идеей является изменение статических кодов на интерактивные среды, где можно активно испытать и оптимизировать рабочие процессы. Для этого был разработан фреймворк, названный CodeGym. Он состоит из двух основных элементов: (1) — создания верифицируемых задач с различными структурами рабочих процессов, и (2) — создания интерактивных сред для тестирования и оценки работы моделей. Это позволяет модели учиться, используя различные типы задач и ситуаций, что улучшает их гибкость и общую производительность. #### Результаты Проведено несколько экспериментов, в которых тестировались различные модели AI на синтезированных задачах. Для этого были использованы данные, полученные в рамках CodeGym, которые включали в себя различные типы синтезированных скриптов. На основе этих задач были проведены эксперименты, которые показали, что модели, обученные на CodeGym, показывают значительное улучшение в общей производительности и гибкости. Например, Qwen2.5-32B-Instruct показала абсолютный прирост точности в 8.7 баллов на OOD бенчмарке $\tau$-Bench. Эти результаты позволяют сделать вывод, что CodeGym является эффективным фреймворком для развития общего понимания различных рабочих процессов. #### Значимость CodeGym может быть использован в различных областях, где требуется улучшение гибкости и скорости решения задач. Он позволяет создавать интерактивные среды для тестирования и оценки работы моделей, что позволяет улучшать их возможности в рабочих процессах. Это может быть применено в задачах, где необхо
Annotation:
Tool-augmented large language models (LLMs), hereafter LLM agents, leverage external tools to solve diverse tasks and interface with the real world. However, current training practices largely rely on supervised fine-tuning (SFT) over static trajectories or reinforcement learning (RL) on narrow tasks, and generalize poorly beyond development settings, leading to brittleness with new tools and unseen workflows. Because code execution reflects many structures of real-world workflows, coding proble...
ID: 2509.17325v1 cs.LG, cs.AI, cs.CL
Авторы:

Sudhanshu Agrawal, Risheek Garrepalli, Raghavv Goel, Mingu Lee, Christopher Lott, Fatih Porikli

#### Контекст Diffusion-based Large Language Models (dLLMs) представляют собой мощный альтернативный подход к autoregressive LLMs (AR-LLMs), предоставляя возможность достичь высоких скоростей генерации текста. Однако, существующие реализации dLLMs часто работают на порядок медленнее, декодируя только один токен на каждом шаге декодирования, чтобы максимизировать качество результата. Это приводит к значительным ограничениям в производительности. Наша мотивация заключается в том, чтобы развить эффективные методы для ускорения dLLMs без потери качества. #### Метод Мы предлагаем Spiffy, алгоритм спекулятивного декодирования, который ускоряет dLLM-инференс на $\mathbf{2.8{-}3.1\times}$, сохраняя при этом высокое качество результатов. У нас нет дополнительных моделей для обучения или запуска в процессе работы Spiffy. Это решение оптимально использует свойства dLLM, основываясь на структуре bidirectional generation. Мы представляем вершины спекулятивных графов, которые построены на основе самой dLLM и могут быть проверены параллельно. Кроме того, мы предлагаем высокоэффективный, offline-тактинг алгоритм, который оптимизирует структуру этих графов для увеличения скорости принятия решений. #### Результаты Мы проверили Spiffy на нескольких бенчмарках. У нас получилось достичь скорости генерации $\mathbf{7.9\times}$ при одновременном использовании других методов, таких как KV-caching и multi-token unmasking. Эти результаты подтверждают, что Spiffy может эффективно ускорять работу dLLMs, даже при использовании дополнительных оптимизаций. #### Значимость Наша работа может применяться в различных областях, таких как NLP, NLG, и другие, где требуется быстрая генерация текста с высоким качеством. Мы считаем, что Spiffy может стать ключевым решением для снижения задержек в приложениях, требующих высокоскоростной обработки текста, таких как chatbots, real-time контент-генерация и др. #### Выводы Мы успешно достигли значительных ускорений в работе dLLMs, оптимизируя процесс спекулятивного декодирования. Будущие исследования будут сконцентрированы на расширении Spiffy для других моделей, включая AR-LLMs, и на поиске новых способов улучшить его производительность дальше.
Annotation:
Diffusion LLMs (dLLMs) have recently emerged as a powerful alternative to autoregressive LLMs (AR-LLMs) with the potential to operate at significantly higher token generation rates. However, currently available open-source dLLMs often generate at much lower rates, typically decoding only a single token at every denoising timestep in order to maximize output quality. We present Spiffy, a speculative decoding algorithm that accelerates dLLM inference by $\mathbf{2.8{-}3.1\times}$ while provably pr...
ID: 2509.18085v1 cs.LG, cs.AI, cs.CL
Показано 191 - 200 из 278 записей