📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Andrew Kyle Lampinen, Martin Engelcke, Yuxuan Li, Arslan Chaudhry, James L. McClelland

## Контекст В настоящее время машинное обучение становится все более важной частью жизни и работы, но существуют проблемы, связанные с его общей неэффективностью при применении в новых задачах. Одной из ключевых проблем является нехватка гибкости в использовании прошлых опытов для решения новых задач. Это связано с тем, что существующие системы машинного обучения часто закрепляются за задачей, для которой они были обучены, и слабо приспосабливаются к новым условиям. Это ставит под сомнение их универсальность и гибкость. Эти проблемы можно связать с тем, что машинное обучение не включает в себя "подсознательное" осваивание информации, которая не сразу же нужна для решения задачи, но может быть полезна в будущем. Этот вид обучения, известный как "latent learning", хорошо изучен в когнитивной науке и связан с работой эпизодической памяти. Наши результаты показывают, что эта идея может быть применена для улучшения машинного обучения, а именно для улучшения его универсальности и общей гибкости. ## Метод В нашем исследовании мы использовали модель, основанную на естественном языке, чтобы показать, как эпизодическая память может улучшить обучение. Мы ввели механизм, позволяющий модели "поискать" историю своих предыдущих опытов и использовать их в новых задачах. Этот механизм, называемый "oracle retrieval mechanism", позволяет модели хранить и получать доступ к предыдущим опытам, чтобы их можно было использовать в новых задачах. Мы также использовали многоуровневую модель, включающую в себя не только эта возможность поиска, но и механизмы, которые позволяют модели изучать и адаптироваться к новым данным. Мы применяли эту модель на различных задачах, в том числе на текстовых моделях и задачах навигации в игровых пространствах. ## Результаты Мы проверили нашу модель на различных задачах, включая задачи с перекрестным обучением, в которых система должна обучаться на одной задаче, но применять этот опыт для решения другой. Мы также проверили модель на задачах с новым типом навигации, где система должна принимать решения в новых средах, используя прошлый опыт. Мы обнаружили, что модель, использующая "oracle retrieval mechanism", показывает значительно лучшую гибкость и общую гибкость, чем модели без этого механизма. Другими словами, она может быстрее и эффективнее применять свой прошлый опыт для решения новых задач. Мы также обнаружили, что важность внутри-примера обучения (within-example in-context learning), которая позволяет модели строить связи между различными предыдущими опытами, чтобы использовать их в более разнообразных ситуациях. ## Значимость Наша работа может помо
Annotation:
When do machine learning systems fail to generalize, and what mechanisms could improve their generalization? Here, we draw inspiration from cognitive science to argue that one weakness of machine learning systems is their failure to exhibit latent learning -- learning information that is not relevant to the task at hand, but that might be useful in a future task. We show how this perspective links failures ranging from the reversal curse in language modeling to new findings on agent-based naviga...
ID: 2509.16189v1 cs.LG, cs.CL
Авторы:

Shiwan Zhao, Xuyang Zhao, Jiaming Zhou, Aobo Kong, Qicheng Li, Yong Qin

## Контекст Supervised fine-tuning (SFT) стал приоритетным подходом для настройки больших моделей языковых моделей. Он требует набора данных, содержащих демонстрации эксперта (базовой политики), которые традиционно используются для оценки модели в процессе обучения. Однако существуют проблемы, связанные с разным размером политик: проблема политического пространства, разница в мотивации и разрыв в данных. Эти проблемы могут привести к высокой ошибке, высокой вариативности и нестабильности в процессе обучения. Таким образом, есть сильная систематическая мотивация для создания методологий, которые просто и эффективно смогут свести разрыв между политиками. ## Метод Мы предлагаем фреймворк "Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning", который активно сводит разрыв между политиками перед началом обучения. Наш фреймворк делится на две основные части. В первой части мы используем модель для решения задач в процессе обучения: корректные демонстрации хранятся как "on-policy" данные, а неверные ответы переписываются через направленное решение. Во второй части мы применяем классический метод импортных выборок для уменьшения разрыва, когда обучение не может быть выполнено на основе самостоятельных моделей. Это двухэтапный подход, оптимизирующий обучение и сжимающий разрыв между политиками, что приводит к улучшенной стабильности и уменьшению вариативности. ## Результаты Мы проводим эксперименты на пяти математических бенчмарках, включая GSM8K, SVAMP, A-EQUIV, A-N-EQUIV, и A-EXP-EQUIV. Для каждого бенчмарка мы перестраиваем модель, как в тестировании, так и в обучении, используя наши методы. Мы установили, что метод "Mind the Gap" позволяет получить стабильные и лучшие результаты в сравнении с текущими лучшими решениями, в том числе Dynamic Fine-Tuning (DFT). Также мы показываем, что применение нашего метода приводит к снижению ошибки и высокой вариативности во время обучения, что является ключевым для создания надежной модели. ## Значимость Предлагаемый подход имеет широкие применения в ситуациях, где требуется уменьшить разрыв между политиками, таких как моделирование сложных задач, в том числе лингвистические задачи и математическое моделирование. Наш фреймворк демонстрирует значительные преимущества в сравнении с классическими методами, включая возможность применения к большим моделям. Этот подход может стать ключевым инструментом для развития моделей, улучшения их точности и надежности при работе с разными типами задач. ## Выводы Мы представили "Mind the Gap", фреймворк, который активно уменьшает разрыв между политиками в процессе обучения. Наши эксперименты показали значительное улучшение в сравнении с нынешними лу
Annotation:
Supervised fine-tuning (SFT) of large language models can be viewed as an off-policy learning problem, where expert demonstrations come from a fixed behavior policy while training aims to optimize a target policy. Importance sampling is the standard tool for correcting this distribution mismatch, but large policy gaps lead to skewed weights, high variance, and unstable optimization. Existing methods mitigate this issue with KL penalties or clipping, which passively restrict updates rather than a...
ID: 2509.15157v2 cs.LG, cs.CL
Авторы:

Zihao Feng, Xiaoxue Wang, Bowen Wu, Hailong Cao, Tiejun Zhao, Qun Yu, Baoxun Wang

#### Контекст Реинфорсментное обучение (RL) получило широкое распространение в области обучения с подкреплением (LLM-based tool learning), однако его эффективность часто страдает от огромного количества простых примеров, которые при обучении лишаются значимости. Эти примеры уже не способствуют эффективному улучшению модели. Особенно проблематично это для задач инструментального обучения, где присутствуют множество взаимосвязанных подзадач и многозначные сигналы вознаграждения. Существующие методы динамического выбора примеров (dynamic sampling methods) не учитывают эти специфические особенности, что приводит к неэффективному использованию ресурсов и ограниченному улучшению модели. #### Метод В этой работе предлагается новый подход, Dynamic Sampling with Curriculum Learning (DSCL), который адаптивно решает проблему производительности обучения с подкреплением в контексте инструментальных задач. Основные компоненты DSCL: 1. **Reward-Based Dynamic Sampling** — использует статистику по многомерным сигналам вознаграждения (среднее и дисперсия) для выделения наиболее ценных примеров. 2. **Task-Based Dynamic Curriculum Learning** — адаптивно направляет обучение на менее усвоенные подзадачи, увеличивая их вклад в общий процесс обучения. Эта архитектура позволяет эффективно использовать сложные сигналы вознаграждения и динамики подзадач в инструментальном обучении. #### Результаты Для оценки эффективности DSCL проводились различные эксперименты на BFCLv3 бенчмарке. Метод показал существенное улучшение производительности, достигнув значимое увеличение точности и эффективности обучения. Особенно заметно были улучшения в тех областях, где существуют многозначные сигналы вознаграждения и зависимости между подзадачами. На BFCLv3 DSCL демонстрировал улучшение в 3.29% по сравнению с базовыми методами, установив новый стандарт эффективности в этой области. #### Значимость DSCL представляет собой новый подход к решению проблемы эффективного обучения инструментальных моделей с подкреплением. Он применяется в сценариях, где требуется адаптивное управление обучением с учетом многозначных вознаграждений и сложности подзадач. Данный подход не только повышает эффективность обучения, но и оптимизирует ресурсы, делая процесс более эффективным. Его потенциал применения распространяется на многие области, где инструменты обучаются с подкреплением, в том числе прикладные решения в области искусственного интеллекта. #### Выводы Основным достижением DSCL является его успех в усовершенствовании процесса обучения инструментальных моделей. Этот подход демонстрирует преимущества в увеличении производительности и эффективности обучения. Будущие работы будут сосредото
Annotation:
While reinforcement learning (RL) is increasingly used for LLM-based tool learning, its efficiency is often hampered by an overabundance of simple samples that provide diminishing learning value as training progresses. Existing dynamic sampling techniques are ill-suited for the multi-task structure and fine-grained reward mechanisms inherent to tool learning. This paper introduces Dynamic Sampling with Curriculum Learning (DSCL), a framework specifically designed to address this challenge by tar...
ID: 2509.14718v1 cs.LG, cs.CL
Авторы:

Dan Zhang, Min Cai, Jonathan Li, Ziniu Hu, Yisong Yue, Yuxiao Dong, Jie Tang

## Контекст Одной из ключевых проблем в области глубокого обучения с подкреплением (Reinforcement Learning, RL) для языковых моделей является необходимость эффективного обучения моделей награды (reward models). Наградные модели широко используются для расширения возможностей языковых моделей, в том числе для решения задач поиска, вывода и моделирования целей в тексте. Однако существующие модели награды часто не устойчивы к изменениям во входных данных и не обеспечивают гладкую и консистентную оценку поведения агента. Это приводит к нестабильности во время обучения и неэффективным политикам. Необходимо разработать метод, который улучшит свойства наградных моделей, обеспечив более стабильное и эффективное обучение. ## Метод Мы предлагаем **TDRM (Temporal Difference Reward Model)**, метод, который использует принципы временных разностей (temporal differences, TD) для обучения наградных моделей. Целью TDRM является уменьшение значения временных разностей во время обучения, что приводит к более гладким и консистентным наградам. Метод основывается на актор-критик-стиле обучения и включает в себя регуляризацию темпоральных разностей. Для тренировки TDRM используются большие языковые модели (LLM) в качестве критиков, а процессу обучения применяется техника подкрепления (RL), что позволяет использовать TDRM как для RL, так и для инференса. Также мы рассматриваем возможность использования TDRM в серии с методом Reinforcement Learning with Verifiable Rewards (RLVR). ## Результаты Мы провели эксперименты на нескольких наборах данных, включая best-of-N, tree-search и RLVR. Результаты показали, что TDRM улучшает производительность в best-of-N на 6.6% и в tree-search на 23.7%. Кроме того, комбинация TDRM с RLVR дает данным эффективность: с 2.5k данных TDRM достигает результатов, которые стандартные методы достигают только с 50.1k данных. Мы провели эксперименты с пятью моделями языка, включая Qwen, GLM и DeepSeek, и подтвердили, что TDRM улучшает качество политик и обеспечивает более стабильное обучение. Эти результаты показывают, что TDRM значительно улучшает качество наградных моделей и увеличивает эффективность RL. ## Значимость Метод TDRM может быть применен во многих областях, где требуется эффективное моделирование наград для RL или проверка на выводе (verification). Он является сильным дополнением к существующим методам, таким как RLVR, и может применяться в серии с ними. Главное преимущество TDRM заключается в его улучшенной стабильности и высоком качестве оценки поведения агента. Это приводит к более эффективному и действительному пользовательскому поведению. Будущие исследования будут сфокусированы на расширении применимости TDRM к более широким задачам и на проведении экспери
Annotation:
Reward models are central to both reinforcement learning (RL) with language models and inference-time verification. However, existing reward models often lack temporal consistency, leading to ineffective policy updates and unstable RL training. We introduce TDRM, a method for learning smoother and more reliable reward models by minimizing temporal differences during training. This temporal-difference (TD) regularization produces smooth rewards and improves alignment with long-term objectives. In...
ID: 2509.15110v1 cs.LG, cs.CL
Авторы:

Shiwan Zhao, Xuyang Zhao, Jiaming Zhou, Aobo Kong, Qicheng Li, Yong Qin

## Контекст Настоящая работа затрагивает область применения глубокого обучения, а именно супервайзированное отображение языковых моделей (Supervised Fine-Tuning, SFT). Эта проблема возникает в ситуациях, когда необходимо отобразить знания, полученные на больших моделях, на конкретные задачи или домены. Одним из основных вызовов SFT является распределительный шум, который возникает из-за различий между распределением данных, используемых при обучении модели, и распределением данных, применяемых в реальных задачах. Этот распределительный шум может привести к увеличению вариации при обучении и ухудшению качества результатов. Данная работа адресует эту проблему, предлагая новую методологию, которая стремится активно уменьшить распределительный шум и улучшить стабильность SFT. ## Метод Предлагаемый подход, названный **Data Rewriting for Stable Off-Policy Supervised Fine-Tuning**, представляет собой проактивную методологию для уменьшения распределительного шума. Основная идея заключается в том, чтобы продолжительность обучения нормализовать, используя данные, которые ближе всего соответствуют целевой политике. Для этого используется фреймворк, который решает задачи с помощью экспертного способа, но при этом активно выявляет неверные решения и вносит исправления. Это позволяет создавать набор данных, который более соответствует целевому распределению. Таким образом, модель обучается с меньшим распределительным шумом, что улучшает стабильность и эффективность SFT. ## Результаты Исследования проводились на пяти различных математических задачах, для которых использовались различные модели языка. Результаты показали, что использование предложенного фреймворка приводит к существенному улучшению производительности в сравнении с классическим SFT и динамическим SFT (Dynamic Fine-Tuning). Особенно заметны повышения в производительности на задачах, где распределительный шум был достаточно сильным. Эксперименты также показали, что фреймворк существенно уменьшает вариацию и стабилизирует процесс обучения. ## Значимость Предложенный подход может быть применен в различных областях, где требуется высокая точность и стабильность при применении языковых моделей. Например, в области математического моделирования, документации, интерпретации законодательных норм и других задачах, где требуется высококачественная генерация текста. Особым преимуществом является уменьшение вариации и улучшение стабильности обучения, что позволяет использовать модели в реальном мире более эффективно. Это может привести к значительным пользам в области прикладных задач, где SFT используется. ## Выводы Предлагаемый подход демонстрирует значительные достижения
Annotation:
Supervised fine-tuning (SFT) of large language models can be viewed as an off-policy learning problem, where expert demonstrations come from a fixed behavior policy while training aims to optimize a target policy. Importance sampling is the standard tool for correcting this distribution mismatch, but large policy gaps lead to high variance and training instability. Existing approaches mitigate this issue using KL penalties or clipping, which passively constrain updates rather than actively reduc...
ID: 2509.15157v1 cs.LG, cs.CL
Авторы:

Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu

#### Контекст Эволюция языковых моделей (LLMs) становится все более важной в свете их широкого применения в реальном мире. Однако существующие методы обучения LLMs часто опираются на руководство от экспертов или внешние оценки. Это требует больших затрат на сбор данных и не позволяет моделям развиваться в автономном режиме. В статье "Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation" авторы адресуют проблему самостоятельного развития LLMs без меток или руководства, что очень важно для их улучшения в автономном режиме и применения в реальном мире. На данный момент, существующие методы, такие как Test-Time Reinforcement Learning (TTRL), лишь адаптируют модели к конкретным данным без меток, но не решают проблему общего улучшения и сохранения разнообразия. Мотивированы тем, чтобы развить модели, которые могут самостоятельно улучшаться, без потери эксплорейшн-компоненты, авторы предлагают новый подход. #### Метод Авторы предлагают "EVOLution-Oriented and Label-free Reinforcement Learning" (EVOL-RL), метод, который стабилизирует обучение (через выбор мажоритетных ответов) и поддерживает разнообразие (через новизну ответов). EVOL-RL активно использует не только данные из RLVR-подхода, но и симметричные и асимметричные регуляризаторы, чтобы улучшить обучение. Асимметричное сворачивание вероятностей позволяет сохранить сильные сигналы, а регуляризатор энтропии поддерживает разнообразие в ответах. Этот подход позволяет моделям развиваться без ущерба для разнообразия и избегает "энтропийного развала", когда ответы становятся короткими и менее диверсифицированными. Этот метод имплементируется в контексте Gradient Policy Optimization (GRPO). #### Результаты Авторы проводят эксперименты на нескольких датасетах, таких как AIME24 и GPQA, сравнивая EVOL-RL с базовым TTRL. Они показывают, что EVOL-RL не только предотвращает "энтропийный развал", но и повышает качество генерации, увеличивая pass@1 и pass@n. Например, при обучении Qwen3-4B-Base на AIME24, EVOL-RL повышает pass@1 от 4.6% до 16.4%, а pass@16 от 18.5% до 37.9% в сравнении с TTRL. Эти результаты демонстрируют, что EVOL-RL улучшает качество генерации и разнообразие, сохраняя силу исследования моделей. Более того, EVOL-RL показывает свою эффективность не только в самостоятельном обучении, но и в применении к RLVR-подходу, демонстрируя широкую применимость. #### Значимость EVOL-RL предлагает новый подход к развитию LLMs без внешних меток, что может быть успешно применен в сценариях, где сбор меток трудоемк и дорогостоящий. Этот подход не только поддерживает разнообразие в ответах, но и улучшает общую ценность моделей в
Annotation:
Large language models (LLMs) are increasingly trained with reinforcement learning from verifiable rewards (RLVR), yet real-world deployment demands models that can self-improve without labels or external judges. Existing label-free methods, confidence minimization, self-consistency, or majority-vote objectives, stabilize learning but steadily shrink exploration, causing an entropy collapse: generations become shorter, less diverse, and brittle. Unlike prior approaches such as Test-Time Reinforce...
ID: 2509.15194v1 cs.LG, cs.CL
Авторы:

Bishnu Bhusal, Manoj Acharya, Ramneet Kaur, Colin Samplawski, Anirban Roy, Adam D. Cobb, Rohit Chadha, Susmit Jha

Резюме научной статьи ====================== ## Контекст Large language models (LLMs) являются мощными инструментами для обработки и генерации естественных языков, но при этом имеют серьезные проблемы в области личной информации. В современном мире, где секретность и защита данных являются критичными, выявлено, что эти модели могут разглашать конфиденциальную информацию, внедренную в свои выводы. Эта проблема, известная как "информационный вытекающий", возникает из-за того, что модели могут угадывать или даже извлекать конфиденциальные данные из входных запросов пользователей. Несмотря на то, что существуют методы, направленные на уменьшение этой проблемы, они часто требуют сложного тренировочного процесса или теряют качество в генерируемом тексте. Наша мотивация заключается в создании алгоритма, который обеспечит высокое качество вывода, сохранив при этом гарантии приватности. Это важно не только для пользователей, но и для организаций, которые используют LLMs в своих приложениях. ## Метод Мы предлагаем новую модель, основанную на фреймворке Differential Privacy (DP). Этот подход предполагает, что модель не использует никакие дополнительные данные для тренировки, чтобы избежать риска информационного вытекающего. Мы используем метод прогнозирования, в котором LLM выполняет запрос к одной записи за раз, а результаты объединяются в последовательность. Эта последовательность потом обрабатывается, чтобы обеспечить сглаживание и улучшение текста. Кроме того, мы вводим простую операцию смешивания, которая сочетает приватные и публичные выводы модели. Эта операция позволяет улучшить качество генерируемого текста, не уменьшая при этом приватности. Мы также используем эффективный метод для управления вероятностью вытекающего, чтобы гарантировать, что даже при максимальном риске, информация останется скрыта. ## Результаты Мы проверили нашу модель на различных примерах в контексте in-context learning (ICL), используя различные данные, включая корпусы, часто используемые в тестировании LLMs. Наши результаты показывают, что модель превосходит существующие методы как по качеству текста, так и по уровню защиты приватности. Например, наша модель показала значительный выигрыш в точности генерирования текста при одновременном сохранении гарантий приватности. Благодаря нашему подходу, мы можем генерировать длинные и когерентные тексты, не рискуя вытеканием конфиденциальной информации. Это имеет критическое значение для приложений, где гарантия конфиденциальности является критической, например, в области здравоохранения или финансов. ## Значимость Наш подход
Annotation:
Large language models (LLMs) have significantly transformed natural language understanding and generation, but they raise privacy concerns due to potential exposure of sensitive information. Studies have highlighted the risk of information leakage, where adversaries can extract sensitive information embedded in the prompts. In this work, we introduce a novel private prediction framework for generating high-quality synthetic text with strong privacy guarantees. Our approach leverages the Differen...
ID: 2509.13625v1 cs.LG, cs.CL, cs.CR
Авторы:

Rishab Parthasarathy, Achintya Bhowmik

## Контекст Канцер остается вторым по распространенности причиной смерти в мире, с более чем 600 000 погибших в год в США. Одной из перспективных областей в борьбе с этой болезнью является путический анализ, который дает возможность понять, как развивается опухоль. Однако данный подход требует времени и ресурсов, так как основывается на лабораторных исследованиях, которые занимают много времени и стоимостью. В данной работе предлагается новый подход, основывающийся на искусственных нейронных сетях и машинном обучении, который позволит более эффективно прогнозировать развитие канцерогенных мутаций и рекомендовать лечение. ## Метод Работа основывается на использовании временных рядов и машинного обучения для прогнозирования прогрессирования мутаций. Для этого был создан новый алгоритм подготовки данных, который фильтрует ключевые мутации по их частоте во всемирной базе данных генома рака (TCGA). Эти данные подавались в расчет на Recurrent Neural Network (RNN) модель, которая прогнозировала серьезность рака. Далее, использовались предсказания RNN, полученные данные о мутациях и базы данных целей для лекарств, чтобы прогнозировать будущие мутации и рекомендовать возможные лечения. Данный подход включает в себя эффективную обработку данных, что позволяет выделить ключевые мутации в каждой стадии рака. ## Результаты Авторы провестили эксперименты, используя данные из базы TCGA. Модель показала высокую точность по ROC-кривым (до 60%), что соответствует уровню диагностики рака существующих методов. Ключевые мутации были выявлены в каждой стадии рака с помощью heatmaps, которые показывают частоту появления определенных генов. Таким образом, модель стала первой, которая предлагает эффективный и современный подход к прогнозированию рака и лечению без необходимости времени и бюджета для лабораторных исследований. ## Значимость Предложенная модель может быть использована в медицине для более точного прогнозирования рака и разработки лечения. Ее преимущество заключается в том, что она эффективна, не требует больших финансовых и временных затрат, а также может быть применена для разных видов рака. В будущем, этот подход может помочь улучшить диагностику, повысить точность прогнозирования и уменьшить время от диагноза до начала лечения. ## Выводы Работа представляет собой первый шаг к созданию эффективного и эффективного фреймворка для прогнозирования прогрессирования рака и рекомендации лечения. Дальнейшие исследования будут сконцентрированы на улучшении точности модели и расширении ее возможностей для других типов рака. Эта работа может стать основой для передовых ис
Annotation:
Despite significant medical advancements, cancer remains the second leading cause of death, with over 600,000 deaths per year in the US. One emerging field, pathway analysis, is promising but still relies on manually derived wet lab data, which is time-consuming to acquire. This work proposes an efficient, effective end-to-end framework for Artificial Intelligence (AI) based pathway analysis that predicts both cancer severity and mutation progression, thus recommending possible treatments. The p...
ID: 2509.12732v1 cs.LG, cs.CL, q-bio.QM
Авторы:

Allen Schmaltz

## Контекст Базовая формула softmax, используемая в нейронных сетях, не всегда обеспечивает достаточную точность в сложных сценариях, в том числе при высокой ковариатной смещенности и присутствии входов за пределами тренировочного распределения. Эти проблемы снижают устойчивость моделей и затрудняют их интерпретируемость. Необходимость в новых формулах, обеспечивающих более высокую устойчивость и понятность, лежит в основе этого исследования. ## Метод Новая формула SDM (Similarity-Distance-Magnitude) активации строится на основе стандартной softmax, но добавляет три составляющих: 1. **Similarity Awareness** (создание связи с правильно классифицированными объектами во время обучения). 2. **Distance-to-Training-Distribution Awareness** (учет расстояния от входных данных до целевого распределения). 3. **Magnitude Awareness** (основываясь на границах решений). Эти компоненты объединены в единую формулу, которая улучшает стабильность сетей и позволяет проанализировать их решения с помощью плотного соответствия примерам. ## Результаты Используя SDM в качестве последней слоя активации для языковых моделей, авторы проводили эксперименты, сравнивая результаты с стандартным softmax. Они показали, что SDM: - Уменьшает чувствительность к ковариатным сдвигам. - Улучшает интерпретируемость решений, используя плотные соответствия. - Легко настраивается на задачи с высоким уровнем подробности. ## Значимость SDM может быть применена в областях, где необходима высокая точность при высоких затухающих ковариатных сдвигах (например, медицинские данные или высокомасштабные модели для текстов). Она обеспечивает лучшую устойчивость и ясность решений, что повышает ее привлекательность для специалистов в области машинного обучения. ## Выводы SDM является улучшенной формулой активации, которая может заменить softmax в моделях нейронных сетей. Она показала значительные преимущества в области выбора классов и оценки распределений. Дальнейшие исследования будут сконцентрированы на оптимизации SDM для прикладных задач и ее интеграции с более сложными моделями.
Annotation:
We introduce a more robust and interpretable formulation of the standard softmax activation function commonly used with neural networks by adding Similarity (i.e., correctly predicted depth-matches into training) awareness and Distance-to-training-distribution awareness to the existing output Magnitude (i.e., decision-boundary) awareness. When used as the final-layer activation with language models, the resulting Similarity-Distance-Magnitude (SDM) activation function is more robust than the sof...
ID: 2509.12760v1 cs.LG, cs.CL
Авторы:

Denis Janiak, Julia Moska, Dawid Motyka, Karolina Seweryn, Paweł Walkowiak, Bartosz Żuk, Arkadiusz Janz

## Контекст Large language models (LLMs) являются важной составляющей современных систем машинного обучения и применяются в различных областях, от поиска информации до консультационных систем. Однако, для их эффективного и безопасного использования необходимо достичь гармоничного баланса между различными характеристиками, такими как точность, безопасность, краткость, проактивность и разнообразие ответов. Несмотря на то, что существуют многочисленные методы управления поведением LLMs, существует недостаток в глобальной оценке этих методов с точки зрения их взаимосвязи с этими характеристиками. Наличие теоретических и практических проблем связанных с этим вызовом побудило авторов разработать новый подход к оценке методов выравнивания LLMs. ## Метод Авторы предлагают новую методологию, которая включает в себя разработку специализированного метода оценки, основанного на LLM-as-Judge. Модель сначала обучается на входных данных, а затем используется для оценки других моделей. Для этого используется широкий набор задач, который покрывает пять основных аспектов: точность, безопасность, краткость, проактивность и разнообразие. Данные используются как в интересных областях, так и за пределами них, чтобы проверить общую ценность и безопасность моделей в разных условиях. Эти меры позволяют авторам собрать объективные оценки взаимосвязи между различными методами выравнивания и их влиянием на характеристики модели. ## Результаты Исследования показали, что ни один из методов не может быть сразу лучше во всем. Например, DPO и KTO показали себя лучше в области точности, а PPO и DPO — в области безопасности. В то же время, PPO оказалась лучше в балансировке краткости и проактивности. Эти результаты были получены с использованием большого количества специально подобранных данных. Это позволило детально проанализировать, в каких ситуациях какой метод дает лучший результат и почему. ## Значимость Результаты имеют большое значение для развития новых методов применения LLMs в реальной жизни. Оценка их взаимосвязи с важными характеристиками позволяет разработчикам создавать более балансированные и надежные модели. Эти знания могут использоваться в различных приложениях, таких как создание новых систем поддержки решений, поиска, консультаций и других областей, где качество и безопасность ответов играют критическую роль. ## Выводы В итоге, авторы подтвердили, что любой метод выравнивания имеет свои сильные и слабые стороны, а их взаимосвязь с характеристиками модели зависит от конкретных условий
Annotation:
Large language models (LLMs) require careful alignment to balance competing objectives - factuality, safety, conciseness, proactivity, and diversity. Existing studies focus on individual techniques or specific dimensions, lacking a holistic assessment of the inherent trade-offs. We propose a unified evaluation framework that compares LLM alignment methods (PPO, DPO, ORPO, KTO) across these five axes, using both in-distribution and out-of-distribution datasets. Leveraging a specialized LLM-as-Jud...
ID: 2509.12936v1 cs.LG, cs.CL
Показано 171 - 180 из 233 записей