📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Chu Zhao, Eneng Yang, Yizhou Dang, Jianzhe Zhao, Guibing Guo, Xingwei Wang

## Контекст Поиск рекомендаций в неизвестных областях (Out-of-Distribution, OOD) является важной задачей в области технологий рекомендаций. Одним из ключевых исходящих беспокойств в этой области является выбор достоверных негативных примеров (негативное семплирование). Многие существующие методы рекомендаций, такие как heuristic negative sampling, выбирают негативные примеры из ограниченных кандидатских пулов, чтобы направить модель на обучение точных границ решений. Однако, эти методы опасны в том случае, если кандидатские пулы содержат условия искажения, такие как популярность или экспозиция. Такие условия могут привести к ложноположительным "ложно-тяжелым" негативным примерам (FHNS), что, в свою очередь, может вызвать спуриозные зависимости в модели и снизить ее устойчивость к сдвигу распределений. Данная статья адресует эту проблему, предлагая метод Causal Negative Sampling via Diffusion (CNSDiff), который стремится создать более устойчивые и точные негативные примеры для OOD-рекомендаций. ## Метод CNSDiff вводит метод синтеза негативных примеров в латентном пространстве с помощью процесса условной диффузии. Этот процесс позволяет сэмплировать негативные примеры непосредственно из латентного пространства, а не из предварительно определенных кандидатских пулов. Это снижает влияние ложноположительных "ложно-тяжелых" негативных примеров (FHNS), так как негативные примеры становятся более точными и не зависят от популярности или экспозиционных факторов. Для улучшения устойчивости к сдвигу распределений, CNSDiff добавляет к модели каскадное регулирование, которое основывается на принципах гипотезы причинности (causal regularization). Это регулирование минимизирует влияние популярности и экспозиции в кандидатских примерах, чтобы сделать модель более устойчивой к сдвигу распределений. Таким образом, CNSDiff способствует более точному и устойчивому обучению модели, способной работать в условиях сдвигов распределений. ## Результаты Для оценки эффективности CNSDiff проводились широкие эксперименты под управлением четырех различных сценариев сдвига распределений. Использовались данные из реальной среды рекомендаций, чтобы эмулировать реальные ситуации сдвига распределений. Результаты показали, что CNSDiff обеспечил средний улучшение в 13.96% по всем оценочным метрикам по сравнению с состоянием технологии (SOTA) методами для OOD-рекомендаций. Эти результаты подтверждают то, что CNSDiff не только улучшил точность модели, но и увеличил ее устойчивость к сдвигу распределений, установив новый стандарт в рекомендательных системах. ## Значимость CNSDiff имеет широкие области применения в OOD-рекомендации, вк
Annotation:
Heuristic negative sampling enhances recommendation performance by selecting negative samples of varying hardness levels from predefined candidate pools to guide the model toward learning more accurate decision boundaries. However, our empirical and theoretical analyses reveal that unobserved environmental confounders (e.g., exposure or popularity biases) in candidate pools may cause heuristic sampling methods to introduce false hard negatives (FHNS). These misleading samples can encourage the m...
ID: 2508.07243v1 cs.LG, cs.AI
Авторы:

Hongbo Zhu, Angelo Cangelosi

#### Контекст В статье "Revisiting Data Attribution for Influence Functions" авторы исследуют возможности воздействия функций влияния (influence functions) в глубоком обучении. Целью исследования является определение влияния отдельных обучающих примеров на модель, что оказывается ключевым для глубокого понимания модели, дебаггинга данных и улучшения ответственности моделей. Использование функций влияния позволяет эффективно оценить влияние данных на обученные параметры модели без необходимости полного переобучения. Эта тема становится важной в свет растущего интереса к интерпретируемости и ответственности моделей, особенно в применениях с большими объемами данных. #### Метод Авторы применяют теоретические и алгоритмические подходы для исследования воздействия функций влияния в глубоком обучении. Они рассматривают подходы, основанные на робастных статистиках, для эффективного оценивания воздействия отдельных данных на обученные модели. Работа также исследует алгоритмические усовершенствования для точного вычисления производных, таких как обратные произведения Хессиана. Архитектура исследования основывается на анализе теоретической основы и практического применения функций влияния в глубоком обучении, включая оценку их эффективности в распознавании неверно отбеленных данных. #### Результаты Авторы проводят эксперименты для оценки эффективности функций влияния в различных сценариях, таких как машинное обучение с большими данными. Они применяют алгоритмы для вычисления влияния отдельных обучающих примеров на модель и проверяют их точность в распознавании неверно отбеленных примеров. Результаты показывают, что функции влияния эффективны в обнаружении и исправлении ошибок в данных, при этом обеспечивая высокую скорость и точность. #### Значимость Исследование имеет значительное значение в области интерпретируемости глубокого обучения и дебаггинга данных. Авторы показывают, как функции влияния могут быть использованы для распознавания неверно отбеленных данных и улучшения моделей. Эти технологии могут применяться в различных сценариях, таких как мобильные приложения, интернет-платформы и бизнес-системы, где требуется высокая точность и ответственность моделей. Алгоритмы, описанные в статье, могут способствовать улучшению интеллектуальных систем. #### Выводы В статье достигнуты важные достижения в исследовании влияния функций влияния на модели глубокого обучения. Авторы подчеркивают, что эти функции могут быть применены для улучшения интерпретируемости моделей, дебаггинга данных и улучшения ответственности моделей. Будущие исследования будут сфокусированы на расши
Annotation:
The goal of data attribution is to trace the model's predictions through the learning algorithm and back to its training data. thereby identifying the most influential training samples and understanding how the model's behavior leads to particular predictions. Understanding how individual training examples influence a model's predictions is fundamental for machine learning interpretability, data debugging, and model accountability. Influence functions, originating from robust statistics, offer a...
ID: 2508.07297v1 cs.LG, cs.AI
Авторы:

Lin-Han Jia, Si-Yu Han, Wen-Chao Hu, Jie-Jing Shao, Wen-Da Wei, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li

## Контекст Проблемы с недостатком меток в области машинного обучения стимулируют развитие самостоятельных и самоподкрепляющихся подходов. Однако многие из этих подходов опираются на некоторые предположения, которые могут быть недостаточно надежными или точными, что влияет на эффективность моделей. Нейро-символьное (Nesy) обучение позволяет моделям улучшить свои результаты, сочетая в себе обучение с подкреплением и работу с символьным знанием. В этой работе авторы расширяют Nesy-теорию, применяя ее к случаю недостоверных предположений (например, неполных или неточных моделей), чтобы создать теоретическую платформу, объединяющую Nesy и методы самостоятельного и семи-самоподкрепляющего обучения. ## Метод Авторы развивают прогностическую модель, которая оценивает потенциальную эффективность независимых меток на основе трех основных метрик: научности (научные знания могут быть приобретены моделью), надежности (знания верны и надежны в контексте данных) и полноты (знания полностью охватывают целевую задачу). Для операционизации этих метрик, авторы предлагают метод, который использует небольшие объемы данных для прогнозирования результатов обучения модели в больших масштабах. Метод является гибким и может применяться к различным случаям независимых меток. ## Результаты В экспериментах авторы используют различные модели и данные для проверки прогностической модели. Они показывают, что предсказания модели крайне точны, когда используются небольшие объемы данных для оценки. Это доказывает, что метод может быть применен для эффективного выбора независимых меток до запуска полного обучения. Такая прогностическая модель позволяет избежать ненужных экспериментов с неэффективными метками, что сокращает время и ресурсы, необходимые для выбора лучших меток. ## Значимость Предложенный подход имеет широкое применение в самоподкрепляющихся и самостоятельных подходах к обучению моделей без меток. Он предоставляет более надежный и целенаправленный способ выбора независимых меток, улучшая эффективность и точность моделей. В будущем, это может привести к более универсальным и надежным моделям для обработки данных в различных областях, таких как робототехника, здравоохранение и обработка естественного языка. ## Выводы Данная работа предлагает новую теоретическую модель для оценки и выбора независимых меток в обучении с подкреплением. Она показывает, как нейро-символьные техники могут улучшить работу моделей, даже в случае недостоверных предположений. Будущими направлениями исследований будет расширение этой модели для различных типов данных и моделей,
Annotation:
Neuro-symbolic (Nesy) learning improves the target task performance of models by enabling them to satisfy knowledge, while semi/self-supervised learning (SSL) improves the target task performance by designing unsupervised pretext tasks for unlabeled data to make models satisfy corresponding assumptions. We extend the Nesy theory based on reliable knowledge to the scenario of unreliable knowledge (i.e., assumptions), thereby unifying the theoretical frameworks of SSL and Nesy. Through rigorous th...
ID: 2508.07299v1 cs.LG, cs.AI
Авторы:

Tuo Zhang, Ning Li, Xin Yuan, Wenchao Xu, Quan Chen, Song Guo, Haijun Zhang

## Контекст Большие языковые модели (LLMs) достигли существенных успехов в области естественного языкового обработки и мультимодальных задач. Однако их эффективное развертывание на ресурс-ограниченных устройствах, таких как смартфоны или накопители, представляет собой значительную сложность. Это вызвано тем, что модели становятся все более объемными, что приводит к высоким затратам на память и вычислительные ресурсы. Например, Микситура 8*7B требует до 40 ГБ памяти для работы, что превышает ресурсы большинства ресурс-ограниченных устройств. Для компенсации этих трудностей, широко используется архитектура Mixture of Experts (MoE), которая позволяет увеличить модельную мощность с помощью весовой спарсивания. Однако, это подход имеет несколько проблем: (1) Использование многобитного представления активаций и весов приводит к высоким затратам на память и неэффективности; (2) Отклонения в распределениях активаций приводят к потерям точности при интерпретации модели. Наша мотивация заключается в разработке эффективного метода развертывания MoE на ресурс-ограниченных устройствах, который решает эти проблемы. ## Метод Мы предлагаем метод, основанный на гессиан-сознательной квантообработке (Hessian-Aware Quantization, HAQ) и коллаборативном выполнении на CPU и GPU. Основные элементы этого метода: (1) **Гессиан-сознательная квантообработка**: Мы используем гессиан-сознательную квантообработку для объединенного 8-битного представления активаций и весов. Это позволяет уменьшить потерю точности, вызванную отклонениями в распределениях, и обеспечивает эффективный инструмент для работы на массовых устройствах. (2) **Коллаборативная оффлоадинг и инференс**: Мы разработали механизм специальной оффлоадинга и инференса моделей MoE на CPU и GPU. Этот механизм использует статистику потока активаций для оптимального распределения ресурсов между CPU и GPU, чтобы снизить задержки и использование памяти. ## Результаты Мы проверили наш метод на основных моделях, таких как OPT и Mixtral 8*7B. Эксперименты проводились на датасетах Wikitext2 и C4. Наши результаты показывают, что: (1) Модель с 8-битным представлением показывает почти такую же точность, как полноточная модель; (2) Использование памяти GPU уменьшилось примерно на 60%; (3) Задержка инференса была значительно сокращена. Эти результаты подтверждают эффективность нашего метода в реализации эффективного развертывания MoE на ресурс-ограниченных устройствах. ## Значимость Наш метод имеет значительные применения в следующих областях: (1) **Мобильные устройства**: Эф
Annotation:
With the breakthrough progress of large language models (LLMs) in natural language processing and multimodal tasks, efficiently deploying them on resource-constrained edge devices has become a critical challenge. The Mixture of Experts (MoE) architecture enhances model capacity through sparse activation, but faces two major difficulties in practical deployment: (1) The presence of numerous outliers in activation distributions leads to severe degradation in quantization accuracy for both activati...
ID: 2508.07329v1 cs.LG, cs.AI
Авторы:

Samiha Afaf Neha, Abir Ahammed Bhuiyan, Md. Ishrak Khan

#### Контекст Фаговые вирусоны (PVP) являются ключевыми структурными элементами бактериальных фагов, играющими важную роль в их функционировании. Анализ и классификация этих белков является ключевым заданием в геномных исследованиях. Однако существующие методы, такие как фрактальные представления или преобразования Чаос-игр, часто неэффективно хранят пространственную информацию и требуют значительных ресурсов вычислений. Это приводит к необходимости развития более точных и эффективных методов классификации белков PVP. #### Метод Метод ProteoKnight строится на использовании изображений, кодирующих последовательности белков. Он адаптирует алгоритм DNA Walk для прогнозирования вирусонных белков, включая правила для кодирования последовательностей. Для улучшения представления информации в этих изображениях, дистанции шагов были адаптированы, и были добавлены пиксельные цвета. Эти кодированные изображения подавались на вход нескольким предварительно обученным сетям глубокого обучения. Для оценки неопределенности в предсказаниях использовалась Monte Carlo Dropout (MCD). #### Результаты Проведенные эксперименты показали, что ProteoKnight достигает аккуратности 90,8% в бинарной классификации PVP, что соответствует результатам лидирующих методов. Однако в многоклассовой классификации желаемые результаты пока не достигнуты. На основе анализа неопределенности было выявлено, что уровень уверенности в предсказаниях зависит от класса белка и его длины. Эта неопределенность может служить полезным индикатором того, что модель полагается на ненадежные предположения при классификации. #### Значимость Результаты ProteoKnight открывают путь к более точному классификации PVP и могут быть использованы в различных приложениях, включая диагностику инфекций и разработку новых фармацевтических микробанок. Выявленная неопределенность может помочь в оптимизации модели, улучшении ее надежности и понимании ее работы. #### Выводы ProteoKnight представляет собой эффективный подход к классификации PVP, который превосходит существующие методы в том числе представления Chaos-Game. Будущие исследования будут сосредоточены на улучшении модели для многоклассовой классификации и ее применении в реальных сценариях.
Annotation:
\textbf{Introduction:} Accurate prediction of Phage Virion Proteins (PVP) is essential for genomic studies due to their crucial role as structural elements in bacteriophages. Computational tools, particularly machine learning, have emerged for annotating phage protein sequences from high-throughput sequencing. However, effective annotation requires specialized sequence encodings. Our paper introduces ProteoKnight, a new image-based encoding method that addresses spatial constraints in existing t...
ID: 2508.07345v1 cs.LG, cs.AI
Авторы:

Md Sultanul Arifin, Abu Nowshed Sakib, Yeasir Rayhan, Tanzima Hashem

## Контекст Метеорологические бедствия, такие как молния, являются значительной угрозой для человеческого здоровья, безопасности и экономического благополучия. Эти явления часто приводят к потере жизни, инвалидности, пожарам, повреждению инфраструктуры и высоким экономическим потерям. Несмотря на важность улучшения прогнозирования молнии, существующие модели сталкиваются с рядом проблем: они неэффективно используют наблюдательные данные, такие как радарные отражения и свойства облаков, зависят от дорогостоящих и гиперсентитивных лапласовых систем прогнозирования, а также сталкиваются с проблемами предсказания частоты и распределения сверканий. Эти ограничения подчеркивают необходимость развития более точных и универсальных моделей для молнийного прогноза, которые могли бы существенно облегчить подготовку к экстремальным метеорологическим условиям. ## Метод DeepLight — это новая архитектура глубокого обучения, разработанная для более точного и надежного прогноза молнии. Она использует многовидную архитектуру ввода, включающую метеорологические данные, такие как радарные отражения, свойства облаков и исторические молнийные свидетельства. Архитектура глубокого обучения включает многослойные перцептроны и двух branch конволюционные сети, которые эффективно доставляют информацию о распределении пространственных зависимостей. Для обработки неопределенности пространственно-временного характера молнии, DeepLight вводит **Hazy Loss** — функцию потерь, которая наказывает модель за неправильные предсказания, учитывая их близость к настоящим событиям молнии. Это делает DeepLight более устойчивой к шуму и разнообразию в данных. ## Результаты Для оценки DeepLight проведены эксперименты на реальных данных, включающих радарные отражения, свойства облаков и исторические молнийные события. Модель сравнивалась с тремя современными моделями прогнозирования молнии. Результаты показали, что DeepLight превосходит конкурирующие модели по ключевым показателям, таким как Equitable Threat Score (ETS), с ростом от 18% до 30%. Эти результаты примечательны, так как они достигнуты на разных уровнях метеорологических данных и различных условиях молнии, что говорит о генерализуемости модели. ## Значимость Предлагаемая модель может иметь широкое применение в метеорологии, геодезии и жизнеобеспечении. Она позволяет предвидеть молнию с высокой точностью, что дает возможность внедрения профилактических мер для защиты людей и сохранения инфраструктуры. Особенно значительным является применение модели для оптимизации ресурсов и уменьшения экономических потерь в особенно востребованных отраслях, таких ка
Annotation:
Lightning, a common feature of severe meteorological conditions, poses significant risks, from direct human injuries to substantial economic losses. These risks are further exacerbated by climate change. Early and accurate prediction of lightning would enable preventive measures to safeguard people, protect property, and minimize economic losses. In this paper, we present DeepLight, a novel deep learning architecture for predicting lightning occurrences. Existing prediction models face several c...
ID: 2508.07428v1 cs.LG, cs.AI
Авторы:

Fernando Martinez, Tao Li, Yingdong Lu, Juntao Chen

## Контекст Область применения глубокого обучения, особенно в сфере глубокого обучения с подкреплением (deep reinforcement learning, RL), стала одной из самых динамичных и востребованных направлений в ИИ. Одна из сложностей в RL заключается в том, чтобы эффективно выучить функции представления (representation learning), которые позволяют оптимизировать поведение агента в сложных средах. Эта задача становится еще сложнее при недостатке сигналов отклика (sparse reward signal). Несмотря на успехы внедрения сложных дополнительных методов (auxiliary objectives) или полного разделения (decoupling) процессов представления и управления, эти подходы требуют дополнительных ресурсов и усложняют архитектуру. В настоящей работе предлагается новый подход, который структурирует взаимодействие между сетями представления и управления с помощью игровой динамики в стиле Stackelberg. ## Метод Предлагаемая модель, Stackelberg Coupled Representation and Reinforcement Learning (SCORER), основывается на принципах игры Stackelberg, где один из агентов (leader) стратегически выбирает представления, которые повышают эффективность действий второго агента (follower). Формализм заключается в том, что leader-сеть стремится минимизировать ошибку Bellman для follower-сети. Для поиска равновесия в игре используется алгоритм двух уровней (two-timescale algorithm). Это позволяет приближаться к оптимальному равновесию лидера и последователя. Метод может быть запущен на различных стандартных архитектурах, таких как DQN, и не требует дополнительных сложных архитектур или целей. ## Результаты Проведенные эксперименты показывают, что SCORER улучшает обучаемость (sample efficiency) и достигает высокой последней производительности (final performance) на бенчмарк-задачах, в том числе Atari-2600 и других. В сравнении с традиционными подходами, которые используют дополнительные цели или разделение представления и управления, SCORER показывает значительное улучшение с точки зрения эффективности и простоты реализации. Это подтверждает, что новый формализм динамики взаимодействия может быть более эффективен, чем сложные архитектуры или добавление дополнительных целей. ## Значимость Предлагаемый подход может быть применен в различных задачах глубокого обучения с подкреплением, где важно эффективно обучать функции представления и управления. Это может быть полезно в таких сферах, как игровые решения, моделирование систем, исследования робототехники и другие задачи, где требуется высокая эффективность и сложность решений. Одним из основных преимуществ является то, что данный подход уменьшает сложность и при этом повышает производительность. ## Выводы Предложенная модель SCORER демонстрирует, что можно совершенствовать RL-алгоритмы, не прибегая к добавлению сложных дополнительных
Annotation:
Integrated, end-to-end learning of representations and policies remains a cornerstone of deep reinforcement learning (RL). However, to address the challenge of learning effective features from a sparse reward signal, recent trends have shifted towards adding complex auxiliary objectives or fully decoupling the two processes, often at the cost of increased design complexity. This work proposes an alternative to both decoupling and naive end-to-end learning, arguing that performance can be signifi...
ID: 2508.07452v1 cs.LG, cs.AI
Авторы:

Stephan Rabanser

#### Контекст Современные машинные обучающие системы (ML) применяются во все более чувствительных областях, где надежность и достоверность являются ключевыми факторами успеха. Однако многие ML-системы страдают от недостатка надежности в условиях неопределенности, что может привести к ошибкам серьезных последствий. В этом контексте возникает задача повышения надежности ML-систем, особенно в ситуациях, когда модель не уверена в своих прогнозах. Эта проблема требует развития методов, позволяющих моделям не только делать прогнозы, но и решать, когда лучше отказаться от них, чтобы избежать потенциальных ошибок. Такие подходы способствуют укреплению доверия пользователей к ML-системам и их безопасному применению в критически важных областях. #### Метод Методология основывается на использовании **неопределенности** в процессе обучения модели как важных индикаторов состоятельности ее прогнозов. Техника **ensembling отдельных чекпоинтов**, обученных моделью в процессе обучения, позволяет построить метод **post-hoc abstention**, который не требует изменения архитектуры или функции потерь модели. Этот подход оказывается легким и эффективным, достигая новых результатов в области **selective prediction**. Более того, метод тщательно интегрируется с **differential privacy (DP)**, чтобы изучить влияние шума, вводимого для обеспечения конфиденциальности, на качество неопределенности. Это открытое исследование позволяет лучше понять тонкий баланс между неопределенностью и защитой конфиденциальности. #### Результаты Результаты исследований показали, что подход, основанный на **trajectory-based uncertainty**, не только показал высокую эффективность в **selective prediction**, но и доказал свою робастность при применении к задачам с защитой конфиденциальности. Другие методы, в том числе те, которые используют **ensemble других моделей**, могут страдать под воздействием шума DP, в то время как траектория-ориентированный подход остается надежным. Также была представлена финальная модель, которая не только способна отказаться от неуверенных прогнозов, но и делает это с поддержкой принципов повышения конфиденциальности. Эти результаты установили новый стандарт в области **trustworthy ML**. #### Значимость Полученные методы могут быть применены в различных областях, где надежность ML-систем является критически важной, таких как здравоохранение, финансы и безопасность. Известно, что **uncertainty estimation** позволяет моделям сделать более уверенные решения, уменьшая риск ошибок. Этот подход также открывает возможности для **сочетания надежности и конфиденциальности**, что может стать решением многих проблем в сфере прикладного использования моделей. Благодаря этой работе, модели становятся боле
Annotation:
Machine learning (ML) systems are increasingly deployed in high-stakes domains where reliability is paramount. This thesis investigates how uncertainty estimation can enhance the safety and trustworthiness of ML, focusing on selective prediction -- where models abstain when confidence is low. We first show that a model's training trajectory contains rich uncertainty signals that can be exploited without altering its architecture or loss. By ensembling predictions from intermediate checkpoints,...
ID: 2508.07556v1 cs.LG, cs.AI, cs.CY, stat.ML
Авторы:

Xingwu Chen, Miao Lu, Beining Wu, Difan Zou

#### Контекст Одной из ключевых областей исследований в рамках трансформеров является интерпретация и понимание их работы во время выполнения. Эффективность трансформеров в задачах естественного языка определяется не только их инференционным поverьем, но и возможностью эффективно использовать вычислительные ресурсы во время выполнения. Одним из областей интереса является влияние случайности и сэмплирования на результаты инеренции трансформеров. Однако существует ограниченное количество теоретических работ, которые были бы в состоянии объяснить эти эффекты на основе анализа трансформеров. Это исследование является первым шагом в этом направлении, нацеленном на укрепление теоретического подхода к пониманию интерпретации трансформеров. #### Метод Методология исследования основывается на введении случайности и сэмплирования в процессе вычислений трансформера. Главной идеей является создание фреймворка, который моделирует трансформерские вычисления с использованием шума и сэмплирования бинарных коэффициентов. В этой модели используется модель **in-context linear regression**, где входные данные имеют континуууальные или бинарные коэффициенты. Бинарные коэффициенты генерируются с помощью сэмплирования, а шум вводится в вычисления для моделирования случайности во время выполнения. Этот подход позволяет анализировать и проверять различные методы интерпретации трансформеров, включая те, которые применяются в реальных ситуациях. #### Результаты Исследование включает множество эмпирических экспериментов, использующих различные модели трансформеров и наборы данных. Использованы техники, такие как шумный инференс и сэмплирование бинарных коэффициентов, для моделирования различных сценариев вычислений. Результаты показывают, что использование случайности и сэмплирования может эффективно улучшить результаты, особенно в случаях, когда трансформер должен сделать несколько выборов или генерировать несколько вариантов ответа. Также были выявлены новые закономерности в поведении трансформеров, которые могут помочь в понимании их работы в реальных условиях. #### Значимость Результаты этого исследования имеют значительную значимость для нескольких дисциплин. В первую очередь, они позволяют понять, как работают трансформеры во время выполнения, и какие факторы влияют на их эффективность. Это может привести к разработке более эффективных алгоритмов и интерпретаций, которые могут быть применены в системах распознавания речи, перевода и других областях, где
Annotation:
Using more test-time computation during language model inference, such as generating more intermediate thoughts or sampling multiple candidate answers, has proven effective in significantly improving model performance. This paper takes an initial step toward bridging the gap between practical language model inference and theoretical transformer analysis by incorporating randomness and sampling. We focus on in-context linear regression with continuous/binary coefficients, where our framework simu...
ID: 2508.07571v1 cs.LG, cs.AI
Авторы:

Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

## Контекст Модель рассуждений с длинным цепным соображением (long Chain-of-Thought, long CoT) является ключевым инструментом для решения сложных задач, требующих логического и последовательного мышления. Однако существует ряд проблем в области инноваций в этих моделях, включая неполное раскрытие деталей обучения, что ограничивает возможность воспроизведения высокопроизводительных моделей. Более того, существуют проблемы с текущими механизмами ограничения (clipping) в технике оптимизации с подкреплением (reinforcement learning, RL), такие как подавление критических сигналов эксплорирования и игнорирование неоптимальных траекторий. Эти проблемы способствуют неэффективности моделей в обучении с учителем и расширении их возможностей. ## Метод Klear-Reasoner представляет собой модель с логическим рассуждением, основанную на полной видимости процесса обучения. Методы включают: 1. **Длинное Chain-of-Thought Supervised Fine-Tuning (long CoT SFT):** Эта техника использует выборку высококачественных данных, чтобы тренировать модель на расстановке последовательности соображений. 2. **Reinforcement Learning with Gradient-Preserving Clipping Policy Optimization (GPPO):** Эта оптимизационная политика использует градиентные сигналы, проходящие через отсеченные токены, что позволяет улучшить эффективность модели при работе с неоптимальными траекториями. 3. **Абляционные исследования:** Эксперименты проводились для оценки каждого элемента рабочего процесса, включая различные варианты данных и методов оптимизации. ## Результаты Klear-Reasoner показала впечатляющие результаты в нескольких бенчмарках: 90.5% на AIME 2024, 83.2% на AIME 2025, 66.0% на LiveCodeBench V5 и 58.1% на LiveCodeBench V6. Эта модель отличается своей способностью логически соображать и решать проблемы в области математики и программирования. Анализ показал, что сборка высококачественных данных для SFT лучше воспроизводит высокую производительность, чем объемные данные, а GPPO повышает модельную эффективность в обучении на неоптимальных траекториях. ## Значимость Klear-Reasoner имеет широкие перспективы применения в области интеллектуальных технологий, в том числе в образовательных системах, прогнозировании и решении задач, требующих высокой логической способности. Ее преимущество в том, что она может обучаться более эффективно, используя меньше ресурсов, чем другие модели. Будущие исследования будут нацелены на расширение этих технологий на другие задачи, а также на повышение точности и эффективности решений. ## Выводы Klear-Reasoner доказала свою высокую эффективность в решении задач, требующих длинных рассуждений. Она способна обучаться более эффективно, благодаря GP
Annotation:
We present Klear-Reasoner, a model with long reasoning capabilities that demonstrates careful deliberation during problem solving, achieving outstanding performance across multiple benchmarks. Although there are already many excellent works related to inference models in the current community, there are still many problems with reproducing high-performance inference models due to incomplete disclosure of training details. This report provides an in-depth analysis of the reasoning model, covering...
ID: 2508.07629v2 cs.LG, cs.AI, cs.CL
Показано 2751 - 2760 из 2901 записей