📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Wesley Brewer, Murali Meena Gopalakrishnan, Matthias Maiterth, Aditya Kashi, Jong Youl Choi, Pei Zhang, Stephen Nichols, Riccardo Balin, Miles Couchman, Stephen de Bruyn Kops, P. K. Yeung, Daniel Dotson, Rohini Uma-Vaideswaran, Sarp Oral, Feiyi Wang

**Резюме** Современные вычислительные задачи, включая обработку турбулентных данных, сталкиваются с ограничениями энергоемкости и вычислительной сложности. Это приводит к необходимости эффективных методов обработки и научного анализа таких данных. В статье предлагается SICKLE — инновационный фреймворк для уменьшения объема данных при обучении с подбором информативных выборок с помощью максимальной энтропии (MaxEnt). Фреймворк использует спарсе Sampling и адаптивные методы обучения, позволяющие поддерживать высокую точность моделей, но с меньшим потреблением ресурсов. На больших наборах данных DNS турбулентности, протестированных на Frontier, MaxEnt показал существенные выигрыши в точности моделей и энергоэффективности — до 38 раз уменьшение потребления энергии по сравнению с случайным и фазовым пространственным семплингом. Это решение демонстрирует значительный потенциал для ускорения и экономии ресурсов в обработке турбулентных данных с помощью AI.
Annotation:
With the end of Moore's law and Dennard scaling, efficient training increasingly requires rethinking data volume. Can we train better models with significantly less data via intelligent subsampling? To explore this, we develop SICKLE, a sparse intelligent curation framework for efficient learning, featuring a novel maximum entropy (MaxEnt) sampling approach, scalable training, and energy benchmarking. We compare MaxEnt with random and phase-space sampling on large direct numerical simulation (DN...
ID: 2508.03872v1 cs.LG, cs.AI, cs.DC
Авторы:

William Solow, Sandhya Saisubramanian

## КОНТЕКСТ И ПРОБЛЕМАТИКА Точное прогнозирование фенологических этапов винограда является ключевым фактором для эффективного управления виноградниками. Это позволяет своевременно планировать полив, удобрение и другие критические мероприятия, чтобы максимизировать урожайность и качество урожая. Традиционные биофизические модели, калиброванные на исторических полевых данных, широко используются для прогнозирования на протяжении всего вегетационного сезона. Однако они не обеспечивают достаточной точности для тонкой детализации управления виноградниками на уровне отдельных сортов. В последнее время глубокие нейронные сети представляют собой перспективную альтернативу, однако их эффективность существенно ограничивается редкостью и разреженностью данных о фенологии винограда, особенно на уровне сортов. Это создает серьезные трудности для разработки надежных и точных моделей. Кроме того, традиционные биофизические модели не могут эффективно использовать большие наборы данных, полученные из разных источников, что ограничивает их гибкость и масштабируемость. Мотивацией для данного исследования стало необходимость создания более точного и гибкого подхода к прогнозированию фенологических этапов винограда, который сочетал бы преимущества биофизических моделей и глубокого обучения. Требовалось разработать метод, способный улучшить точность прогнозов, опираясь на ограниченные данные, и при этом сохранить биологическую интерпретируемость модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается гибридный подход, который сочетает методы многозадачного обучения (multi-task learning) и рекуррентные нейронные сети (Recurrent Neural Networks, RNN) для калибровки биофизических моделей. Основная идея заключается в том, чтобы использовать многозадачное обучение для прогнозирования параметров биофизической модели, что позволяет обеспечить совместное обучение по разным сортам винограда, сохраняя при этом биологическую структуру модели. Рекуррентная нейронная сеть используется для обработки временных рядов данных, таких как температура и влажность почвы, которые важны для прогнозирования фенологических этапов. Многозадачное обучение позволяет модели обучаться на данных из разных сортов винограда одновременно, что повышает общую робастность и точность прогнозов. Дифференцируемая биофизическая модель интегрируется в этот подход, что позволяет оптимизировать параметры модели в процессе обучения. Это обеспечивает более точное выравнивание модели на реальных данных, а также позволяет адаптироваться к различиям между сортами винограда. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены эксперименты на реальных и синтетических наборах данных. Эти данные включали информацию о фенологических этапах винограда, а также другие переменные, такие как холодоустойчивость и урожайность пшеницы. Результаты показали, что предлагаемый метод значительно превосходит как традиционные биофизические модели, так и базовые подходы глубокого обучения в прогнозировании фенологических этапов. Точность прогнозов улучшилась на значительной величине, особенно в случае работы с небольшими и разреженными данными. Кроме того, метод показал хорошие результаты в прогнозировании других переменных, таких как холодоустойчивость винограда и урожайность пшеницы, что подтверждает его широкую применимость в различных областях сельского хозяйства. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для сельского хозяйства, особенно в виноградарстве. Точные прогнозы фенологических этапов позволяют оптимизировать процессы управления виноградниками, такие как полив, удобрение и защита растений от вредителей и болезней. Кроме того, метод может быть применен для прогнозирования других критических показателей, таких как холодоустойчивость растений и урожайность, что делает его универсальным инструментом для более широкого круга задач в сельском хозяйстве. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе был предложен новый подход к прогнозированию фенологических этапов винограда, который сочетает биофизические модели с глубоким обучением. Это позволяет достичь высокой точности прогнозов, даже при ограниченном объеме данных. В будущем можно рассмотреть возможность расширения этого подхода на другие культуры и регионы, а также исследование дополнительных факторов, влияющих на фенологические процессы. Также важно исследовать возможности интеграции этого метода с другими технологиями, такими как дистанционное зондирование и ионно-селективная электродиагностика, для еще более точного управления сельским хозяйством.
Annotation:
Accurate prediction of grape phenology is essential for timely vineyard management decisions, such as scheduling irrigation and fertilization, to maximize crop yield and quality. While traditional biophysical models calibrated on historical field data can be used for season-long predictions, they lack the precision required for fine-grained vineyard management. Deep learning methods are a compelling alternative but their performance is hindered by sparse phenology datasets, particularly at the c...
ID: 2508.03898v1 cs.LG, cs.AI
Авторы:

Florian Bley, Jacob Kauffmann, Simon León Krug, Klaus-Robert Müller, Grégoire Montavon

Distance-based classifiers, такие как k-ближайших соседей и support vector machines, широко применяются в машинном обучении, но часто скрываются за непрозрачным темной коробочной технологией. Методы Explainable AI позволяют выявить полезные структуры в таких моделях, но их применение к distance-based classifiers было неочевидным. В статье предлагается новый подход, который выявляет неявную скрытую структуру в distance-based classifiers, аналогичную тем, что присутствует в нейронных сетях. Эта скрытая структура состоит из линейных детекторов и нелинейных слоёв агрегирования, которые могут быть легко обработаны методами LRP. Эксперименты показывают, что новый подход превосходит существующие методы по точности и скорости построения объяснений, а также приводятся две практические проблемы, где этот подход доказал свою эффективность. Таким образом, статья демонстрирует, что distance-based classifiers могут быть вполне объяснимыми, если использовать правильный подход.
Annotation:
Distance-based classifiers, such as k-nearest neighbors and support vector machines, continue to be a workhorse of machine learning, widely used in science and industry. In practice, to derive insights from these models, it is also important to ensure that their predictions are explainable. While the field of Explainable AI has supplied methods that are in principle applicable to any model, it has also emphasized the usefulness of latent structures (e.g. the sequence of layers in a neural networ...
ID: 2508.03913v1 cs.LG, cs.AI, stat.ML
Авторы:

John D. Kelleher, Matthew Nicholson, Rahul Agrahari, Clare Conran

**Резюме** В статье рассматривается эффективность сочетания активного обучения (active learning) и трансферного обучения (transfer learning) для обнаружения аномалий в временных рядах. Авторы исследовали, в какой степени эти подходы могут улучшить модели детектирования аномалий при работе с кросс-доменными данными. Основные находки указывают на то, что сочетание активного и трансферного обучения может улучшить производительность моделей, однако производительность лучше всего достигается при использовании одного кластера, то есть без применения кластеризации. Также было обнаружено, что добавление новых выборок с помощью активного обучения повышает качество модели, хотя темп улучшения менее заметен, чем в предыдущих работах, возможно из-за более точного экспериментального дизайна. Наконец, авторы оценили потенциальную высокую производительность трансферного обучения в сочетании с активным обучением и заметили, что хотя модель показывает исходное улучшение, эффект затухает, когда менее полезные образцы включаются в обучение. Это подтверждает эффективность активного обучения, но также показывает, что его польза ограничена и следует оценивать с учетом этих особенностей.
Annotation:
This paper examines the effectiveness of combining active learning and transfer learning for anomaly detection in cross-domain time-series data. Our results indicate that there is an interaction between clustering and active learning and in general the best performance is achieved using a single cluster (in other words when clustering is not applied). Also, we find that adding new samples to the training set using active learning does improve model performance but that in general, the rate of im...
ID: 2508.03921v1 cs.LG, cs.AI
Авторы:

Pengxi Liu, Yi Shen, Matthew M. Engelhard, Benjamin A. Goldstein, Michael J. Pencina, Nicoleta J. Economou-Zavlanos, Michael M. Zavlanos

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время файрнесс (справедливость) алгоритмов прогнозирования стала ключевой проблемой в областях с высоким риском, таких как здравоохранение, финансы и правоохранительная система. Традиционно файрнесс оценивается на основе метрик, связанных с площадью под кривой характеристики (AUC), особенно когда речь идет̆ о рисковых оценках, а не о бинарных результатах. Однако существует значительный конфликт между достижением высокой AUC и обеспечением файрнесса между различными группами. Часто принудительное обеспечение справедливости приводит к значительному ухудшению качества модели, что ограничивает еӗ практическую применимость. Одним из ключевых вызовов является необходимость выравнивания распределений рисковых оценок между различными группами без существенного потерй в AUC. Эта проблема особенно остра в сферах, где решения имеют прямое влияние на жизнь людей, такие как диагностика заболеваний или определение кредитных рисков. Таким образом, необходим метод, который может балансировать эти две цели: сохранение высокой производительности модели и обеспечение справедливости распределений рисков. В свете этих вызовов, авторы предлагают метод Fair Proportional Optimal Transport (FairPOT), который предназначен для выравнивания распределений рисков между группами с помощью стратегического использования оптимального транспорта. Этот метод позволяет контролировать долю рисковых оценок, которые будут изменены, чтобы достичь оптимального баланса между файрнессом и производительностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД FairPOT представляет собой модельно-независимый пост-процессинговый фреймворк, который выравнивает распределения рисковых оценок между различными группами. Основная идея заключается в использовании оптимального транспорта для выравнивания распределений, но только для определенной доли (top-lambda квантиль) рисковых оценок в рамках неблагоприятной группы. Этот подход позволяет контролировать степень изменения распределений, что дает̆ возможность настроить баланс между файрнессом и AUC. Алгоритм FairPOT работает путем переназначения рисковых оценок в рамках неблагоприятной группы с помощью оптимального транспорта. Это позволяет достичь более справедливого распределения, при этом сохраняя высокую производительность модели. Метод также расширяется на partial AUC, что позволяет концентрировать файрнесс-интервенции на самых высоких рисках, что особенно важно в приложениях, где критично точно определять высокие риски. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследования на синтетических, публичных и клинических данных. Результаты показали, что FairPOT показывает лучшие результаты по сравнению с существующими пост-процессинговыми методами в обоих сценариях: глобальном AUC и partial AUC. Метод достигает значительного улучшения файрнесса с минимальным ухудшением AUC или даже с улучшением утилиты в некоторых случаях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FairPOT может быть применен в различных областях, где необходимо балансировать производительность и справедливость, таких как здравоохранение, финансы и правоохранительная система. Его высокая вычислительная эффективность и адаптивность делают его практически применимым в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FairPOT представляет собой значительный шаг вперёд в области файрнесс-оптимизации. Будущие исследования могут расширить этот подход на более сложные модели и дополнительные метрики файрнесса.
Annotation:
Fairness metrics utilizing the area under the receiver operator characteristic curve (AUC) have gained increasing attention in high-stakes domains such as healthcare, finance, and criminal justice. In these domains, fairness is often evaluated over risk scores rather than binary outcomes, and a common challenge is that enforcing strict fairness can significantly degrade AUC performance. To address this challenge, we propose Fair Proportional Optimal Transport (FairPOT), a novel, model-agnostic p...
ID: 2508.03940v1 cs.LG, cs.AI, cs.CY, stat.ML
Авторы:

Ajesh Koyatan Chathoth, Shuhao Yu, Stephen Lee

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных сенсорных системах, оснащенных датчиками Inertial Measurement Unit (IMU), такими как смартфоны и wearable-устройства, проблема защиты конфиденциальности пользователей приобретает все большее значение. Данные, получаемые от IMU-сенсоров, представляют собой богатые временные ряды, которые могут непреднамеренно раскрывать чувствительную информацию о поведении пользователей, такую как движения, занятия спортом или даже медицинские условия. Эта проблема усугубляется тем, что предпочтения пользователей в отношении конфиденциальности могут значительно различаться и изменяться со временем. Большинство существующих подходов к защите конфиденциальности базируются на статических, предварительно определенных категориях конфиденциальности, что ограничивает гибкость и контроль пользователя. Кроме того, многие методы требуют значительных объемов данных для обучения, что создает дополнительные трудности в реальных условиях. В этой работе авторы предлагают PrivCLIP, фреймворк, который решает эти проблемы, предоставляя динамический, пользователь-контролируемый метод защиты конфиденциальности в режиме few-shot. Это позволяет пользователям определять и модифицировать свои предпочтения по конфиденциальности, распределяя действия на категории: чувствительные (black-listed), нечувствительные (white-listed) и нейтральные (gray-listed). ## ПРЕДЛОЖЕННЫЙ МЕТОД PrivCLIP основан на мультимодальном контрастивном обучении, которое выравнивает данные IMU-сенсоров с естественными текстовыми описаниями действий в общем пространстве вложений. Это позволяет системе определять чувствительные действия с минимальным количеством обучающих данных. При обнаружении чувствительного действия система использует языковой руководствованием activity sanitizer и модуль motion generation (IMU-GPT) для трансформации исходных данных в версию, соответствующую нечувствительным действиям. Это гарантирует сохранение семантической близости, не раскрывая конфиденциальную информацию. Техническая архитектура PrivCLIP включает в себя модуль для построения вложений, контрастивное обучение и генеративную модель IMU-GPT. Эти компоненты взаимодействуют для обеспечения эффективной и настраиваемой защиты конфиденциальности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на нескольких датасетах по распознаванию человеческих действий, сравнивая PrivCLIP с базовыми методами. Результаты показали значительное улучшение как в защите конфиденциальности, так и в сохранении полезности данных. PrivCLIP эффективно классифицирует чувствительные и нечувствительные действия, одновременно обеспечивая высококачественную трансформацию данных. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ PrivCLIP открывает новые возможности для защиты конфиденциальности в сенсорных системах. Его применимость очевидна в областях здравоохранения, фитнеса и мониторинга пользовательского поведения, где необходимо соблюдение конфиденциальности без потери функциональности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ PrivCLIP представляет собой важный шаг вперед в области конфиденциальности данных, обеспечивая динамический и пользователь-контролируемый подход. Будущие исследования могут фокусироваться на расширении метода для других типов данных и улучшении эффективности генеративной модели.
Annotation:
User-controllable privacy is important in modern sensing systems, as privacy preferences can vary significantly from person to person and may evolve over time. This is especially relevant in devices equipped with Inertial Measurement Unit (IMU) sensors, such as smartphones and wearables, which continuously collect rich time-series data that can inadvertently expose sensitive user behaviors. While prior work has proposed privacy-preserving methods for sensor data, most rely on static, predefined ...
ID: 2508.03989v1 cs.LG, cs.AI
Авторы:

Zakariya Ba Alawi

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее десятилетие глубокое обучение стало ключевой областью исследований в области искусственного интеллекта, приведшей к революционным достижениям в таких областях, как компьютерное зрение, обработка естественного языка и автоматическое управление. Однако успех глубоких моделей зависит не только от их архитектуры, но также от выбора фреймворка, который обеспечивает эффективное обучение и развертывание моделей. Два наиболее популярных фреймворка для глубокого обучения — PyTorch и TensorFlow — стали неотъемлемыми инструментами для исследователей и практиков. TensorFlow, разработанный Google, известен своей надежной инфраструктурой для промышленных приложений, включая широкий набор инструментов для развертывания, таких как TensorFlow Lite и TensorFlow Serving. Однако его графовая модель выполнения, хотя и обеспечивает высокую производительность, часто считается менее удобной для исследовательских экспериментов. PyTorch, созданный Facebook, напротив, отличается динамической, Python-подобной структурой, которая упрощает экспериментирование и отладку. Однако до недавнего времени PyTorch отставал от TensorFlow в плане готовности к промышленному использованию. Это создает дилемму для разработчиков, которые должны выбирать между простотой и гибкостью PyTorch и производительностью и готовностью к производству TensorFlow. Эта статья представляет собой подробный сравнительный анализ этих двух фреймворков с точки зрения удобства использования, производительности и возможностей развертывания. Она также рассматривает тенденции в использовании фреймворков в академических исследованиях и промышленных приложениях, помогая разработчикам принимать обоснованные решения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для сравнения PyTorch и TensorFlow авторы проанализировали несколько ключевых аспектов: программистский интерфейс, производительность обучения и вывода, а также возможности развертывания. В частности: 1. **Программистский интерфейс и удобство использования**: TensorFlow использует графовую модель выполнения, которая требует предварительного определения вычислительного графа. Хотя это повышает производительность, это может усложнить отладку и экспериментирование. PyTorch, с другой стороны, использует динамическую вычислительную модель, которая ближе к Python и упрощает разработку моделей. 2. **Производительность**: Авторы провели сравнение скорости обучения и вывода на различных задачах, таких как классификация изображений и обработка текста. TensorFlow обычно демонстрирует высокую производительность в больших наборах данных, тогда как PyTorch может быть более эффективен в меньших экспериментальных установках. 3. **Развертывание**: TensorFlow имеет более зрелую экосистему для развертывания, включая инструменты для мобильных и веб-приложений. PyTorch, однако, активно развивает свои инструменты, такие как TorchScript и ONNX, чтобы снизить это разрыв. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены сравнительные тесты на нескольких наборах данных и задачах. Результаты показали, что TensorFlow обеспечивает высокую производительность при обучении на больших датасетах, особенно при использовании оптимизаций, таких как XLA. PyTorch, в свою очередь, предлагает более высокую скорость разработки и гибкость, особенно в исследовательских задачах. В области развертывания TensorFlow продемонстрировал преимущество благодаря своим зрелым инструментам, таким как TensorFlow Lite. Однако PyTorch активно развивает свои инструменты, что может сделать его более конкурентоспособным в будущем. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты данного исследования имеют широкое применение для разработчиков, инженеров и исследователей в области глубокого обучения. PyTorch лучше подходит для исследовательских проектов, где гибкость и удобство использования критически важны. Тензорфлоу, с другой стороны, лучше подходит для промышленных приложений, где необходима надежность и масштабируемость. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, оба фреймворка имеют свои сильные и слабые стороны. PyTorch лучше подходит для исследовательских задач, тогда как TensorFlow лучше подходит для промышленных приложений. Будущие исследования могут фокусироваться на улучшении взаимодействия между фреймворками и интеграции компиляторных оптимизаций для повышения производительности.
Annotation:
This paper presents a comprehensive comparative survey of TensorFlow and PyTorch, the two leading deep learning frameworks, focusing on their usability, performance, and deployment trade-offs. We review each framework's programming paradigm and developer experience, contrasting TensorFlow's graph-based (now optionally eager) approach with PyTorch's dynamic, Pythonic style. We then compare model training speeds and inference performance across multiple tasks and data regimes, drawing on recent be...
ID: 2508.04035v1 cs.LG, cs.AI, 68T05, I.2.6; I.2.10
Авторы:

Tuan Nguyen, Khoa D Doan, Kok-Seng Wong

**Резюме** Статья предлагает новый подход к внедрению вредоносных backdoor-атак в системы федеративного обучения (FL). Традиционные backdoor-атаки в FL ограничены фиксированными триггерами или одной целью, что делает их неэффективными и легко обнаруживаемыми. В отличие от них, авторы предлагают FLAT (FL Arbitrary-Target Attack), которая использует локальный условный автокодировщик для генерации динамических, целевых и адаптивных триггеров. Это позволяет атакующему выбирать произвольную цель без переучивания модели и скрыться от стандартных методов обнаружения. FLAT объединяет в себе высокую успешность атаки, стелтость и гибкость в единой модели. Эксперименты показали, что атака достаточно эффективна и устойчива против передовых методов защиты FL. Научиться распознавать и бороться с подобными новыми типами backdoor-атак требуется для развития эффективных защитных стратегий в FL.
Annotation:
Federated learning (FL) is vulnerable to backdoor attacks, yet most existing methods are limited by fixed-pattern or single-target triggers, making them inflexible and easier to detect. We propose FLAT (FL Arbitrary-Target Attack), a novel backdoor attack that leverages a latent-driven conditional autoencoder to generate diverse, target-specific triggers as needed. By introducing a latent code, FLAT enables the creation of visually adaptive and highly variable triggers, allowing attackers to sel...
ID: 2508.04064v1 cs.LG, cs.AI, cs.CV
Авторы:

Jinghang Han, Jiawei Chen, Hang Shao, Hao Ma, Mingcheng Li, Xintian Shen, Lihao Zheng, Wei Chen, Tao Wei, Lihua Zhang

--- title: МЕТОДЫ И ПРИНЦИПЫ РАБОТЫ --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Улучшение способностей рационализации Больших Языковых Моделей (БЯМ) с помощью обучения с подкреплением (Reinforcement Learning, RL) стало важной проблемой в области искусственного интеллекта. Одним из последних достижений в этой области является DeepSeek R1, который демонстрирует эффективность использования правил для вычисления функций преимущества (advantage functions) и руководства оптимизации политик. Однако существует серьезная проблема, связанная с тем, что когда несколько выборок (samples), полученных под одним призывом (prompt), приводят к одинаковым результатам, правильным или неправильным, групповое преимущество (group-based advantage) становится нулевым. Это приводит к исчезновению градиентов (vanishing gradients) и делает такие выборки бесполезными для обучения, что снижает эффективность обучения и результаты в конечных задачах. Данная проблема вызывает ограничения в обучении, особенно когда речь идет о высокой внутренней согласованности (intra-group consistency) модели. Для решения этой проблемы необходимо разработать метод, который может обеспечить значимые сигналы обучения даже в случаях высокой согласованности результатов, чтобы поощрять генерацию правильных и самосогласованных путей рассуждений (reasoning paths). ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод COPO (Consistency-Aware Policy Optimization), который вводит концепцию согласованности (consistency-awareness) в процесс оптимизации политик. Основная идея заключается в том, чтобы использовать глобальную структуру наград (global reward structure), основанную на согласованности результатов, чтобы обеспечить значимые сигналы для обучения даже в случае высокой внутренней согласованности модели. Ключевым элементом COPO является механизм глобальной потери (global loss), который учитывает согласованность выходных данных модели. Это гарантирует, что даже когда результаты выборок показывают высокую внутреннюю согласованность, процесс обучения по-прежнему получает полезные сигналы, что поощряет модель генерировать правильные и самосогласованные пути рассуждений. Кроме того, в COPO используется механизм энтропийного смягчения (entropy-based soft blending), который адаптивно балансирует между локальным оцениванием преимуществ (local advantage estimation) и глобальной оптимизацией. Этот механизм позволяет динамически переходить между эксплорацией (exploration) и конвергенцией (convergence) в течение процесса обучения, что является важной особенностью для повышения эффективности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода проведены эксперименты на нескольких математических задачах рассуждений (mathematical reasoning benchmarks). Результаты показывают значительные улучшения в производительности модели при использовании метода COPO. Особенно выделяется то, что метод позволяет модели генерировать более правильные и самосогласованные пути рассуждений, что является ключевым фактором успеха в таких задачах. Было продемонстрировано, что использование глобальной структуры наград и механизма энтропийного смягчения позволяет модели достичь лучших результатов по сравнению с традиционными методами обучения с подкреплением. Эти результаты подтверждают робастность и общую применимость метода COPO в различных задачах рассуждений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод COPO имеет широкое применение в областях, требующих высокого уровня рассуждений и согласованности, таких как математические задачи, логические выводы и другие комплексные проблемы. Благодаря его способности обеспечить значимые сигналы обучения даже в условиях высокой согласованности результатов, COPO может быть использован для улучшения эффективности обучения моделей в различных приложениях. Преимущества COPO заключаются в том, что он повышает эффективность обучения, позволяя моделям генерировать более точные и согласованные результаты. Это может быть особенно полезно в задачах, где важно получить не только правильные ответы, но и согласованные пути рассуждений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод COPO, который решает проблему ваньшинга градиентов (vanishing gradients) в обучении с подкреплением, связанную с высокой согласованностью результатов. Этот метод предлагает новую структуру наград и механизм энтропийного смягчения, которые обеспечивают значимые сигналы обучения и повышают эффективность процесса. Будущие исследования могут быть направлены на дальнейшее улучшение методов обучения с подкреплением для БЯМ, включая разработку более эффективных методов решения проблем связанных с согласованностью и генерацией правильных путей рассуждений. Также, можно рассмотреть возможность применения метода COPO в других областях, требующих высокого уровня рассуждений и согласованности.
Annotation:
Reinforcement learning has significantly enhanced the reasoning capabilities of Large Language Models (LLMs) in complex problem-solving tasks. Recently, the introduction of DeepSeek R1 has inspired a surge of interest in leveraging rule-based rewards as a low-cost alternative for computing advantage functions and guiding policy optimization. However, a common challenge observed across many replication and extension efforts is that when multiple sampled responses under a single prompt converge to...
ID: 2508.04138v1 cs.LG, cs.AI, cs.CL
Авторы:

Lingwei Zhu, Zheng Chen, Han Wang, Yukie Nagai

## КОНТЕКСТ И ПРОБЛЕМАТИКА В области обучения с подкреплением (Reinforcement Learning, RL) одной из ключевых задач является построение эффективных алгоритмов для политик управления. Одним из подходов к решению этой задачи является политика оптимизации с регуляризацией поведения (Behavior Regularization Policy Optimization, BRPO). Традиционные подходы, такие как регуляризация с использованием разности Кульбака-Лейблера (KL), основываются на асимметричных метриках различий между политиками. Однако такие методы имеют определенные ограничения, в том числе невозможность получения аналитической формы регуляризированной политики при использовании симметричных разностей, таких как $f$-разности. Симметричные разности являются более общими и гибкими инструментами для регуляризации, но их применение в BRPO сталкивается с серьезными вычислительными и численными проблемами. Традиционные методы не могут эффективно использовать симметричные разности из-за отсутствия аналитических решений и потенциальных трудностей с численной устойчивостью. Эта проблема мотивирует разработку новых методов, которые могли бы эффективно использовать симметричные разности для регуляризации в BRPO. Таким образом, целью данного исследования является создание нового метода, который позволит преодолеть трудности, связанные с использованием симметричных разностей, и обеспечить эффективную регуляризацию в BRPO. Авторы предлагают использовать ряд Тейлора для $f$-разностей для решения этих проблем, что является новаторским подходом в данной области. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают метод политики регуляризации, основанный на ряде Тейлора для симметричных разностей. Основная идея заключается в том, чтобы использовать ряд Тейлора для аппроксимации $f$-разностей, что позволяет получить аналитическую форму регуляризированной политики. Авторы доказывают, что при использовании конечного числа членов ряда Тейлора можно получить аналитическое решение для регуляризированной политики, что является ключевым достижением. Для решения проблемы численной устойчивости, авторы предлагают разделить симметричную разность на асимметричную и симметричную составляющие. Затем, они используют ряд Тейлора для аппроксимации симметричной составляющей, что помогает уменьшить численные проблемы. Этот подход позволяет создать первый практически применимый алгоритм BRPO, основанный на симметричных разностях, который называется Symmetric $f$ Actor-Critic (S$f$-AC). Алгоритм S$f$-AC сочетает в себе преимущества симметричных разностей и ряда Тейлора, что позволяет обеспечить высокую эффективность и устойчивость алгоритма. Авторы также представляют математические доказательства эффективности их подхода, что делает его надежным и практичным для применения в реальных задачах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на двух видах задач: задаче аппроксимации распределения и задаче MuJoCo. На первой задаче, они проверяют качество аппроксимации распределения с помощью их метода. Результаты показывают, что S$f$-AC достигает высокой точности в аппроксимации распределения, что говорит о его эффективности в решении этой задачи. На второй задаче, которая проводится в среде MuJoCo, авторы сравнивают S$f$-AC с другими современными методами BRPO. Результаты показывают, что S$f$-AC демонстрирует конкурентоспособные результаты, превосходя другие методы в некоторых случаях. Это подтверждает практическую значимость их метода и его возможность быть эффективным в реальных задачах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод S$f$-AC имеет широкое применение в области обучения с подкреплением, особенно в задачах, где важна точная регуляризация поведения. Он может быть использован в различных приложениях, таких как робототехника, автономные системы и игры. Благодаря его эффективности и устойчивости, S$f$-AC может стать важной составляющей в разработке интеллектуальных систем, которые могут адаптироваться к сложным средам. Кроме того, метод может быть использован для улучшения существующих алгоритмов обучения с подкреплением, особенно в тех случаях, где требуется более тонкая регуляризация поведения. Это может привести к значительным улучшениям в производительности и качестве политик управления. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной статье представлен новый метод Symmetric $f$ Actor-Critic (S$f$-AC), который использует ряд Тейлора для симметричных разностей в BRPO. Этот метод предлагает эффективное решение проблем, связанных с использованием симметричных разностей, и демонстрирует высокую эффефиктивность в экспериментах. В будущем, авторы планируют расширить их метод для решения более сложных задач, включая задачи с высокой размерностью и нелинейными системами. Также, они планируют исследовать возможности применения их метода в задачах с неопределенными или частично известными данными. Эти направления исследований могут привести к дальнейшему улучшению методов обучения с подкреплением и их применения в реальных задачах.
Annotation:
This paper introduces symmetric divergences to behavior regularization policy optimization (BRPO) to establish a novel offline RL framework. Existing methods focus on asymmetric divergences such as KL to obtain analytic regularized policies and a practical minimization objective. We show that symmetric divergences do not permit an analytic policy as regularization and can incur numerical issues as loss. We tackle these challenges by the Taylor series of $f$-divergence. Specifically, we prove tha...
ID: 2508.04225v2 cs.LG, cs.AI
Показано 2841 - 2850 из 2901 записей