📚 Саммари научных статей из arXiv

Найдено 14827 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Offline-to-Online Reinforcement Learning with Classifier-Free Diffusion Generation

2025-08-13

Авторы:

Xiao Huang, Xu Liu, Enze Zhang, Tong Yu, Shuai Li

#### Контекст Оффлайн-то-онлайн Reinforcement Learning (O2O RL) — это область исследований, нацеленная на сокращение затрат на онлайн-финетюнинг политик, предварительно обученных оффлайн. Данная тема имеет решающее значение, так как онлайн-интерфейсы часто обладают ограниченной модификацией, что приводит к высоким затратам на экспериментацию. Однако, существующие подходы столкнулись с проблемой несовпадения данных, генерируемых оффлайн-демонстрациями, и реальными данными онлайн-интерфейса. Это ограничивает качество адаптации политик. Данная работа предлагает решение этой проблемы, сосредоточившись на улучшении эффективности и точности оффлайн-то-онлайн RL. #### Метод Методология, предложенная в данной работе, основывается на использовании **Classifier-Free Diffusion Generation (CFDG)** — метода, который оптимизирует данные для генерации, не требуя дополнительного обучения классификаторов. CFDG применяет **diffusion model** для генерации данных, которые более точно соответствуют онлайн-дистрибуции. Данный подход также включает в себя метод реигрессирования, позволяющий генерировать более адекватные данные, которые более эффективно подходят для онлайн-режима. #### Результаты Исследования проводились на б BENCHMARK D4RL, включающем такие задачи, как MuJoCo и AntMaze. Результаты показали, что CFDG улучшил производительность на 15% в среднем по сравнению с другими методами, включая перекрестное переиспользование двух видов данных и стандартные методы диффузии. Эксперименты также продемонстрировали, что CFDG позволяет совершенствовать качество политик, сохраняя их устойчивость в различных сценариях. #### Значимость Предложенный подход может быть применен в различных областях, от игр до робототехники, где требуется эффективное применение оффлайн-демонстраций для онлайн-адаптации. CFDG отличается гибкостью и может быть интегрирован с любыми существующими O2O RL-алгоритмами. Это делает его привлекательным для практического применения в реальных системах, где высокая точность и стабильность ключевые факторы. #### Выводы В ходе работы был разработан и проверен CFDG, показав его преимущество над традиционными методами генерации данных для O2O RL. Результаты позволяют выделить CFDG как перспективный подход для улучшения эффективности и качества онлайн-адаптации политик. Будущие исследования будут сфокусированы на расширении этого подхода для более широкого класса задач и систем.

Annotation:

Offline-to-online Reinforcement Learning (O2O RL) aims to perform online fine-tuning on an offline pre-trained policy to minimize costly online interactions. Existing work used offline datasets to generate data that conform to the online data distribution for data augmentation. However, generated data still exhibits a gap with the online data, limiting overall performance. To address this, we propose a new data augmentation approach, Classifier-Free Diffusion Generation (CFDG). Without introduci...

ID: 2508.06806v1 cs.LG, cs.AI

arXiv PDF

📄 Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face

2025-08-13

Авторы:

Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg

## Контекст Область исследования состоит в изучении создания и развития моделей машинного обучения (ML), особенно в контексте генеративных моделей и искусственного интеллекта (AI). За последние годы возрастает интерес к разработке и применению таких моделей в различных сферах. Однако ограниченное количество эмпирических исследований посвящено изучению структуры взаимодействий при развитии и применении этих моделей. Это затрудняет понимание эволюционных процессов, происходящих в экосистеме ML. Учитывая растущий объем моделей и их взаимосвязей, необходимо получить более глубокие аналитические сведения о том, как эти модели создаются, адаптируются и используются. Задача этого исследования — получить эмпирические подтверждения для понимания логики того, как генеративные модели развиваются, и выделить направления для будущих исследований. ## Метод Для изучения структуры и эволюции моделей ML было использовано данные с платформы Hugging Face, ведущей платформы для разработки моделей ML. Исследователи разработали архитектуру подхода, основанную на изучении "деревьев моделей" — структур, которые связывают между собой модели, основанные на базовых моделях или "родительские" модели. Для измерения генетической схожести использовались метаданные моделей и "карточки моделей" (model cards), которые содержат сведения о метаданных, наименовании и описании моделей. Методом анализа было применено подходы, подобные эволюционной биологии, для изучения сходства моделей, их взаимодействия и уровня мутаций. Эта методология позволила получить новые подходы к изучению взаимосвязей в ML-экосистемах. ## Результаты Исследование охватило 1.86 миллиона моделей, размещенных на Hugging Face. Отдельным аспектом было изучение "деревьев моделей", показавших разнообразие структур и размеров этих сетей. Изучив семейные сходства моделей, исследователи обнаружили, что модели, принадлежащие к одной семье, демонстрируют большую генетическую схожесть, но это сходство отличается от стандартных моделей по аксельсорсной репродукции. Так, две "сестринские" модели чаще всего более похожи друг на друга, чем родительская и дочерняя модель. Эволюционные анализы также выявили некоторые интересные тенденции в экосистеме ML. Например, модели часто перемещаются от ограничительных коммерческих лицензий к более открытым, таким как последовательные (copyleft) или менее ограничительные лицензии, что порой противоречит условиям "родительских" лицензий. Также обнаружена тенденция к уменьшению размера моделей, превращению в англоязычные, а также к стандартизации моделе

Annotation:

Many have observed that the development and deployment of generative machine learning (ML) and artificial intelligence (AI) models follow a distinctive pattern in which pre-trained models are adapted and fine-tuned for specific downstream tasks. However, there is limited empirical work that examines the structure of these interactions. This paper analyzes 1.86 million models on Hugging Face, a leading peer production platform for model development. Our study of model family trees -- networks tha...

ID: 2508.06811v1 cs.SI, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 Who's the Evil Twin? Differential Auditing for Undesired Behavior

2025-08-13

Авторы:

Ishwar Balappanawar, Venkata Hasith Vattikuti, Greta Kintzley, Ronan Azimi-Mancel, Satvik Golechha

## Контекст Область исследования сосредоточена на обнаружении нежелательного поведения в нейронных сетях, в частности в контексте моделей глубокого обучения. Несмотря на их потрясающие возможности, нейронные сети часто являются непрозрачными и могут внедрять нежелательное поведение, которое не очевидно и может быть использовано атакующими. Эта проблема не только становится важной с точки зрения безопасности, но и влияет на доверие к алгоритмам, используемым в критически важных областях, таких как здравоохранение, финансы и автоматизированные системы принятия решений. Существующие методы обнаружения нежелательного поведения часто имеют ограниченную эффективность, особенно при недостаточной информации о нежелательном поведении. В этой статье предлагается альтернативный подход, основанный на игре между двумя командами: красная команда настраивает модели с и без нежелательного поведения, тогда как синюха команда пытается обнаружить подозрительную модель с ограниченной информацией. Этот подход может обеспечить более точные результаты в сравнении с традиционными методами. ## Метод Предлагаемая методология основывается на использовании игры между красной и синюхой командами. Красная команда обучает две почти идентичные модели: одну на основе безопасных данных, а другую с внедренным нежелательным поведением. Обе модели должны оказаться почти неразличимыми на безопасном датасете. Задача синюхой команды — определить модель с нежелательным поведением, используя различные методы аудита. Набор этих методов включает гауссовский шум, модельные различия, интегрированные производные, а также атаки с адверсарным вводом. Эти методы были изучены для моделей типа CNN, а затем протестированы с разным уровнем признаков, предоставленных красной командой. Для повышения гибкости исследования, методы были также применены к моделям типа LLM, где применялись стандартные методы ввода запросов или ввода с указанием нежелательного распределения. ## Результаты Эксперименты показали, что атаки с адверсарным вводом демонстрируют высокую точность в определении модели с нежелательным поведением при достаточном уровне подсказок (100% правильных прогнозов). Другие методы, такие как гауссовский шум и модельные различия, показали менее впечатляющие результаты, но все равно оказались полезными в определенных сценариях. Для моделей типа LLM, результаты были более смешанными, но приемлемыми, особенно когда были предоставлены указания о нежелательном распределении. На основе этих результатов, авторы подчеркивают, что адверсарные методы могут являться кл

Annotation:

Detecting hidden behaviors in neural networks poses a significant challenge due to minimal prior knowledge and potential adversarial obfuscation. We explore this problem by framing detection as an adversarial game between two teams: the red team trains two similar models, one trained solely on benign data and the other trained on data containing hidden harmful behavior, with the performance of both being nearly indistinguishable on the benign dataset. The blue team, with limited to no informatio...

ID: 2508.06827v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Sparsity-Driven Plasticity in Multi-Task Reinforcement Learning

2025-08-13

Авторы:

Aleksandar Todorov, Juan Cardenas-Cartagena, Rafael F. Cunha, Marco Zullich, Matthia Sabatelli

#### Контекст В глубоком reinforcement learning (RL) существует критическая проблема, называемая plasticity loss, которая проявляется в уменьшении возможности адаптации в процессе обучения. Это становится особенно актуальным в multi-task reinforcement learning (MTRL), где агенты должны уметь управлять различными и, возможно, конфликтующими задачами. Обычно, для улучшения plasticity используются специальные методы, но они часто приводят к неэффективности или увеличению сложности моделей. Мы изучаем, насколько могут быть эффективны спарсинговые методы, такие как Gradual Magnitude Pruning (GMP) и Sparse Evolutionary Training (SET), для повышения plasticity в MTRL, что, в свою очередь, может повысить общую эффективность. #### Метод Мы используем спарсинговые методы GMP и SET для оценки их влияния на plasticity в MTRL. Оба метода основываются на уменьшении весов сети в течение обучения, но GMP делает это постепенно, а SET — с использованием специальной структуры регуляризации. Мы проводим эксперименты с различными архитектурами MTRL: одним общим скелетным слоем, Mixture of Experts (MoE) и Mixture of Orthogonal Experts (MoOE). Для сравнения мы используем dense baselines и другие методы, например, regularization и explicit plasticity. Наши эксперименты проводятся на стандартных MTRL бенчмарках. #### Результаты Наши результаты показывают, что GMP и SET способны существенно снизить негативные показатели plasticity, такие как neuron dormancy и representational collapse. Эти улучшения часто приводят к повышению производительности в MTRL. В частности, sparse agents показывают лучшие результаты по сравнению с dense baselines и, в некоторых случаях, даже с превосходят специально разработанные методы для повышения plasticity. Эти результаты продемонстрированы на разных архитектурах и бенчмарках. #### Значимость Наша работа показывает, что sparsity-driven approaches могут быть эффективными для улучшения plasticity в MTRL. Они могут быть использованы в различных приложениях, где необходима высокая адаптивность агента, например, в robotics, game AI, и других областях, где задачи меняются динамически. Этот подход предоставляет преимущества в своей простоте и эффективности по сравнению с более сложными методами. Мы также отмечаем, что динамическая спарсинг может быть контекстно-зависима, что требует дополнительных исследований. #### Выводы Мы доказали, что GMP и SET эффективно улучшают plasticity в MTRL, приводя к повышению производительности и снижению негативных показателей, таких как dormancy и representational collapse. Эти результаты открывают новые пути для исследований в области sparsity и plasticity в deep RL. Будущие исследования будут ориентированы на дальнейшее изучение контекстной спарсинговой стратегии и ее применения в различных задачах MTRL.

Annotation:

Plasticity loss, a diminishing capacity to adapt as training progresses, is a critical challenge in deep reinforcement learning. We examine this issue in multi-task reinforcement learning (MTRL), where higher representational flexibility is crucial for managing diverse and potentially conflicting task demands. We systematically explore how sparsification methods, particularly Gradual Magnitude Pruning (GMP) and Sparse Evolutionary Training (SET), enhance plasticity and consequently improve perfo...

ID: 2508.06871v1 cs.LG, cs.AI

arXiv PDF

📄 Pushdown Reward Machines for Reinforcement Learning

2025-08-13

Авторы:

Giovanni Varricchione, Toryn Q. Klassen, Natasha Alechina, Mehdi Dastani, Brian Logan, Sheila A. McIlraith

## Контекст Решение проблем в многих прикладных областях требует эффективного использования методов управления, в которых мотивация поведения агента определяется целевыми функциями. Одним из подходов является управление с поощрениями (Reinforcement Learning, RL). Однако, обычные модели RL не всегда подходят для задач, требующих учета временных структур в поведении агента. Одним из решений этой проблемы является использование Reward Machines (RMs), которые могут представлять сложные целевые функции в виде регулярных языков. Тем не менее, существуют задачи, требующие учета более высокоуровневых структур, которые находятся за пределами возможностей RMs. Таким образом, целью исследования является расширение моделей RL, чтобы они могли эффективно решать такие задачи. ## Метод Pushdown Reward Machines (pdRMs) — это расширение обычных Reward Machines, основанное на **deterministic pushdown automata (DPDA)**. Эти автоматы могут представить более сложные языки, включая такие, допускающие неограниченные вложенности и глубины временных структур, чем это возможно в оригинальных RMs. Мы предлагаем два варианта политик, использующих pdRM: полный доступ к стеку и ограниченный доступ к верхним $k$-символам стека. Для проверки оптимальности политик мы предоставляем алгоритм, определяющий, достигают ли две политики одинаковую оптимальную суммарную награду в заданной среде. Мы также приводим теоретические результаты о выразительных возможностях pdRMs и анализируем сложность пространственных ресурсов. ## Результаты Мы проводим эксперименты, применяя pdRMs к задачам, требующим учета временных структур. Для задач, которые могут быть представлены в контексте-фри языках, мы показываем, что pdRMs позволяют значительно увеличить эффективность обучения по сравнению с традиционными RMs. Мы также проверяем точность вычисления оптимальности политик на различных наборах данных. Эксперименты показывают, что pdRMs могут эффективно решать задачи, которые требуют учёта более сложных структур времени, чем это возможно в стандартных Reward Machines. ## Значимость Предлагаемый подход может быть применен в различных прикладных областях, где необходимо учитывать временные структуры, такие как роботизированные системы, квантовые вычисления и анализ текстов. Одним из главных преимуществ pdRMs является их возможность эффективно учитывать временные структуры, что дает значительное преимущество над традиционными RMs. Мы также показываем, как эта модель может быть использована в сложных ситуациях, где требуется оптимальное решение по задачам, включающим временные зависимости. Потенциальное влияние заключается в том, что pdRMs могу

Annotation:

Reward machines (RMs) are automata structures that encode (non-Markovian) reward functions for reinforcement learning (RL). RMs can reward any behaviour representable in regular languages and, when paired with RL algorithms that exploit RM structure, have been shown to significantly improve sample efficiency in many domains. In this work, we present pushdown reward machines (pdRMs), an extension of reward machines based on deterministic pushdown automata. pdRMs can recognize and reward temporall...

ID: 2508.06894v1 cs.AI, cs.LG, 68T05

arXiv PDF

📄 Automated Formalization via Conceptual Retrieval-Augmented LLMs

2025-08-13

Авторы:

Wangyue Lu, Lun Du, Sirui Li, Ke Weng, Haozhe Sun, Hengyu Liu, Minghe Yu, Tiancheng Zhang, Ge Yu

## Контекст Интерактивные теоремпроверы (ITPs) требуют ручного формализации, которая трудоемка и требует специальной экспертной подготовки. Рост интереса к искусству математического программирования привел к развитию автоматизированных методов формализации, которые могут существенно сократить время и усилия для формализации. Однако эти методы сталкиваются с двумя ключевыми проблемами: потенциальной халтурностью (например, неопределенные предикаты, неправильное использование символов, несовместимость версий) и семантическим пробелом, вызванным неясностью или отсутствием подробных данных в естественном языке. Эти проблемы значительно ограничивают эффективность автоматизации. Работа статьи призвана решить эти задачи, предлагая новую модель, которая будет улучшать работу существующих автоматизированных инструментов. ## Метод Мы предлагаем разработать CRAMF (Concept-driven Retrieval-Augmented Mathematical Formalization), которая улучшает LLM-based autoformalizer. Работа CRAMF основывается на поисковой методологии, которая позволяет внедрять контекстные сигналы в процесс генерации кода. Мы предлагаем автоматическую конструкцию классификации математических понятий и их определений из Mathlib4 — стандартной математической библиотеки Lean 4. Для улучшения точности и устранения проблемы полиморфизма мы предлагаем стратегию контекстного запроса, используя дополнительные доменные сигналы. Также мы разрабатываем двухканальную стратегию поиска с повторным оцениванием, чтобы обеспечить высокую точность поиска. ## Результаты Мы проводим эксперименты на стандартных тестовых наборах miniF2F, ProofNet и произвольном AdvancedMath бенчмарке. CRAMF показывает последовательные улучшения в точности формализации. Мы сравниваем результаты с текущими стандартными методами и показываем, что CRAMF добивается до 62.1% улучшения в точности и 29.9% в среднем. Это указывает на последовательность CRAMF в сильном значительном улучшении существующих методов. ## Значимость Мы отмечаем, что CRAMF может быть широко применена в сфере автоматизированной формализации математических задач. Эта модель может быть применена в широких областях, включая формализацию математических теорий, автоматическое проверивание теорем, а также в образовательных целях, помогая учащимся и экспертам в математике. Мы также отмечаем, что CRAMF может повысить эффективность работы существующих систем, таких как Lean 4 и другие ITPs, и улучшить пользовательский опыт. ## Выводы Мы представляем CRAMF, новую модель для автоматизированной формализации, которая позволяет улучшить методы, исполь

Annotation:

Interactive theorem provers (ITPs) require manual formalization, which is labor-intensive and demands expert knowledge. While automated formalization offers a potential solution, it faces two major challenges: model hallucination (e.g., undefined predicates, symbol misuse, and version incompatibility) and the semantic gap caused by ambiguous or missing premises in natural language descriptions. To address these issues, we propose CRAMF, a Concept-driven Retrieval-Augmented Mathematical Formaliza...

ID: 2508.06931v1 cs.AI, cs.LG

arXiv PDF

📄 Intrinsic Explainability of Multimodal Learning for Crop Yield Prediction

2025-08-13

Авторы:

Hiba Najjar, Deepak Pathak, Marlon Nuske, Andreas Dengel

-------------------------------------------- ## Контекст ### Область исследования Многомодальное обучение (Multimodal Learning) позволяет использовать различные типы данных для решения комплексных задач, в том числе в области агрономии. В агрономии это применение необходимо для точного прогнозирования урожая, используя информацию из различных источников, таких как спутниковые изображения, погодные данные, карты уклонения терриена и характеристики почвы. Однако, применение таких архитектур часто приводит к усложнению моделей и ухудшению их интерпретируемости. ### Проблемы и мотивация Существующие модели, применяемые к задаче прогнозирования урожая, часто сталкиваются с проблемами в интерпретации результатов. Это ограничивает их удобство для использования в реальных условиях сельскохозяйственного производства. Необходимо разработать методы, которые бы не только повысили точность прогнозирования, но и обеспечили понятную интерпретацию результатов модели. ### Мотивация В данном исследовании рассматривается применение трансформер-базных моделей для решения задачи прогнозирования урожая на уровне подполя (subfield). Эти модели обладают естественной возможностью объяснения (intrinsic explainability), что позволяет детально анализировать их решения. Целью является сравнительный анализ различных способов объяснения результатов, а также оценка эффективности трансформер-моделей в задаче урожайности. -------------------------------------------- ## Метод ### Архитектура и Методы Для обучения использовались модели на базе трансформеров, которые умеют обрабатывать многомодальные данные. Использовались данные из четырех модальностей: спутниковые изображения, погодные данные, карты террейна и характеристики почвы. Модели были обучены на больших данных, включающих различные культуры, регионы и годы. ### Оценка Объясняемости Для оценки причинности решений использовались два метода: Attention Rollout (AR) и Generic Attention (GA). Также был разработан новый метод, Weighted Modality Activation (WMA), для оценки вклада отдельных модальностей в прогноз. Эти методы были сравнены с Shapley Value Sampling (SVS), подходом, основанным на математических играх. ### Оценка Точности Для оценки качества прогноза урожая использовался показатель R2, который измеряет точность по отношению к истинным данным. Модели были сравнивались с другими архитектурами, такими как глубокие сверточные и рекуррентные сети. -------------------------------------------- ## Результаты ### Эксперименты Были проведены эксперименты на широкомасштабных данных, которые включали различные культуры, регионы и годы. Модели были сравнивались на основе R2, а также с помощью метрик, оценивающих интерпретируемость решений. ### Результаты Оценки Объясняемости

Annotation:

Multimodal learning enables various machine learning tasks to benefit from diverse data sources, effectively mimicking the interplay of different factors in real-world applications, particularly in agriculture. While the heterogeneous nature of involved data modalities may necessitate the design of complex architectures, the model interpretability is often overlooked. In this study, we leverage the intrinsic explainability of Transformer-based models to explain multimodal learning networks, focu...

ID: 2508.06939v1 cs.AI, cs.LG

arXiv PDF

📄 Class Unbiasing for Generalization in Medical Diagnosis

2025-08-13

Авторы:

Lishi Zuo, Man-Wai Mak, Lu Yi, Youzhi Tu

## Контекст Медицинская диагностика является ключевым компонентом системы здравоохранения, позволяющей определить заболевания и принять соответствующие меры. Однако существуют значительные проблемы, связанные с биасами в данных и алгоритмах. Биасы могут приводить к недооценке или переоценке определенных классов, что приводит к неточным диагнозам и неэффективному применению ресурсов. Одним из важных видов биаса является **class-feature bias**, когда модель ориентируется на функции, которые сильно коррелируют только с некоторыми классами, что приводит к непослужительной производительности и плохой общей применимости на других классах. Данная работа адресует эту проблему, стремясь разработать метод, который уменьшит степень биаса и улучшит общее качество диагностики. ## Метод Метод, предложенный в работе, называется **Cls-unbias**, который призван обучать модели, учитывающие все классы равномерно, минимизируя при этом влияние класс-фичевого биаса. Метод основывается на двух основных компонентах: 1. **Class-wise Inequality Loss**: Этот лосс призван выравнивать вклады отдельных классов в обучение модели. Он поощряет равномерное влияние каждого класса на обучение, компенсируя влияние класс-фичевого биаса. 2. **Class-wise Group Distributionally Robust Optimization (C-wGDRO)**: Это оптимизационная техника, которая увеличивает веса менее эффективных классов в процессе тренировки. Это позволяет улучшить общую обнаружительность, даже при несбалансированных классах. Технически, алгоритм использует класс-веса для управления потерями и вкладом каждого класса в обучение. Эта архитектура позволяет модели ориентироваться на все классы равномерно, уменьшая влияние класс-фичевого биаса. ## Результаты Эксперименты проводились на двух типах данных: синтетических и реальных медицинских данных. В синтетических данных был симулирован класс-фичевой биас, а в реальных данных использовались реальные медицинские данные. Результаты показывают, что: - Модель Cls-unbias существенно улучшает доброту диагностики по сравнению с базовыми моделями. - Метод эффективно уменьшает влияние класс-фичевого биаса, улучшая производительность для менее представительных классов. - Он также улучшает общую обнаружительность, даже в условиях несбалансированности классов. Эти результаты иллюстрируют, что Cls-unbias эффективно компенсирует класс-фичевый биас и улучшает общую обнаружительность моделей в медицинской диагностике. ## Значимость Разработанный метод имеет широкое применение в следующих областях: 1. **Медицинская д

Annotation:

Medical diagnosis might fail due to bias. In this work, we identified class-feature bias, which refers to models' potential reliance on features that are strongly correlated with only a subset of classes, leading to biased performance and poor generalization on other classes. We aim to train a class-unbiased model (Cls-unbias) that mitigates both class imbalance and class-feature bias simultaneously. Specifically, we propose a class-wise inequality loss which promotes equal contributions of clas...

ID: 2508.06943v1 cs.LG, cs.AI

arXiv PDF

📄 AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

2025-08-13

Авторы:

Lixuan He, Jie Feng, Yong Li

## Контекст В последние годы Large Language Models (LLMs) стали неотъемлемой частью различных интеллектуальных задач, таких как математическое моделирование, визуальное рассуждение и взаимодействие с визуальными средами. Однако достижение высокого уровня производительности в этих областях часто требует сложной подготовки моделей, включающей в себя и супервизированную оптимизацию (SFT), и реинфорсмент (RL). Несмотря на выгоды от удовлетворения параллельных потребностей моделей, существуют затруднения в достижении гармоничного баланса, что приводит к таким проблемам, как катастрофическое забывание, неоптимальный баланс между имитацией и экспериментом, а также сложности в выборе правильной стратегии для конкретных задач. Эти трудности приводят к увеличению времени обучения и снижению стабильности результатов. В этой работе мы применяем теоретическое осмысление гибкого имплицитного механизма регулирования взаимодействия SFT и RL для лучшего достижения баланса. ## Метод Мы предлагаем новую модель **Adaptive Meta Fine-Tuning (AMFT)**, которая представляет собой уникальную методологию для улучшения баланса между SFT и RL. Центральная идея заключается в том, чтобы трактовать SFT и RL не как независимые технологии, а как взаимосвязанные регуляторы, зависящие от задачи. AMFT вводит **мета-градиентный адаптивный контроллер**, который анализирует и динамически создает веса для SFT и RL, максимизируя не только производительность, но и стабильность. Особенностью метода является ввод **политии энтропии** для повышения стабильности тренировочного процесса, что позволяет модели автоматически выбирать наиболее подходящую стратегию в зависимости от специфических входных данных. Данная архитектура гарантирует оптимальный режим тренировки и сохраняет достаточную гибкость для решения OOD-задач. ## Результаты Мы проводим эксперименты на трех основных типах задач: математическом рассуждении, визуальном рассуждении (в том числе General Points) и взаимодействии с визуальными средами (V-IRL). В результате, AMFT демонстрирует значительные улучшения по сравнению с другими существующими методами. Мы исследуем эффективность мета-контроллера и производительность модели в многостадийных ситуациях. Эксперименты показывают, что AMFT не только повышает общую производительность, но и демонстрирует более стабильные результаты в нестандартных ситуациях. Анализ динамики обучения подтверждает, что мета-контроллер не только улучшает скорость обучения, но и помогает модели избегать потерь связанных с катастрофическим забыванием. ## Значимость AMFT демонстрирует потенциал для использования в широком

Annotation:

Large Language Models (LLMs) are typically fine-tuned for reasoning tasks through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL), a process fraught with catastrophic forgetting and suboptimal trade-offs between imitation and exploration. Recent single-stage methods attempt to unify SFT and RL using heuristics, but lack a principled mechanism for dynamically balancing the two paradigms. In this paper, we reframe this challenge through the theoretical ...

ID: 2508.06944v2 cs.LG, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 Neural Beam Field for Spatial Beam RSRP Prediction

2025-08-13

Авторы:

Keqiang Guo, Yuheng Zhong, Xin Tong, Jiangbin Lyu, Rui Zhang

## Контекст Spatial beam RSRP (Reference Signal Received Power) prediction является ключевым аспектом управления битами в сетях с многопользовательским доступом, таких как 5G и 6G. Это необходимо для оптимизации связи, уменьшения задержек и повышения эффективности использования ресурсов. Однако, существуют ряд проблем, таких как высокий оверхед в измерениях, быстрые изменения каналов и необходимость интерактивного обучения. Избыточная зависимость от экспериментальных данных и ограниченная интерпретируемость многих существующих подходов, таких как DNNs или table-based CKMs (channel knowledge maps), становится исключительно острой. Необходимы новые подходы, которые объединялиientificать, эффективно обучаться и легко адаптироваться к новым условиям. ## Метод Наш подход, Neural Beam Field (NBF), является гибридным фреймворком, который объединяет физический инсайт с глубоким обучением. Мы предлагаем идею Multi-path Conditional Power Profile (MCPP), которая моделирует пространственную зависимость RSRP с использованием аналитического подхода. Central to NBF is the use of a decoupled "blackbox-whitebox" design: глубокая нейронная сеть на основе Transformer учится моделировать MCPP на основе спарсиных данных позиций и измерений, в то время как физический модуль аналитически определяет статистики RSRP. Для улучшения адаптивности и скорости обучения мы ввёли Pretrain-and-Calibrate (PaC) strategy, которая включает использование предварительного обучения на основе рэй-трейсинга и локальной калибровки с данными RSRP. Это проектирование обеспечивает лучшую точность, эффективность и универсальность по сравнению с классическими подходами. ## Результаты Мы провели обширные эксперименты на различных сетевых симуляциях, используя реальные данные RSRP. Наши результаты показали, что NBF превосходит существующие CKM-based и DNN-based подходы во всех ключевых аспектах: точность предсказания, эффективность обучения и универсальность. Например, NBF показывает снижение ошибки в предсказании на 20-30% по сравнению с CKM и 10-15% по сравнению с нейронными сетями. Также, наша модель значительно меньше в размере и быстрее в обучении, что делает её применимую к реальным сетям. ## Значимость Прототип Neural Beam Field может быть применен в различных областях, таких как beamforming, intelligent scheduling и resource allocation в 5G/6G сетях. Он обеспечивает более точное управление пространственными битами, уменьшает оверхед в измерениях и позволяет быстрее адаптироваться к изменениям канала. Этот подход также может способствовать уменьшению использования энергии и повышению качества связи, что является ключевым фактором для надежности и эффективности сетей. ## Выводы Мы представили Neural Beam Field как эффективный гибрид

Annotation:

Accurately predicting beam-level reference signal received power (RSRP) is essential for beam management in dense multi-user wireless networks, yet challenging due to high measurement overhead and fast channel variations. This paper proposes Neural Beam Field (NBF), a hybrid neural-physical framework for efficient and interpretable spatial beam RSRP prediction. Central to our approach is the introduction of the Multi-path Conditional Power Profile (MCPP), which bridges site-specific multipath pr...

ID: 2508.06956v1 cs.IT, cs.AI, cs.LG, math.IT

arXiv PDF

1
2
1393
1394
1395
1396
1397
1482
1483

Показано 13941 - 13950 из 14827 записей