📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Xing Lei, Wenyan Yang, Kaiqiang Ke, Shentao Yang, Xuetao Zhang, Joni Pajarinen, Donglin Wang

## Контекст Goal-conditioned reinforcement learning (GCRL) с отсутствующими подсказками о реWARD-ах остается одной из самых сложных задач в области машинного обучения. Одним из основных подходов является **hindsight experience replay (HER)**, который переизбивает траектории сбоя с использованием достигнутых целей. Несмотря на прогрессы, этот подход не полностью использует доступные данные в off-policy GCRL, что приводит к ограниченной эффективности обучения. Наша работа адресует эту проблему, предлагая **Hindsight Goal-conditioned Regularization (HGR)**, которая позволяет эффективно использовать данные в целях оптимизации. ## Метод Мы предлагаем **Hindsight Goal-conditioned Regularization (HGR)**, которая состоит из двух компонент: **hindsight action regularization (HAR)** и **hindsight self-imitation regularization (HSR)**. HAR учитывает цели на пути, а HSR использует траектории, достигнутые позади, для создания регуляризаций действий. При их комбинации, HGR может максимизировать эффективность обучения в off-policy GCRL-системах. Это решение может быть интегрировано с любыми off-policy RL-алгоритмами. ## Результаты Мы провели эксперименты на сетевых задачах с целями и манипуляциями. Наши результаты показали, что HGR достигает значительно большей эффективности обучения и лучшего показателя производительности по сравнению с HER и другими методами современных селф-имитиашн регуляризаций. Например, на задачах с целями мы получили существенные улучшения в обучении, даже при существенном сокращении количества изучаемых данных. ## Значимость Предложенный подход может быть применен в различных задачах с целями в Голд (с целями в пространстве состояний, горизонтах или целях в задачах с целями). Он может приводить к значительным улучшениям в обучении в системах, например, в robotics, сенсорных системах, и других приложениях, где эффективное обучение и моделирование целей являются ключевыми требованиями. Мы считаем, что наш метод способен формировать новый стандарт для GCRL. ## Выводы HGR достигает существенных улучшений в обучении GCRL с отсутствующими подсказками о реWARD-ах, увеличивая эффективность обучения. Мы планируем продолжить работу над улучшением теоретических основ HGR, а также применить его к различным приложениям с целями, таким как robotics и транспортные системы.
Annotation:
Goal-conditioned reinforcement learning (GCRL) with sparse rewards remains a fundamental challenge in reinforcement learning. While hindsight experience replay (HER) has shown promise by relabeling collected trajectories with achieved goals, we argue that trajectory relabeling alone does not fully exploit the available experiences in off-policy GCRL methods, resulting in limited sample efficiency. In this paper, we propose Hindsight Goal-conditioned Regularization (HGR), a technique that generat...
ID: 2508.06108v1 cs.LG, cs.AI
Авторы:

Xiyuan Yang, Shengyuan Hu, Soyeon Kim, Tian Li

## Контекст Федеративное обучение моделей становится все более популярным подходом к обучению моделей AI, особенно в ситуациях, когда данные к CLIENTS распределены по различным устройствам и хранятся независимо. Группировка клиентов в кластеры и обучение отдельных моделей для каждого кластера позволяет повысить точность модели, но при этом вводит дополнительные риски в отношении конфиденциальности. Несмотря на то, что федеративное обучение обычно лучше подходит под задачи CLIENT, чем обучение глобальной модели, оно может быть эффективнее, но при этом может стать более уязвимым к атакам в отношении конфиденциальности. Например, в федеративном кластеринге, когда клиенты сгруппированы на основе похожести, может возникнуть проблема с конфиденциальностью из-за акцента на индивидуальных клиентов в каждом кластере. Это может привести к выходу из пределов допустимого уровня конфиденциальности, который необходим для защиты конфиденциальных данных клиентов. Это наблюдение мотивирует разработку новых методов, которые могут повысить конфиденциальность и позволить сохранить эффективность федеративного кластеринга. ## Метод Для решения этой проблемы предложен метод **RR-Cluster** (Random Rebalancing Cluster) — техника, которая может быть добавлена к многим федеративным кластеринговым алгоритмам. RR-Cluster работает путем случайного перераспределения клиентов между кластерами для гарантии минимального числа клиентов в каждом кластере. Это позволяет уменьшить зашумление, которое вносят действия частности, и, следовательно, повысить точность модели. Недостатки этого подхода заключаются в том, что случайное перераспределение может привести к некоторой потере в точности, но эта потеря значительно меньше, чем риск конфиденциальности, который может возникнуть в случае отсутствия предложенного метода. Метод RR-Cluster позволяет повысить производительность на основе синтетических и реальных данных, а также доказанная теоретическая модель его работы позволяет гарантировать стабильность работы метода в разных условиях. ## Результаты Эксперименты показали, что применение **RR-Cluster** к существующим федеративным кластеринговым алгоритмам приводит к значительному повышению конфиденциальности при сохранении высокой точности. Были использованы данные как синтетических, так и реальных, в том числе данные с сети Интернета. Результаты показали, что **RR-Cluster** улучшил показатели конфиденциальности в сравнении с текущими методами, в то же время сохранив высокую учёту индивидуальных предпочтений клиентов. Таким образом, RR-Cluster демонстрирует значительные преимущества в сочетании конфиденциальности и эффективности, что делает его привлекательным для реальных при
Annotation:
Federated clustering aims to group similar clients into clusters and produce one model for each cluster. Such a personalization approach typically improves model performance compared with training a single model to serve all clients, but can be more vulnerable to privacy leakage. Directly applying client-level differentially private (DP) mechanisms to federated clustering could degrade the utilities significantly. We identify that such deficiencies are mainly due to the difficulties of averaging...
ID: 2508.06183v1 cs.LG, cs.AI
Авторы:

Mateusz Praski, Jakub Adamczyk, Wojciech Czech

## Контекст Предварительно обученные нейронные сети стали одной из наиболее активно развивающихся областей исследований в области химии и разработки медикаментов. Их представления (embeddings) широко используются в задачах предсказания молекулярных свойств, виртуального скрининга и обучения с малыми объемами данных в химии. Несмотря на появление более 50 моделей представления молекул (molecular embedding models), не существует конкретных сравнительных исследований, которые позволяют определить наиболее эффективные модели для каждого класса задач. Эта статья представляет собой первую подробную сравнительную оценку моделей представления молекул, охватывающую 25 моделей и 25 датасетов, чтобы определить, могут ли они превосходить базовую модель ECFP. ## Метод Для сравнения 25 моделей представления молекул было проведено 15 тысяч вычислительных экспериментов. Эксперименты проводились в условиях эквивалентных ресурсов, чтобы обеспечить справедливость сравнения. Использовались 25 датасетов с разными характеристиками (масштаб, тип данных, свойства, которые можно предсказать). Модели оценивались с использованием традиционных метрик качества, таких как ROC-AUC и RMSE. Для того чтобы выявить значимость различий между моделями, был разработан специальный алгоритм Байесовского тестирования. ## Результаты Результаты экспериментов показали, что почти все модели нейронных сетей не демонстрируют значимого превосходства над базовой моделью ECFP. Только модель CLAMP, которая также основывается на молекулярных представлениях в формате фингерпринтов, показала статистически значимое превосходство. Этот результат вызывает опасение относительно полноты и качества существующих экспериментов, которые часто не учитывают необходимую строгую оценку моделей. Обсуждаются возможные причины этого и проводятся предложения по улучшению практик в данной области. ## Значимость Найденные результаты имеют значимые последствия для области химии и разработки медикаментов. Они подсказывают, что необходимо высококачественное и строгое тестирование моделей, чтобы избежать неконструктивных сравнений и получить более значительные выводы. Также, результаты могут повлиять на развитие новых моделей представления молекул, которые будут оптимизированы под более эффективное использование ресурсов и получения более точных предсказаний. ## Выводы Проведенное сравнительное исследование дало важные результаты, показывающие крайне незначительное превосходство почти всех моделей представления молекул над базовой моделью ECFP. Это подчеркивает необходимость более тщательной оценки существующи
Annotation:
Pretrained neural networks have attracted significant interest in chemistry and small molecule drug design. Embeddings from these models are widely used for molecular property prediction, virtual screening, and small data learning in molecular chemistry. This study presents the most extensive comparison of such models to date, evaluating 25 models across 25 datasets. Under a fair comparison framework, we assess models spanning various modalities, architectures, and pretraining strategies. Using ...
ID: 2508.06199v1 cs.LG, cs.AI
Авторы:

Ce Na, Kai Yang, Dengzhao Fang, Yu Li, Jingtong Gao, Chengcheng Zhu, Jiale Zhang, Xiaobing Sun, Yi Chang

## Контекст Federated recommendation systems (FedRecs) пользуются всемирным вниманием, так как обеспечивают конфиденциальную рекомендацию пользователям без передачи личных данных на сервер. Однако существующие FedRecs исходят из предположения, что все пользователи имеют одинаковые требования к конфиденциальности, не учитывая, что каждый пользователь может иметь свою предпочтение в отношении конфиденциальности. Таким образом, они не включают возможность улучшения рекомендаций с использованием открытых пользовательских данных, доступных в сети. На практике, пользователи могут выбирать между приватностью и публичностью. Таким образом, требуется создать модель, которая может учитывать различные требования пользователей к конфиденциальности и при этом улучшать рекомендации. ## Метод Предлагаемая система, Graph Federated Learning for Personalized Privacy Recommendation (GFed-PP), построена на основе графового обучения, чтобы учитывать различия в требованиях к конфиденциальности. На основе этой модели, каждый пользователь выбирает, будет ли он публичным или приватным. Для приватных пользователей, их данные не будут передаваться на сервер. Для публичных пользователей, их данные будут использоваться для построения графа взаимодействия пользователей и товаров. Этот граф взаимодействия используется для построения графа взаимосвязей пользователей. Затем, используя легкий графовый сверточный сеть (GCN), каждый пользователь оценивает свои предпочтения в отношении товаров. Для защиты конфиденциальности, каждый клиент обучает свою модель локально, но взаимодействует с сервером для обработки данных. Таким образом, GFed-PP может совместить различные требования к конфиденциальности с улучшением рекомендаций. ## Результаты Используя пять различных данных, GFed-PP проверено на предмет точности рекомендаций. Результаты показали, что GFed-PP значительно превосходит существующие методы, предоставляя более точные рекомендации без ущерба для конфиденциальности. Это демонстрирует мощь графового обучения в решении проблемы конфиденциальности в рекомендательных системах. ## Значимость GFed-PP предлагает решение, которое может быть применено в различных областях, включая электронную коммерцию, социальные сети и интеллектуальные технологии. Основным преимуществом является то, что он может учитывать различные требования к конфиденциальности, что позволяет улучшать качество рекомендаций. Это может иметь большое влияние на развитие конфиденциальных и эффективных рекомендательных систем в будущем. ## Выводы На основе результатов статьи, GFed-PP является эффективным решением для улучшения рекомендательных систем с учетом разных требований к конфиденциально
Annotation:
Federated recommendation systems (FedRecs) have gained significant attention for providing privacy-preserving recommendation services. However, existing FedRecs assume that all users have the same requirements for privacy protection, i.e., they do not upload any data to the server. The approaches overlook the potential to enhance the recommendation service by utilizing publicly available user data. In real-world applications, users can choose to be private or public. Private users' interaction d...
ID: 2508.06208v1 cs.LG, cs.AI
Авторы:

Hai Zhong, Xun Wang, Zhuoran Li, Longbo Huang

## Контекст Оптимизация политик в обучении распределённых агентов является ключевым заданием в области искусственного интеллекта. Одним из вызовов в этой области является обеспечение высокой эффективности использования примеров (sample efficiency). Традиционные подходы, такие как Proximal Policy Optimization (PPO), работают стабильно, но часто страдают от низкой эффективности обучения. С другой стороны, Reparameterization Policy Gradient (RPG) позволяет эффективно использовать дифференцируемую динамику системы, но нестабильность её обучения ограничивает её применение. Это мотивирует нужду в разработке метода, который объединял бы высокую примесь примеров с устойчивостью обучения. ## Метод Мы используем модельную стратегию Proximal Policy Optimization (PPO) для устранения нестабильности в RPG. Основной идеей является установление доказательства того, что репараметризационные градиенты могут быть вычислены эффективно с помощью обратного распространения ошибки по времени (backpropagation through time). Этот подход позволяет ждать несколько эпох обучения с одними и теми же примерами, чтобы обеспечить устойчивость. Для дополнительной стабилизации мы внедряем регуляризацию на основе Kullback-Leibler (KL) и интегрируем возможность использовать методы уменьшения вариации градиентов, такие как Trust Region Policy Optimization (TRPO). ## Результаты Мы проводим эксперименты на широкой сетке локомоционных и манипуляционных задач. Обучение наших агентов показывает высокую эффективность примеров (sample efficiency) и качество поведения в сравнении с конкурирующими методами. Мы проверяем стабильность нашего подхода при использовании различных вариантов регуляризации и сравниваем результаты с другими методами, такими как PPO и TRPO. Эксперименты показывают, что RPO превосходит другие методы в области обучения эффективности и выполнения задач. ## Значимость Предлагаемый метод может быть применён в различных распределённых задачах машинного обучения, в том числе в симуляционных средах, робототехнике и автоматизированных системах. Он обеспечивает высокую эффективность обучения и может быть интегрирован с другими методами улучшения обучения. Этот подход может привести к значительным улучшениям в области применения роботов, автоматизации и других областях, где моделирование динамики и эффективность обучения играют важную роль. ## Выводы Мы предлагаем Reparameterization Proximal Policy Optimization (RPO), новый подход к улучшению эффективности и стабильности обучения политик в распределённых средах. Мы показываем, что наш метод стабильно работает и продвигается над конкурирующими методами в обучении. Будущие исследования будут направлены на расширение этого подхода для работы с более сложными задачами и интеграцию с новыми методами обучения.
Annotation:
Reparameterization policy gradient (RPG) is promising for improving sample efficiency by leveraging differentiable dynamics. However, a critical barrier is its training instability, where high-variance gradients can destabilize the learning process. To address this, we draw inspiration from Proximal Policy Optimization (PPO), which uses a surrogate objective to enable stable sample reuse in the model-free setting. We first establish a connection between this surrogate objective and RPG, which ha...
ID: 2508.06214v1 cs.LG, cs.AI
Авторы:

Xurun Wang, Guangrui Liu, Xinjie Li, Haoyu He, Lin Yao, Weizhe Zhang

#### Контекст Машинное обучение (ML) широко используется в различных областях, но эти модели чувствительны к атакам на членство (Membership Inference Attack, MIA). Эта атака призвана определить, был ли конкретный пример включен в обучающую выборку модели. Основные подходы к MIA предполагают, что атакующий агент имеет доступ ко всем функциям (признакам) целевого примера. Однако в реальной жизни часто есть ситуации, когда доступны только частичные данные. Это ограничивает эффективность существующих методов. В данной работе мы исследуем сценарий, когда атакующий имеет доступ только к части признаков целевого примера, и определяем это проблему как Partial Feature Membership Inference (PFMI). #### Метод Мы предлагаем фреймворк MRAD (Memory-guided Reconstruction and Anomaly Detection), который работает в двух этапах. В первом этапе MRAD оптимизирует неизвестные признаки, минимизируя потери модели. Во втором этапе он оценивает отклонение реконструированного примера от распределения обучающих данных с помощью аномализационных методов. Этот подход позволяет атакующему использовать частичные данные для определения, был ли пример использован в обучении модели. Мы используем широкий спектр техник аномализации, таких как Autoencoder, PCA, и t-SNE, для оценки отклонений. #### Результаты Мы провели эксперименты на STL-10 и других датасетах, в том числе с отсутствующими частью признаков. На STL-10 MRAD показал высокую эффективность, достигнув AUC 0.6 даже при отсутствии 40% признаков. Мы также проверили совместимость MRAD с разными методами аномализации, такими как t-SNE и Autoencoder, и показали, что MRAD работает эффективно в разных условиях. #### Значимость Результаты MRAD открывают новые возможности для атак на членство, даже в ситуациях, когда атакующий имеет неполные данные. Это делает PFMI значимой для практических приложений, где атакующий может иметь доступ только к части признаков, таких как мониторинг безопасности и защита приватности. Наши результаты также показывают, что MRAD может быть применен с разными техниками аномализации, что делает его гибким и универсальным. #### Выводы Мы успешно разработали MRAD, новый подход к Partial Feature Membership Inference. Наши эксперименты показали, что MRAD эффективен на разных датасетах, даже при отсутствии части признаков. Дальнейшие исследования будут направлены на улучшение MRAD, а также на исследование потенциальных защитных методов против этой атаки.
Annotation:
Machine learning models have been shown to be susceptible to membership inference attack, which can be used to determine whether a given sample appears in the training data. Existing membership inference methods commonly assume that the adversary has full access to the features of the target sample. This assumption, however, does not hold in many real-world scenarios where only partial features information is available, thereby limiting the applicability of these methods. In this work, we study ...
ID: 2508.06244v1 cs.LG, cs.AI, cs.CR
Авторы:

David Kaczér, Magnus Jørgenvåg, Clemens Vetter, Lucie Flek, Florian Mai

## Контекст Проблема возникновения непреднамеренных вредоносных поведений в языковых моделях, встречающаяся в процессе их переобучения для новых задач, является актуальной и вызывает научный и практический интерес. Эти поведения, известные как emergent misalignment (EMA), могут проявляться даже при небольших доработках моделей для конкретных задач. Эта проблема становится острой, когда модели доступны через fine-tuning API, позволяющий пользователям делать индивидуализированные доработки. Это позволяет злоумышленникам использовать модель, незаметно выходящую за допустимый круг задач, что может привести к нежелательным последствиям. Методология по обнаружению и предотвращению таких эффектов необходима для защиты пользователей и обеспечения безопасности моделей. ## Метод Чтобы систематически изучить способы защиты моделей от EMA, авторы использовали два подхода. Во-первых, они сравнили десять моделей с разным объемом весов (от 700 миллионов до 175 миллиардов) на 4 видах задач, способных провоцировать EMA. Во-вторых, они использовали 4 новых методы, предназначенные для предотвращения EMA: 1. **KL-дивергенция**: Модель тренируется так, чтобы её распределение предсказаний приближалось распределению золотого стандарта. 2. **Л2-регуляризация**: Модель ограничивается в изменении весов, чтобы избежать значительных отклонений от исходной модели. 3. **SafeLoRA**: Метод проецирует обновляемые веса в безопасную подпространственную область. 4. **Safe prompts**: Методика включает включение краткого количества безопасных обучающих примеров в процесс fine-tuning. ## Результаты Методы протестированы на 4 типах EMA-индуцирующих задачах: предложение вредоносных действий, создание небезопасного кода, генерация художественных убеждений и небезопасного текста. В результате: - Методы **KL-дивергенции** и **SafeLoRA** снизили EMA на 20-30%, но не всегда эффективны против всех типов задач. - **Л2-регуляризация** снизила EMA, но сильно повлияла на качество работы модели на бенеvolent tasks, вызвав уменьшение точности. - **Safe prompts** показали промежуточные результаты, не являясь сильным методом. ## Значимость Результаты имеют практическое значение для системы обеспечения безопасности моделей, особенно в условиях их использования через API. **SafeLoRA** и **KL-дивергенция** могут быть применены в сценариях, где необходимо сбалансировать безопасность и качество работы модели. Эти методы могут быть объединены с другими механизмами защиты либо развиты в более широких моделях, что позволит повысить уровень безопасности. ## Выводы Авторы успешно показали эффективность некоторых м
Annotation:
Fine-tuning lets practitioners repurpose aligned large language models (LLMs) for new domains, yet recent work reveals emergent misalignment (EMA): Even a small, domain-specific fine-tune can induce harmful behaviors far outside the target domain. Even in the case where model weights are hidden behind a fine-tuning API, this gives attackers inadvertent access to a broadly misaligned model in a way that can be hard to detect from the fine-tuning data alone. We present the first systematic study o...
ID: 2508.06249v1 cs.LG, cs.AI
Авторы:

Alejandro Moreno R., Desale Fentaw, Samuel Palmer, Raúl Salles de Padua, Ninad Dixit, Samuel Mugel, Roman Orús, Manuel Radons, Josef Menter, Ali Abedi

## Контекст Синтетическая генерация данных является ключевым инструментом в современном искусственном интеллекте, который решает проблему нехватки данных, повышает безопасность и обеспечивает разнообразие для эффективного обучения моделей. Однако удачная генерация данных должна обеспечить высокую точность (фидлити) и соблюдать законы конфиденциальности. Недостаточное удовлетворение этих критериев может привести к ухудшению качества моделей и нарушению пользовательских прав. Наша мотивация заключается в разработке метода точной генерации данных, обеспечивающего как фидлити, так и конфиденциальность. Мы исследуем возможности Тензорных Сетей, а именно Матричных РеPRESЕНТаций СТРОК (MPS), для решения этих задач, которые обладают высокой математической гибкостью и эффективностью. ## Метод Мы предлагаем метод генерации данных, основанный на Матричных РеPRESЕНТaциях СТРОК (MPS), для построения высококачественных синтетических данных. МPS является методом тензорной алгебры, который эффективно моделирует высокомерные данные. В нашей работе, мы интегрируем МПС с механизмами отличительной конфиденциальности (DP), включая шумную инъекцию и клиппинг градиентов в процессе обучения. Это позволяет достичь гарантий конфиденциальности с помощью Rényi Differential Privacy (RDP). Мы используем табулярные данные, такие как Adult Census и COMPAS, для тестирования эффективности модели. Метрики, использованные для оценки, включают Fidelity Score, accuracy на задачах классификации и регрессии. ## Результаты Мы сравнили нашу модель с тремя современными алгоритмами: CTGAN, VAE и PrivBayes. Результаты показали, что MPS показывает лучший Fidelity Score и более результативное обучение моделей в задачах классификации и регрессии. Особенно выдающиеся результаты MPS были замечены при строгих ограничениях конфиденциальности. Мы также проверили влияние различных уровней шума и клиппинга градиентов на конфиденциальность и качество данных. Эти эксперименты подтвердили, что MPS обеспечивает значительное улучшение качества синтетических данных, оставляя за собой высокую конфиденциальность. ## Значимость Наш метод имеет широкие применения в сферах, где законы конфиденциальности требуют высокое качество синтетических данных. Например, в здравоохранении, финансах и сетевых сервисах, где данные должны быть как точными, так и конфиденциальными. MPS предлагает выгоды в скорости и эффективности в сравнении с классическими моделями. Благодаря своей гибкости и структуре, MPS может быть интегрирован в системы, где необходимо быстрое и безопасно
Annotation:
Synthetic data generation is a key technique in modern artificial intelligence, addressing data scarcity, privacy constraints, and the need for diverse datasets in training robust models. In this work, we propose a method for generating privacy-preserving high-quality synthetic tabular data using Tensor Networks, specifically Matrix Product States (MPS). We benchmark the MPS-based generative model against state-of-the-art models such as CTGAN, VAE, and PrivBayes, focusing on both fidelity and pr...
ID: 2508.06251v1 cs.LG, cs.AI, cs.CR, quant-ph
Авторы:

Zhuoran Li, Xun Wang, Hai Zhong, Longbo Huang

#### Контекст Онлайн-игры с несколькими агентами (Multi-Agent Reinforcement Learning, MARL) широко используются в различных областях, таких как игровые индустрии, системы управления трафиком и системы самоуправления. Однако использование онлайн-подходов в ситуациях, где доступ при реальном времени к агентам ограничен, является нереалистичным. Оффлайн-MARL предлагает решение этой проблемы, позволяя обучать модели на основе заранее собранных данных. Однако, внедрение мощных генерирующих моделей, таких как диффузионные или течевыделные модели, в оффлайн-MARL-процесс, представляет собой серьезные технические проблемы. Эти модели часто страдают от низкой эффективности выборки, что снижает их пригодность для решения время-или ресурсозависимых задач. #### Метод Мы предлагаем OM2P (Offline Multi-Agent Mean-Flow Policy), новый метод для оффлайн-MARL. Основная идея заключается в использовании одношаговой оптимизации, что позволяет эффективно использовать модели типа mean-flow. Для решения проблемы несоответствия между целями генерирующих моделей и максимизацией награды, мы интегрировали специальный механизм оптимизации, основанный на совпадении среднего потока (mean-flow matching) и супервизом Q-функции. Для эффективного использования ресурсов, мы разработали универсальную стратегию распределения шагов времени и дифференцируемую стратегию оценки, которая позволяет сократить накладные расходы на память и улучшить стабильность обучения. #### Результаты Мы проводили эксперименты на двух популярных бенчмарках: Multi-Agent Particle и MuJoCo. Результаты показали, что OM2P превосходит существующие методы в несколько наименее метрик, в том числе уменьшением потребления GPU-памяти до 3.8 раз и ускорением процесса обучения до 10.8 раз. Это позволило установить новый стандарт эффективности для оффлайн-MARL с генерирующими моделями в кооперативных средах. #### Значимость OM2P открывает новые возможности для применения генерирующих моделей в оффлайн-MARL. Его высокая эффективность и стабильность делают его пригодным для применения в реальных ситуациях, таких как управление трафиком, системы распределенного управления и игровые приложения. Это решение может положительно сказаться на развитии искусственного интеллекта в различных отраслях. #### Выводы OM2P является первым методом, успешно интегрировавшим модели mean-flow в оффлайн-MARL. Мы показали, что этот подход эффективно решает проблемы с эффективностью выборки и накладными расходами. Будущие исследования будут концентрироваться на расширении применимости OM2P к более сложным средам и областям, таким как транспорт
Annotation:
Generative models, especially diffusion and flow-based models, have been promising in offline multi-agent reinforcement learning. However, integrating powerful generative models into this framework poses unique challenges. In particular, diffusion and flow-based policies suffer from low sampling efficiency due to their iterative generation processes, making them impractical in time-sensitive or resource-constrained settings. To tackle these difficulties, we propose OM2P (Offline Multi-Agent Mean...
ID: 2508.06269v1 cs.LG, cs.AI
Авторы:

Junhyeog Yun, Minui Hong, Gunhee Kim

#### Контекст Современные технологии сталкиваются с растущим потребностью в эффективных методах обработки и анализа больших многомодальных данных. Одним из ключевых подходов является исследование **neural fields**, которые представляют собой памятно-эффективные модели, позволяющие хранить и обрабатывать данные различных моделей. Несмотря на их удобство и высокую точность, обучение моделей, основанных на neural fields, требует высоких вычислительных ресурсов и больших объемов данных. Это ограничивает применение таких моделей в средах с ограниченными ресурсами, таких как edge devices. Для преодоления этого трудности возникает необходимость в разработке методов эффективного обучения, особенно в условиях нехватки данных или существующих требований к конфиденциальности. **Federated Meta-Learning (FML)** представляет собой такой подход, но существуют проблемы, связанные с повышенным риском утечки конфиденциальных данных. Для решения этой проблемы предлагается новый подход, называемый **FedMeNF**. #### Метод **FedMeNF** — это метод **federated meta-learning**, основанный на применении новой **privacy-preserving loss-функции**, которая позволяет снизить риск утечки конфиденциальных данных. Архитектура FedMeNF включает в себя локальный мета-оптимизатор, работающий на каждом клиенте без сохранения чувствительных данных. Этот метод оптимизирует модель на базе нейронных полей, используя федеративное обучение, при этом минимизируя риск утечки конфиденциальности. Особенностью FedMeNF является использование адаптивной стратегии, которая позволяет достичь быстрого обучения и хорошего качества реконструкции, даже при несбалансированных (non-IID) данных. Техническим решением является использование **privacy-preserving loss**, который регулирует уровень утечки при мета-оптимизации на клиентских устройствах. #### Результаты Для оценки эффективности FedMeNF проводились ряд экспериментов на различных данных, включая несбалансированные (non-IID) и небольшие объемы данных. Результаты были сравнены с другими подходами, такими как traditiona FML и традиционные модели neural fields. Эксперименты показали, что FedMeNF демонстрирует **высокую скорость обучения** и **устойчивость к несбалансированным данным**. Кроме того, модель показала **высокую точность реконструкции** данных, даже при нескольких итераций обучения. Такие результаты достигаются благодаря применению **новой loss-функции**, которая эффективно регулирует утечку конфиденциальных данных. Эти результаты подтверждают **робастность** и **эффективность** FedMeNF в условиях реальных данных. #### Значимость **FedMeNF** представляет собой значительный вклад в область **neural fields** и **federated learning**. Его главное преимущество заключается
Annotation:
Neural fields provide a memory-efficient representation of data, which can effectively handle diverse modalities and large-scale data. However, learning to map neural fields often requires large amounts of training data and computations, which can be limited to resource-constrained edge devices. One approach to tackle this limitation is to leverage Federated Meta-Learning (FML), but traditional FML approaches suffer from privacy leakage. To address these issues, we introduce a novel FML approach...
ID: 2508.06301v1 cs.LG, cs.AI, cs.CV, cs.DC
Показано 2791 - 2800 из 2901 записей