📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jie Xiao, Shaoduo Gan, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные методы обучения с подкреплением (RL) для больших языковых моделей (LLMs) сталкиваются с значительными проблемами в системной эффективности и масштабируемости. Традиционные подходы к обучению RL-политик для LLMs требуют совмещения двух критических фаз — генерации траекторий (inference) и оптимизации политики (training) — на одном и том же кластере GPU. Это приводит к необходимости постоянного переключения между рабочими нагрузками, нарушая принцип single-program-multiple-data (SPMD), лежащий в основе современных распределенных систем обучения. Данная проблема особенно актуальна при работе с крупными моделями и распределенными вычислениями, где эффективное использование ресурсов является ключевым фактором. Существующие решения, такие как Verl, используют колокацию inference и training на одном кластере, что ограничивает возможности использования разнородных вычислительных ресурсов. Кроме того, сериализация этих фаз создает дополнительные узкие места, в том числе повышенную задержку и неэффективное использование ресурсов. Мотивацией данного исследования является разработка системы, которая могла бы эффективно разделять эти фазы на разных типах аппаратных платформ, сохраняя при этом высокую статистическую эффективность обучения. Решение данной проблемы позволило бы расширить область применения RL-методов, в том числе к обучению на распределенных и гетерогенных вычислительных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанных проблем была разработка система Echo, которая децентрализирует процессы генерации траекторий и обучения политик на разных типах вычислительных средах. Echo вводит два легковесных протокола синхронизации, позволяющие эффективно координатизировать работу между "inference" и "training" кластерами. Первый протокол — **секундный pull-режим** — обеспечивает периодическое обновление весов семплеров на каждом вызове API, что позволяет минимизировать биас в генерации траекторий. Второй протокол — **асинхронный push-pull-режим** — предназначен для потоковой передачи версионированных траекторий через реплей-буфер, что повышает использование аппаратных ресурсов. Архитектура Echo основывается на использовании гетерогенных сред, включая высокопроизводительные GPU-кластеры для обучения и коммерческие (commodity) ресурсы для генерации траекторий. Это позволяет разгрузить тяжеловесные вычисления на более доступные платформы, сохраняя при этом высокую эффективность обучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании были проведены эксперименты на трех репрезентативных RL-задачах, используя модели Qwen3-4B, Qwen2.5-7B и Qwen3-32B. Эксперименты проводились на распределенном кластере, расположенном в различных географических регионах. Результаты показали, что Echo сопоставима по скорости сходимости и качеству финального решения с Verl, но при этом использует децентрализованные ресурсы, включая коммерческие платформы. Это демонстрирует возможность достижения высокой производительности RL-систем на распределенных и гетерогенных системах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Echo имеет широкий потенциал применения в областях, требующих больших вычислительных мощностей для обучения RL-политик, в том числе в облачных вычислениях, автономных системах и распределенных вычислительных системах. Децентрализованный подход Echo позволяет эффективно использовать доступные ресурсы, в том числе низкоуровневые коммерческие платформы, что может существенно снизить стоимость и сложность развертывания RL-систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Echo представляет собой значительный шаг вперед в области RL-систем для обучения LLMs. Она показывает, что децентрализованные и гетерогенные системы могут достигать производительности, сопоставимой с традиционными дата-центральными подходами. Будущие исследования могут фокусироваться на дальнейшей оптимизации протоколов синхронизации и расширении области применения Echo на более широкий класс задач.
Annotation:
Modern RL-based post-training for large language models (LLMs) co-locate trajectory sampling and policy optimisation on the same GPU cluster, forcing the system to switch between inference and training workloads. This serial context switching violates the single-program-multiple-data (SPMD) assumption underlying today's distributed training systems. We present Echo, the RL system that cleanly decouples these two phases across heterogeneous "inference" and "training" swarms while preserving stati...
ID: 2508.05387v1 cs.LG, cs.AI
Авторы:

Zuyuan Zhang, Arnob Ghosh, Tian Lan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Монте-Карло деревья принятия решений (Monte Carlo Tree Search, MCTS) являются мощной техникой для оптимизации решений в средах с неопределенностью. Однако традиционные подходы в MCTS основываются на ожидаемых возвратах, что не учитывает возможного диапазона неблагоприятных результатов, связанных с принятием решений. Это может привести к серьезным последствиям в ситуациях с высоким риском, где крайние или высокорискованные исходы (так называемый "tail-risk") могут иметь критическую важность. Для уменьшения этого риска, некоторые методы MCTS вводят ограничения, такие как средние меры риска или жесткие пороги затрат, но они не обеспечивают строгие гарантии безопасности относительно экстремумов и высокорискованных ситуаций. В этой статье авторы фокусируются на проблеме обеспечения безопасности относительно крайних рисков ("tail-safety") в MCTS. Они разрабатывают методы, которые могут обеспечить более надежные гарантии в отношении крайних случаев, что особенно важно в приложениях с высокими рисками, таких как финансы, медицина или критические инфраструктурные системы. В частности, авторы предлагают решения, которые могут контролировать риск не только в среднем, но и в худших сценариях, что является ключевой проблемой в данной области. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают два новых метода для обеспечения безопасности относительно рисков в MCTS. **1. CVaR-MCTS (Conditional Value-at-Risk MCTS):** В этом подходе авторы используют меру риска Conditional Value-at-Risk (CVaR), которая характеризует ожидаемый убыток в худших $(1-\alpha)\%$ случаев. CVaR-MCTS интегрирует CVaR в структуру MCTS, позволяя контролировать риск на крайних случаях. Метод позволяет установить параметр $\alpha$, который определяет уровень контроля риска. Таким образом, CVaR-MCTS способен обеспечить явный контроль риска в худших случаях, что является важной характеристикой для приложений с высоким риском. **2. Wasserstein-MCTS (W-MCTS):** Для устранения ограничений, связанных с оценкой риска на основе ограниченных выборок, авторы предлагают ввести амбигуитетный набор Wasserstein (Wasserstein ambiguity set) $\mathcal{P}_{\varepsilon_{s}}(s,a)$ с радиусом $\varepsilon_{s}$. Этот набор позволяет характеризовать неопределенность в оценках риска и обеспечивает более точные гарантии безопасности в отношении крайних ситуаций. W-MCTS использует этот набор для улучшения точности оценок риска, что позволяет повысить надежность решений в средах с неопределенностью. Авторы также доказывают, что оба метода обеспечивают PAC (Probably Approximately Correct) гарантии безопасности и оценивают регрет (regret) этих методов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на различных симулированных средах, чтобы оценить эффективность их методов по сравнению с существующими базовыми подходами. Результаты демонстрируют, что CVaR-MCTS и W-MCTS показывают значительно более высокую эффективность в обеспечении безопасности относительно крайних рисков, при этом показывая лучшие результаты в терминах вознаграждений и стабильности. В частности, CVaR-MCTS показывает высокую эффективность в контроле риска в крайних ситуациях, в то время как W-MCTS обеспечивает более точную оценку риска благодаря введенному амбигуитетному набору. Эксперименты также показывают, что оба метода повышают стабильность и уменьшают вероятность крайних неблагоприятных исходов, что делает их более надежными в сравнении с традиционными методами MCTS. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенные методы имеют широкое применение в областях, требующих высокой надежности и контроля риска. Например, в финансовых системах, где необходимо учитывать возможность крайних финансовых потерь, или в медицинских приложениях, где крайние исходы могут иметь серьезные последствия. CVaR-MCTS и W-MCTS могут быть использованы для оптимизации решений в этих областях, обеспечивая более надежные и безопасные решения. Кроме того, эти методы могут быть применены в критически важных системах, таких как управление энергетическими сетями, транспортные системы или системы кибербезопасности, где контроль риска в крайних случаях имеет решающее значение для обеспечения безопасности и надежности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этой работе авторы представляют два новых метода, CVaR-MCTS и W-MCTS, которые обеспечивают гарантии безопасности относительно крайних рисков в MCTS. Они доказывают PAC гарантии для этих методов и демонстрируют их преимущества в экспериментальных исследованиях. В будущем, авторы предлагают расширить эти методы для более сложных сред, включая многоагентные системы и системы с нестационарностью. Также, они предлагают исследовать возможности интеграции этих методов с другими подходами к управлению рисками, чтобы повысить их эффективность в реальных приложениях.
Annotation:
Making decisions with respect to just the expected returns in Monte Carlo Tree Search (MCTS) cannot account for the potential range of high-risk, adverse outcomes associated with a decision. To this end, safety-aware MCTS often consider some constrained variants -- by introducing some form of mean risk measures or hard cost thresholds. These approaches fail to provide rigorous tail-safety guarantees with respect to extreme or high-risk outcomes (denoted as tail-risk), potentially resulting in se...
ID: 2508.05441v1 cs.LG, cs.AI
Авторы:

Wei Li, Zixin Wang, Qizheng Sun, Qixiang Gao, Fenglei Yang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Точность и надежность прогнозирования временных рядов энергии играют важную роль в планировании и распределении энергоресурсов. Данные энергетических систем характеризуются высокой динамической сложностью и непостоянством, что затрудняет использование традиционных методов прогнозирования. С появлением глубокого обучения, методы прогнозирования временных рядов на основе нейронных сетей стали доминирующими, однако существующие подходы сталкиваются с трудностями в обработке мульти-скопической (многоуровневой) динамики и неправильности реальных данных. Мульти-скопические характеристики временных рядов означают, что данные могут иметь различные временные резолюции, что требует сложной модели для эффективного извлечения шаблонов на разных уровнях. Кроме того, неопределенность и неполнота данных, а также влияние внешних факторов, таких как температура и ветер, создают дополнительные вызовы для точного прогнозирования. Оценка неопределенности также критически важна, поскольку она позволяет оценивать достоверность прогнозов и принимать взвешенные решения. В этой статье авторы предлагают EnergyPatchTST, новый метод, основанный на трансформерах для временных рядов, который предназначен для решения этих проблем. Целью этого метода является обеспечение точного и надежного прогнозирования энергии, учитывая мульти-скопическую природу данных и интегрируя внешние переменные для улучшения прогнозов. ## ПРЕДЛОЖЕННЫЙ МЕТОД EnergyPatchTST является расширением Patch Time Series Transformer (PatchTST), специально адаптированным для задач прогнозирования энергии. Основные инновации этого метода включают: 1. **Механизм мульти-скопического извлечения признаков**: Модель структурирует временные ряды на различных временных масштабах, что позволяет извлекать шаблоны на разных уровнях детализации. Этот механизм помогает модели адаптироваться к различным динамикам, которые могут возникать в энергетических данных. 2. **Прогнозирование с оценкой неопределенности**: EnergyPatchTST использует Probabilistic Prediction Framework, который оценивает неопределенность прогнозов через Monte Carlo Dropout. Это позволяет модели не только предсказывать значения, но также оценивать уровень достоверности прогнозов. 3. **Интеграция известных будущих переменных**: Модель может интегрировать известные будущие значения, такие как температура и ветер, что улучшает точность прогнозов. Это полезно в ситуациях, когда некоторые факторы могут быть прогнозируемы заранее. 4. **Предобучение и файн-тюнинг**: Авторы предлагают метод предобучения модели на больших наборах данных, затем файн-тюнинг на конкретных энергетических данных. Это помогает улучшить производительность модели, особенно когда доступны ограниченные данные. Общая архитектура EnergyPatchTST состоит из нескольких компонентов, включающих слои трансформеров для обработки временных рядов, модули для мульти-скопического анализа, и механизмы для интеграции внешних переменных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов на распространенных энергетических наборах данных, чтобы оценить эффективность EnergyPatchTST по сравнению с другими методами. Использовались данные из различных регионов с различной длительностью и частотой сбора данных. Результаты показали, что EnergyPatchTST превосходит другие методы, такие как трансформеры и ЛSTM, с понижением ошибки прогноза на 7-12%. Благодаря механизму мульти-скопического анализа, модель эффективно обрабатывает данные с различными временными резолюциями. Кроме того, оценка неопределенности, предоставленная Monte Carlo Dropout, оказалась надежной и полезной для оценки достоверности прогнозов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ EnergyPatchTST может быть применен в различных областях энергетического сектора, включая планирование производства электроэнергии, оптимизацию распределения ресурсов и управление энергосистемами. Точные прогнозы позволяют оптимизировать использование энергоресурсов, снизить затраты и повысить надежность системы. Оценка неопределенности также помогает принимать более информированные решения в условиях неопределенности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе был представлен EnergyPatchTST, новый метод для прогнозирования временных рядов энергии, который обеспечивает точные прогнозы и надежную оценку неопределенности. Будущие исследования могут сосредоточиться на дальнейшем улучшении модели, включая исследование новых методов для обработки неполных данных и интеграции более сложных внешних факторов. Также, расширение этого подхода на другие области, такие как финансы и медицина, может быть перспективным направлением.
Annotation:
Accurate and reliable energy time series prediction is of great significance for power generation planning and allocation. At present, deep learning time series prediction has become the mainstream method. However, the multi-scale time dynamics and the irregularity of real data lead to the limitations of the existing methods. Therefore, we propose EnergyPatchTST, which is an extension of the Patch Time Series Transformer specially designed for energy forecasting. The main innovations of our meth...
ID: 2508.05454v1 cs.LG, cs.AI
Авторы:

Robert Jankowski, Filippo Radicchi, M. Ángeles Serrano, Marián Boguñá, Santo Fortunato

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные нейросети демонстрируют выдающиеся результаты в задачах машинного обучения, однако остаются "черными ящиками" с неясной внутренней организацией. Ключевым вызовом является понимание того, как сложность входных данных и решаемых задач формирует внутренние представления моделей. Эта проблема имеет фундаментальное значение для теории глубокого обучения и практических приложений, включая интерпретируемость, сжатие моделей и оценку надёжности. Существующие подходы к анализу внутренних представлений ограничены спецификой данных или архитектур моделей, что препятствует созданию универсальных методов оценки сложности задач. Традиционные метрики сложности, основанные на размере данных или количестве параметров, не учитывают топологические особенности сформированных представлений. Более того, неясно, как различные уровни сложности задач влияют на устойчивость моделей к различным возмущениям, таким как бинаризация весов или шумовые вмешательства. Авторы работы предлагают новый подход, рассматривая многослойные перцептроны (MLP) как двудольные графы со знаковыми весами из перспективы сетевой науки. Это позволяет применить методы анализа сложных сетей для изучения внутренней структуры моделей. Рабочая гипотеза заключается в том, что сложность задачи определяет не только количество необходимых параметров, но и топологические характеристики сформированных представлений, что должно проявляться в различной устойчивости к структурным возмущениям между моделями, обученными на простых и сложных задачах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследователи разработали комплекс из пяти методов-зондов для анализа внутренних представлений нейросетей, не зависящих от типа данных: 1. **Прунинг (Pruning)** - систематическое удаление рёбер с наименьшими весами в графовом представлении модели для изучения её чувствительности к разрежению связей. Это позволяет оценить, какая доля параметров критична для сохранения производительности. 2. **Бинаризация (Binarization)** - преобразование всех весов в бинарные значения (+1 или -1) для исследования роли точности весов в формировании представлений. Это экстремальный случай квантования, позволяющий оценить, насколько важны точные значения весов. 3. **Внедрение шума (Noise injection)** - добавление гауссовского шума к весам для изучения устойчивости представлений к возмущениям. Особый акцент сделан на режим стохастического резонанса, где умеренный уровень шума может улучшить производительность. 4. **Инверсия знаков (Sign flipping)** - случайное изменение знаков весов для анализа важности знаковой структуры относительно величин весов. Это позволяет отделить топологические свойства от метрических. 5. **Рандомизация двудольных сетей (Bipartite network randomization)** - сохранение только знаковой структуры связей при полной рандомизации величин весов и топологии связей между слоями. MLP представляются как знаковые взвешенные двудольные графы, где вершины соответствуют нейронам, а рёбра - весам между слоями. Для контраста эффектов исследовались простые (лёгкие) и сложные (трудные) задачи классификации на датасетах MNIST и Fashion-MNIST. Сложность задач определялась через манипуляции с метками классов, создавая варианты с различным уровнем разделимости классов в пространстве признаков. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на трёх архитектурах MLP с различной глубиной (2, 3 и 4 скрытых слоя) и шириной (256, 512 и 1024 нейрона на слой). Для каждой задачи создавались пары "лёгкая-сложная" через систематическое усложнение разметки, обеспечивая контролируемое различие в сложности при фиксированных данных. Ключевые экспериментальные находки: 1. **Бинаризация весов** приводит к катастрофическому падению точности (до уровня случайного угадывания) в моделях, обученных на сложных задачах, тогда как модели простых задач сохраняют высокую производительность (снижение менее 5%). 2. **Фазовый переход при прунинге**: при бинаризации последующее удаление рёбер с наименьшими весами в моделях сложных задач вызывает резкий
Annotation:
Neural networks excel across a wide range of tasks, yet remain black boxes. In particular, how their internal representations are shaped by the complexity of the input data and the problems they solve remains obscure. In this work, we introduce a suite of five data-agnostic probes-pruning, binarization, noise injection, sign flipping, and bipartite network randomization-to quantify how task difficulty influences the topology and robustness of representations in multilayer perceptrons (MLPs). MLP...
ID: 2508.05463v1 cs.LG, cs.AI
Авторы:

Jifan Gao, Mahmudur Rahman, John Caskey, Madeline Oguss, Ann O'Rourke, Randy Brown, Anne Stey, Anoop Mayampurath, Matthew M. Churpek, Guanhua Chen, Majid Afshar

## КОНТЕКСТ И ПРОБЛЕМАТИКА Электронные медицинские карты (Electronic Health Records, EHR) содержат многомодальные данные, включающие клинические заметки, медицинские изображения, лабораторные результаты и другие форматы информации о пациентах. Такие данные являются источником ценных и дополнительных сведений для оценки состояния здоровья пациентов. Однако, интеграция таких разнородных источников данных в единые модели прогнозирования представляет собой серьезную проблему. Традиционные подходы часто требуют больших объемов данных для обучения и имеют сложности в обработке и комбинации различных модальностей. Применение моделей основанных на технологиях языковых моделей (Large Language Models, LLM) в клинических задачах также сталкивается с ограничениями. Несмотря на то, что LLM хорошо справляются с обработкой текстовых данных, их применение к нетекстовым модальностям, таким как изображения и табличные данные, требует дополнительных преобразований. Также, создание моделей, способных эффективно обрабатывать и сочетать различные типы данных, требует новых подходов для обеспечения высокой точности и гибкости. Кроме того, существующие методы часто недостаточно гибкие для работы с различными комбинациями модальностей, что ограничивает их применение в реальных клинических условиях. Таким образом, необходим новый подход, который мог бы эффективно интегрировать различные модальности данных EHR и обеспечить точные клинические прогнозы. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается архитектура Mixture-of-Multimodal-Agents (MoMA), которая использует несколько LLM-агентов для решения задач клинического прогнозирования на основе многомодальных данных EHR. MoMA состоит из трех основных компонентов: "specialist agents", "aggregator agent", и "predictor agent". "Specialist agents" отвечают за преобразование нетекстовых модальностей, таких как медицинские изображения и лабораторные результаты, в структурированные текстовые описания. Эти описания позволяют преобразовать неструктурированные данные в формат, который может быть легко интегрирован с текстовыми данными. "Aggregator agent" занимается комбинацией текстовых описаний, полученных от "specialist agents", с клиническими заметками для создания единого многомодального результата. Этот шаг позволяет объединить информацию из различных источников в единый контекст, который может быть использован для прогнозирования. "Predictor agent" является конечной моделью, которая использует полученный многомодальный результат для выполнения клинических прогнозов. Эта модель основана на LLM и обеспечивает высокую точность прогнозов за счет интеграции информации из различных модальностей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы оценить эффективность MoMA, авторы провели эксперименты на трех клинических задачах прогнозирования, используя реальные наборы данных EHR с различными комбинациями модальностей. Эксперименты показали, что MoMA превосходит современные методы в терминах точности прогнозов. Авторы также продемонтрировали, что архитектура MoMA хорошо адаптируется к различным комбинациям модальностей данных, что делает ее более гибкой в реальных условиях. Модель показала значительное улучшение результатов в сравнении со стандартными подходами, особенно в случаях, когда использовались различные типы данных, такие как изображения и текстовые заметки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод MoMA имеет широкое применение в клинической практике, особенно в задачах прогнозирования результатов лечения, определения риска развития заболеваний и других клинических задачах. Его гибкость и способность обрабатывать различные типы данных делают его подходящим для использования в различных клинических сценариях. Преимущества MoMA включают в себя улучшенную точность прогнозов, гибкость в работе с различными комбинациями модальностей данных и возможность интеграции неструктурированных данных в единый контекст. Эти преимущества могут привести к значительному улучшению клинических решений и повышению эффективности лечения пациентов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Архитектура MoMA представляет собой значительный шаг вперед в интеграции многомодальных данных для клинических прогнозов. Она демонстрирует высокую точность и гибкость, что делает ее подходящей для реального применения в клинической практике. В будущем, авторы планируют расширить данную модель для работы с большими и более разнообразными наборами данных, а также исследовать возможности улучшения эффективности обработки нетекстовых модальностей. Также, предвидится исследование возможностей применения MoMA в других областях, таких как обработка данных из других сфер, где используются многомодальные данные.
Annotation:
Multimodal electronic health record (EHR) data provide richer, complementary insights into patient health compared to single-modality data. However, effectively integrating diverse data modalities for clinical prediction modeling remains challenging due to the substantial data requirements. We introduce a novel architecture, Mixture-of-Multimodal-Agents (MoMA), designed to leverage multiple large language model (LLM) agents for clinical prediction tasks using multimodal EHR data. MoMA employs sp...
ID: 2508.05492v1 cs.LG, cs.AI, cs.MA
Авторы:

Hrithik Suresh, Sahil Sidheekh, Vishnu Shreeram M. P, Sriraam Natarajan, Narayanan C. Krishnan

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Probabilistic Circuits (PCs) представляют собой класс генеративных моделей, которые обеспечены возможностью точного и вычислительно эффективного выполнения вывода для широкого спектра запросов. Благодаря этим свойствам, PCs получили широкое распространение в областях, требующих прозрачности и точности, таких как медицинские диагностики, обработка естественного языка и системы принятия решений. Однако, несмотря на их преимущества, существует ряд проблем, связанных с их обучением и применением. Одной из ключевых проблем является тенденция к переобучению, особенно при наличии ограниченного объема данных. Переобучение может произойти, когда модель становится слишком сложной, что приводит к плохой обобщающей способности на неизвестных данных. Традиционные подходы к решению этой проблемы часто основываются на регуляризации, но для PCs это может быть недостаточно эффективно из-за специфики их структуры и вычислительных особенностей. Дополнительная сложность заключается в том, что существующие методы регуляризации для глубоких нейронных сетей, такие как Sharpness-Aware Minimization (SAM), не легко применимы к Probabilistic Circuits из-за вычислительной сложности оценки второй производной функции лог-вероятности. Таким образом, необходим новый подход, который бы эффективно решал эту проблему для Probabilistic Circuits, сохраняя при этом их вычислительную эффективность. В данной статье авторы предлагают решение этой проблемы, основанное на анализе пейзажа лог-вероятности и использовании регуляризатора, основанного на трассировке гессиана. Это позволяет улучшить обобщающую способность моделей Probabilistic Circuits, сделав их более надёжными в реальных приложениях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод, называемый **Tractable Sharpness-Aware Learning**, который опирается на идею регуляризации лог-вероятностного пространства с помощью гессиана. Основная идея заключается в том, чтобы минимизировать трассировку гессиана функции лог-вероятности, которая служит прокси-метрикой для оценки остроты оптимума. Ключевой момент заключается в том, что для Probabilistic Circuits можно эффективно вычислить трассировку гессиана без необходимости прямого решения сложных математических выражений, что является существенным преимуществом по сравнению с глубокими нейронными сетями. Авторы доказывают, что это можно сделать с помощью эффективных алгоритмов, которые интегрируются с методами обучения на основе EM (Expectation-Maximization) и градиентных методов. Техническая реализация включает в себя добавление регуляризатора, который зависит от нормы градиента функции лог-вероятности. Этот регуляризатор позволяет смягчить остроту оптимума, что приводит к более плоским минимумам и, соответственно, к лучшей обобщающей способности модели. Алгоритм обучения остается простым и вычислительно эффективным, что делает его пригодным для практического использования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на синтетических и реальных данных для оценки эффективности предложенного метода. На синтетических данных было показано, что метод эффективно смягчает остроту оптимума и улучшает обобщающую способность модели. На реальных данных, таких как наборы данных для классификации изображений и текстов, метод также демонстрирует значительное улучшение показателей качества по сравнению со стандартными методами обучения Probabilistic Circuits. Кроме того, было продемонстрировано, что предложенный метод не только улучшает качество модели, но также снижает вероятность переобучения, что является критическим фактором для моделей с высокой модельной емкостью. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий спектр практических применений. Он может быть использован в задачах, где важна высокая точность и прозрачность модели, таких как медицинские диагностики, финансовые прогнозы и системы управления рисками. Благодаря улучшению обобщающей способности, метод также может быть полезен в задачах, где данных недостаточно для надежного обучения традиционных моделей. Одним из главных преимуществ является то, что метод сохраняет вычислительную эффективность Probabilistic Circuits, что делает его пригодным для реального времени и высоконагруженных приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Tractable Sharpness-Aware Learning является эффективным подходом для улучшения обучения Probabilistic Circuits. Он не только смягчает проблему переобучения, но также повышает обобщающую способность модели. В будущем можно рассмотреть возможность применения этого метода к другим классам моделей, а также исследовать его сочетание с другими методами регуляризации для дальнейшего улучшения результатов.
Annotation:
Probabilistic Circuits (PCs) are a class of generative models that allow exact and tractable inference for a wide range of queries. While recent developments have enabled the learning of deep and expressive PCs, this increased capacity can often lead to overfitting, especially when data is limited. We analyze PC overfitting from a log-likelihood-landscape perspective and show that it is often caused by convergence to sharp optima that generalize poorly. Inspired by sharpness aware minimization i...
ID: 2508.05537v1 cs.LG, cs.AI
Авторы:

Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы объединенные модели зрения и языка (Vision-Language Models, VLMs) продемонстрировали выдающиеся способности к обобщению на широком спектре задач, включая распознавание изображений, визуально-языковое понимание и генерацию. Однако, несмотря на впечатляющие базовые результаты, прямое применение этих моделей к конкретным прикладным сценариям без специфической адаптации часто приводит к субоптимальной производительности. Это наблюдается в ситуациях с доменным сдвигом, специфическими распределениями данных или уникальными требованиями конечной задачи. Проблема усложняется тем, что традиционные методы адаптации требуют больших объемов размеченных данных, что затрудняет их практическое применение. Сбор и маркировка данных может быть крайне дорогостоящим, особенно в специализированных областях, таких как медицинская диагностика, промышленная инспекция или автономное вождение. Это привело к растущему интересу к методам адаптации без надзора, которые не требуют размеченных данных. Существующие исследования в этой области фрагментированы и отсутствует систематическое понимание различных подходов. Разные методы предполагают различные уровни доступа к данным, от полного их отсутствия до стриминговых данных в реальном времени. Отсутствие унифицированной таксономии и сравнительного анализа затрудняет выбор подходящего метода для конкретной задачи. Эта статья заполняет критический пробел в литературе, предоставляя всесторонний обзор методов адаптации VLMs без использования меток. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают систематическую таксономию методов адаптации VLMs без меток, основанную на доступности и характере неразмеченных визуальных данных. Таксономия включает четыре ключевых парадигмы, каждая из которых оптимизирована для конкретного сценария распределения данных. Первая парадигма - Data-Free Transfer (передача без данных) - предполагает полное отсутствие доступных данных из целевого домена. Методы в этой категории полагаются на синтетические данные, сгенерированные из предобученных генеративных моделей, или используют мета-информацию из исходного модального пространства. Основная стратегия заключается в генерации псевдоданных, которые имитируют характеристики целевого домена, с последующей адаптацией модели через методы дистилляции знаний. Вторая парадигма - Unsupervised Domain Transfer (нерегулируемая передача домена) - применяется когда доступны большие объемы неразмеченных данных целевого домена. Методы здесь используют стратегии выравнивания распределений, такие как adversarial adaptation, feature alignment и self-supervised learning. Специфическая архитектура включает итеративное обучение с механизмами контрастивной потери и pseudo-labeling. Третья парадигма - Episodic Test-Time Adaptation (эпизодическая адаптация во время тестирования) - работает с батчами данных, поступающих периодически. Методы используют механизмы обратного распространения с адаптивными оптимизаторами, обновляющими только normalization layers или lightweight adaptation modules. Ключевое техническое решение - использование entropy minimization и consistency regularization для стабильной адаптации. Четвертая парадигма - Online Test-Time Adaptation (онлайн адаптация во время тестирования) - спроектирована для стриминговых данных в реальном времени. Архитектура включает буферы ограниченного размера, online learning алгоритмы и механизмы быстрой адаптации. Методы используют мета-обучение и continual learning стратегии для предотвращения катастрофического забывания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексное эмпирическое исследование, охватывающее 15+ представительных методов из каждой парадигмы. Эксперименты проводились на 8 различных наборах данных, включая ImageNet, CIFAR-10/100, DomainNet, Office-Home, CUB-200, Food-101, а также специализированные наборы для медицинской визуализации и автономного вождения. Для Data-Free Transfer методов, использовались различные генеративные модели (StyleGAN, BigGAN, diffusion models) для создания синтетических данных. Результаты показали, что качество синтетических данных напрямую коррелирует с эффективностью адаптации, причем diffusion-based подходы демонстрировали наибольшую устойчивость к доменному сдвигу. Наибольшие улучшения наблюдались в сценариях
Annotation:
Vision-Language Models (VLMs) have demonstrated remarkable generalization capabilities across a wide range of tasks. However, their performance often remains suboptimal when directly applied to specific downstream scenarios without task-specific adaptation. To enhance their utility while preserving data efficiency, recent research has increasingly focused on unsupervised adaptation methods that do not rely on labeled data. Despite the growing interest in this area, there remains a lack of a unif...
ID: 2508.05547v1 cs.LG, cs.AI, cs.CV
Авторы:

Guilherme Seidyo Imai Aldeia, Daniel S. Herman, William G. La Cava

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гипертоническая болезнь остается одним из ведущих факторов риска сердечно-сосудистых заболеваний и преждевременной смертности во всем мире. Особую тревогу вызывает устойчивая артериальная гипертония (resistant hypertension) — состояние, при котором артериальное давление остается выше целевого уровня несмотря на прием трех антигипертензивных препаратов различных классов, включая диуретик, в оптимальных дозировках. Точная идентификация пациентов с устойчивой гипертонией критически важна для корректировки терапевтических стратегий и улучшения прогноза, однако клинические портреты таких пациентов остаются неоднозначными и сложными для формализации. Традиционные подходы к созданию вычислимых фенотипов (computable phenotypes, CP) — формальных правил для идентификации клинических состояний на основе электронных медицинских записей — требуют значительных ресурсов, включая участие экспертов-клиницистов, ручную разметку больших объемов данных и длительную валидацию. Современные методы машинного обучения, достигающие высокой точности, часто представляют собой "черные ящики", недоступные для интерпретации клиницистами и не позволяющие понять патофизиологические механизмы заболеваний. Большие языковые модели (LLM) продемонстрировали выдающиеся способности в области медицинского консультирования и программирования, однако их потенциал для генерации интерпретируемых вычислимых фенотипов остается практически неизученным. Существующие исследования фокусировались в основном на задачах вопросно-ответного формата и извлечения информации из текста, в то время как возможность автоматической генерации формальных правил для клинических портретов остается открытым фронтиром. Это создает значительный разрыв между возможностями современных ИИ-систем и потребностями клинической практики в масштабируемых, интерпретируемых инструментах поддержки принятия решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали инновационную стратегию "синтез-исполнение-отладка-инструкция" (synthesize, execute, debug, instruct), которая использует возможности больших языковых моделей для генерации и итеративного уточнения вычислимых фенотипов на основе данных-обратной связи. Методология представляет собой многоэтапный процесс, начинающийся с нулевого обучения (zero-shot), при котором LLM генерирует первоначальные правила без предварительных примеров, опираясь исключительно на текстовое описание клинического фенотипа. На этапе синтеза модель получает естественно-языковое описание целевого клинического состояния и генерирует соответствующий код, обычно представленный в виде SQL-запросов или логических выражений. Сгенерированные правила затем исполняются на реальных клинических данных, что позволяет получить предсказания наличия или отсутствия исследуемого фенотипа у пациентов. Используемая вычислительная архитектура включает в себя механизмы безопасного выполнения кода для предотвращения потенциальных уязвимостей и обеспечения конфиденциальности медицинских данных. Ключевым элементом является процесс отладки, при котором результаты исполнения сопоставляются с золотым стандартом или экспертной разметкой. Расхождения между предсказанными и фактическими метками анализируются LLM, которая затем генерирует инструкции для улучшения правил. Этот цикл повторяется итеративно, позволяя модели постепенно уточнять и оптимизировать вычислимые фенотипы. Процесс продолжается до достижения приемлемого уровня производительности или исчерпания заданного количества итераций. Архитектура системы включает компоненты для управления версиями генерируемого кода, логирования всех изменений и обеспечения воспроизводимости результатов. Специальные механизмы предотвращают циклические улучшения и гарантируют конвергенцию процесса. Для обработки сложных случаев реализована система приоритизации ошибок, фокусирующая внимание LLM на наиболее критичных различиях между предсказанными и истинными метками. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование оценивало способность LLM генерировать точные и лаконичные вычислимые фенотипы для шести клинических состояний различной сложности,
Annotation:
Large language models (LLMs) have demonstrated remarkable capabilities for medical question answering and programming, but their potential for generating interpretable computable phenotypes (CPs) is under-explored. In this work, we investigate whether LLMs can generate accurate and concise CPs for six clinical phenotypes of varying complexity, which could be leveraged to enable scalable clinical decision support to improve care for patients with hypertension. In addition to evaluating zero-short...
ID: 2508.05581v1 cs.LG, cs.AI, cs.CL
Авторы:

Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимодальные большие языковые модели (MLLM) являются мощным инструментом для решения задач, требующих понимания и обработки различных видов данных, таких как текст, изображения и аудио. Однако, несмотренно на их продвинутые возможности, MLLM часто сталкиваются с проблемами в области логического вывода и принятия решений, что ограничивает их эффективность в реальных приложениях. Для улучшения таких возможностей используется Reinforcement Learning (RL), который позволяет моделям улучшать свои навыки вывода после первоначального обучения. Тем не менее, существующие подходы к RL-обучению MLLM сталкиваются с двумя ключевыми проблемами: **Advantage Collapsing** и **Rollout Silencing**. **Advantage Collapsing** происходит, когда большинство преимуществ (advantages) в пакете данных сосредоточены вокруг нуля, что приводит к неэффективному обновлению градиентов и замедлению процесса обучения. **Rollout Silencing**, с другой стороны, возникает, когда со временем уменьшается доля траекторий (rollouts), которые предоставляют ненулевые градиенты, что также понижает качество обучения. Эти проблемы не только замедляют процесс обучения, но и могут привести к подходящим, но не оптимальным результатам. Для решения этих проблем, авторы предлагают новый подход, основанный на динамическом изменении структуры траекторий и композиции пакетов данных. Этот подход называется **Shuffle-R1** и направлен на повышение эффективности RL-обучения MLLM за счет улучшения качества градиентных сигналов и повышения экспозиции ценных траекторий. ## ПРЕДЛОЖЕННЫЙ МЕТОД **Shuffle-R1** представляет собой фреймворк, который улучшает эффективность RL-обучения MLLM путем динамического изменения способа выбора и композиции траекторий. Фреймворк состоит из двух основных компонентов: **Pairwise Trajectory Sampling** и **Advantage-based Trajectory Shuffle**. **Pairwise Trajectory Sampling** — это метод выбора траекторий, который фокусируется на выборе пар траекторий с высоким контрастом, т.е. траекторий, которые имеют значительные различия в их преимуществах (advantages). Это позволяет улучшить качество градиентных сигналов, поскольку высококонтрастные траектории обеспечивают более информативные обновления весов модели. **Advantage-based Trajectory Shuffle**, с другой стороны, предназначен для динамического перемешивания траекторий в пакете на основе их преимуществ. Этот метод позволяет увеличить вероятность того, что ценные траектории будут включены в пакет и будут иметь больший вес в процессе обучения. Это помогает предотвратить **Rollout Silencing**, поскольку ценные траектории не будут утрачены из-за недостаточного представления в пакете. Общая архитектура **Shuffle-R1** является простой, но эффективной. Она не требует сложных модификаций в существующей архитектуре MLLM и может быть легко интегрирована в существующие RL-пайплайны. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы оценить эффективность **Shuffle-R1**, авторы провели серию экспериментов на различных реальных данных и задачах разумения (reasoning benchmarks). Эти эксперименты включали задачи, требующие сложного вывода и обработки мультимодальных данных. Результаты показали, что **Shuffle-R1** значительно превосходит существующие RL-базовые модели в терминах эффективности обучения и качества получаемых результатов. Фреймворк успешно справился с проблемами **Advantage Collapsing** и **Rollout Silencing**, что привело к более эффективным обновлениям градиентов и быстрому схождению модели. Кроме того, **Shuffle-R1** показал значительное улучшение в терминах качества вывода и точности решений на различных задачах. Эти результаты подтверждают, что динамическое изменение структуры траекторий и пакетов данных может значительно повысить эффективность RL-обучения MLLM. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Преимущества **Shuffle-R1** лежат в его способности улучшить эффективность RL-обучения MLLM без необходимости существенных изменений в их архитектуре. Это делает его применимым к широкому кругу задач, где требуется высокое качество логического вывода и обработки мультимодальных данных. Фреймворк может быть применен в таких областях, как **компьютервизионные системы**, **робототехника**, и **поддержка принятия решений**, где MLLM используются для обработки сложных задач. Кроме того, он может быть полезен в областях, где эффективное обучение играет ключевую роль, таких как **медицинские диагностические системы** и **финансовые прогнозы**. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк **Shuffle-R1**, который решает ключевые проблемы в RL-обучении MLLM, такие как **Advantage Collapsing** и **Rollout Silencing**. Эксперименты показали, что этот подход может значительно улучшить эффективность обучения и качество результатов. В будущем, дальнейшие исследования могут фокусироваться на дальнейшем улучшении эффективности RL-обучения для MLLM, включая исследование новых методов динамического изменения траекторий и пакетов данных. Кроме того, можно рассмотреть возможность применения **Shuffle-R1** к другим типам моделей и задач, чтобы оценить его универсальность.
Annotation:
Reinforcement learning (RL) has emerged as an effective post-training paradigm for enhancing the reasoning capabilities of multimodal large language model (MLLM). However, current RL pipelines often suffer from training inefficiencies caused by two underexplored issues: Advantage Collapsing, where most advantages in a batch concentrate near zero, and Rollout Silencing, where the proportion of rollouts contributing non-zero gradients diminishes over time. These issues lead to suboptimal gradient ...
ID: 2508.05612v1 cs.LG, cs.AI
Авторы:

Zhikai Zhao, Chuanbo Hua, Federico Berto, Kanghoon Lee, Zihan Ma, Jiachen Li, Jinkyoo Park

## КОНТЕКСТ И ПРОБЛЕМАТИКА Прогнозирование траекторий движения объектов является фундаментальной задачей в области моделирования поведения человека, имеющей критическое значение для безопасности в таких приложениях, как социальная робототехника и навигация автономных транспортных средств. Современные подходы к решению этой задачи можно условно разделить на два класса: традиционные эвристические методы, основанные на заранее заданных правилах, и современные методы глубокого обучения. Первая категория методов, несмотря на свою вычислительную эффективность и интерпретируемость, страдает от низкой точности и плохой обобщающей способности. Эвристики, созданные экспертами, часто не способны адекватно описать сложные социальные взаимодействия и динамические сценарии, возникающие в реальных условиях. Например, заранее заданные правила движения в толпе могут не учитывать неожиданные изменения в поведении пешеходов или нестандартные ситуации на дороге. Вторая категория, методы глубокого обучения, демонстрируют значительно более высокую точность предсказаний, но имеют ряд критических недостатков. Во-первых, они требуют значительных вычислительных ресурсов, что ограничивает их применение в реальных системах, особенно на борту автономных роботов. Во-вторых, "черные ящики" нейронных сетей обеспечивают минимальную интерпретируемость результатов, что критично для безопасных систем. В-третьих, и самое важное, методы глубокого обучения демонстрируют плохую обобщающую способность на выборках, отличающихся от обучающих (out-of-distribution, OOD), что делает их непригодными для работы в нестандартных или аварийных ситуациях. Существующий разрыв между эффективностью традиционных методов и качеством методов глубокого обучения создает необходимость в новых подходах, которые бы сочетали вычислительную эффективность и интерпретируемость эвристик с обобщающей способностью современных методов. Это и является основной мотивацией для разработки представленного в статье фреймворка TrajEvo, который использует большие языковые модели для автоматического создания эвристик прогнозирования траекторий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Фреймворк TrajEvo представляет собой инновационный подход к автоматизированному созданию эвристик для прогнозирования траекторий, который использует сочетание эволюционных алгоритмов и больших языковых моделей. Основная идея заключается в том, чтобы использовать морфологические и семантические возможности LLM для генерации и последующего улучшения эвристик на основе исторических данных о траекториях. Архитектура системы состоит из нескольких ключевых компонентов. Первым является генератор эвристик на основе LLM, который создает начальные эвристики в виде читаемых правил на естественном языке. Эти эвристики затем преобразуются в исполняемый код и оцениваются на наборе траекторий. Вторым важным компонентом является эволюционный алгоритм, который управляет процессом оптимизации эвристик через поколения. В рамках эволюционного процесса предложены две ключевые инновации. Первая - это Cross-Generation Elite Sampling (CGES), механизм отбора элитных решений, который обеспечивает сохранение диверсификации популяции между поколениями. В отличие от традиционных методов, которые могут терять разнообразие решений, CGES специально сохраняет не только лучшие, но и разнообразные эвристики из предыдущих поколений, что помогает избежать преждевременной сходимости и улучшает качество окончательных решений. Вторая инновация - Statistics Feedback Loop (SFL) - представляет собой механизм обратной связи, который позволяет LLM анализировать статистику работы альтернативных предсказаний. SFL собирает статистические метрики о производительности различных эвристик и предоставляет LLM краткие, но информативные отчеты. Это позволяет LLM делать обоснованные выводы о том, какие аспекты эвристик работают хорошо, а какие требуют улучшения, и соответственно модифицировать следующее поколение эвристик. Процесс оптимизации работает следующим образом: LLM генерирует начальную популяцию эвристик, каждая из которых представляет собой набор правил для прогнозирования траекторий. Затем эти эвристики оцениваются на исторических данных, после чего лучшие решения отбираются для создания следующего поколения с помощью CGES. Результаты
Annotation:
Trajectory prediction is a critical task in modeling human behavior, especially in safety-critical domains such as social robotics and autonomous vehicle navigation. Traditional heuristics based on handcrafted rules often lack accuracy and generalizability. Although deep learning approaches offer improved performance, they typically suffer from high computational cost, limited explainability, and, importantly, poor generalization to out-of-distribution (OOD) scenarios. In this paper, we introduc...
ID: 2508.05616v1 cs.LG, cs.AI, cs.NE, cs.RO
Показано 2881 - 2890 из 2901 записей