📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Towards Efficient Prompt-based Continual Learning in Distributed Medical AI

2025-08-19

Авторы:

Gyutae Oh, Jitae Shin

## Контекст Модернизация искусственного интеллекта (AI) позволила достичь совершенства во многих областях, но в медицинской сфере существуют серьезные ограничения. Эти ограничения, включая этические, социальные и институцыонные, сильно ограничивают возможности обмена данными. Таким образом, централизованное обучение AI становится невыполнимым, и каждая медицинская организация должна инкапсулированно обновлять свои модели, опираясь только на свои локальные данные. Такой подход часто приводит к переобучению и "катастрофическому забвению" — утрате предыдущих знаний при обучении на новых данных. Дополнительно, данные в медицинских задачах часто изменяются в зависимости от оборудования и демографических факторов. Хотя технология непрерывного обучения (CL) делает модели более устойчивыми к подобным изменениям, она была основной для задач работы с натуральными изображениями. Поэтому, есть необходимость в подходах, ориентированных на характеристики медицинских приложений. ## Метод Мы предлагаем Prompt-based Continual Learning (PCL), построенный на идее стимулирующих выданных задач, где мы создаем и храним эффективное пульпу стимулов. Базовый принцип PCL заключается в том, чтобы расширять и замораживать детерминированную подгруппу стимулов, что позволяет уменьшить вычислительные затраты. В PCL также внедрено новое регуляризационное условие, которое сбалансировано между сохранением знаний и адаптацией к новым сценариям. Этот подход упрощает модель и увеличивает эффективность, что делает PCL более пригодным для распределенных систем медицинского AI. ## Результаты Мы проверили нашу модель на трех наборах данных для диагностики диабетической ретинопатии: Aptos2019, LI2019 и Diabetic Retinopathy Detection. Модель PCL показала улучшение классификационной точности в 10% и F1-метрики на 9 баллов по сравнению с современными методами. Более того, наше решение позволяет снизить на 20% затраты на вычисления во время инференса. Эти результаты подтверждают эффективность PCL в решении проблем с нехваткой данных и постоянным изменением медицинских данных. ## Значимость Наш подход имеет широкие области применения в медицинской AI, включая реали-тайное диагностирование, мониторинг пациентов и телемедицинские приложения. Он позволяет медицинским организациям повысить точность диагноза, сократить время отклика и улучшить работу с малозаполненными данными. Это может привести к более эффективному распределению ресурсов в здравоохранении и новым возможностям в распределенной медицине. ## Выводы Мы представили новый подход к непрерывному

Annotation:

Modern AI models achieve state-of-the-art performance with large-scale, high-quality datasets; however, ethical, social, and institutional constraints in the medical domain severely restrict data sharing, rendering centralized learning nearly impossible. Each institution must incrementally update models using only local data. Traditional training overfits new samples and suffers from catastrophic forgetting, losing previously acquired knowledge. Medical data distributions also shift due to varyi...

ID: 2508.10954v1 cs.LG, cs.AI

arXiv PDF

📄 Retro-Expert: Collaborative Reasoning for Interpretable Retrosynthesis

2025-08-19

Авторы:

Xinyi Li, Sai Wang, Yutian Lin, Yu Wu, Yi Yang

## Контекст На сегодняшний день, проблемы в области вывода взаимодействий в химической синтезировании (retrosynthesis) остаются значительными. Несмотря на успех моделей глубокого обучения в решении этой задачи, они часто ограничиваются простыми паттернами и не включают в свою работу более глубокие логические выводы. Это приводит к черному ящику, в котором результаты могут быть непонятны для химических специалистов. В этой работе, мы рассматриваем проблему непрозрачности моделей в области вывода взаимодействий, а также острый недостаток их интерактивности и интерпретируемости, что негативно сказывается на их практической ценности в реальном мире. ## Метод Мы предлагаем Retro-Expert — рамформу, которая основывается на взаимодействии между широкомасштабными языковыми моделями (LLM) и специализированными моделями. Модель Retro-Expert использует LLM для критического логического ретроспективного вывода, в то же время оптимизируя решение с помощью методов машинного обучения с подкреплением. Мы также вводим три ключевых компонента: (1) специализированные модели, которые выполняют глубокое логическое вывод в химической синтезировании, (2) LLM-оптимизированные логические модели, которые строят интерпретируемые пути решений, и (3) методы взаимодействия между этими моделями, обеспечивающие более глубокую интеграцию и эффективность решения. ## Результаты Мы проводили эксперименты с разными датасетами, включающими в себя широкий спектр химических реакций. Наши результаты показывают, что Retro-Expert превосходит другие модели, основанные только на LLM или на специализированных моделях. Мы использовали метрики, оценивающие точность, быстродействие и интерпретируемость решений. Результаты демонстрируют, что Retro-Expert не только предлагает точные решения, но и предоставляет понятные для химических специалистов логические объяснения, которые могут быть легко интегрированы в рабочие процессы химического образования и исследований. ## Значимость Мы считаем, что Retro-Expert может быть применен в различных областях, включая химическое образование, высокотехнологичные индустрии и широкий спектр химических исследований. Основное преимущество Retro-Expert заключается в его интерпретируемости и способности предоставлять интерактивные объяснения, что позволяет специалистам быстрее понимать и использовать результаты модели. Мы также показываем, что эта модель может стать ключевым инструментом для улучшения точности и эффективности химических исследований и разработок. ## Выводы Мы представили Retro-Expert — модель, которая предлагает интерпрет

Annotation:

Retrosynthesis prediction aims to infer the reactant molecule based on a given product molecule, which is a fundamental task in chemical synthesis. However, existing models rely on static pattern-matching paradigm, which limits their ability to perform effective logic decision-making, leading to black-box decision-making. Building on this, we propose Retro-Expert, an interpretable retrosynthesis framework that performs collaborative reasoning by combining the complementary reasoning strengths of...

ID: 2508.10967v1 cs.LG, cs.AI

arXiv PDF

📄 BRIEF: BRain-Inspired network connection search with Extensive temporal feature Fusion enhances disease classification

2025-08-19

Авторы:

Xiangxiang Cui, Min Zhao, Dongmei Zhi, Shile Qi, Vince D Calhoun, Jing Sui

#### Контекст Функциональная резонансная магнитная рисунка (fMRI) широко используется для классификации различных психиатрических заболеваний, таких как шизофрения (SZ) и аутизм (ASD). Однако существующие модели сверточных нейронных сетей (CNN) испытывают проблемы в оптимизации сетевой архитектуры и эффективной функции объединения признаков. Эти ограничения приводят к неудовлетворительному классификационному результату. Вдохновленной механизмом человеческого мозга, обновляющего нейронов в процессе обучения и принятия решений, предлагается новая модель, которая способна автоматически оптимизировать структуру сети с помощью бейзлайн-решения и многослойного модуля передачи признаков по времени. #### Метод Модель BRIEF (BRain-Inspired feature Fusion) оптимизирует структуру сети с использованием усовершенствованного Q-learning и Markov Decision Process (MDP), чтобы динамически оптимизировать сеть под конкретные данные. Модель включает четыре кодировщика, которые извлекают различные типы представлений временных рядов: статические (FNC), динамические (dFNC), дисперсионный энтропийный индекс (MsDE) и потоковая информация. Для объединения этих функций использовалась модель передачи признаков с использованием Transformer, которая включает в себя стабильные и временно изменяющиеся связи, а также многомерные зависимости в разных областях мозга. Для улучшения интерпретируемости включен модуль внимательности. #### Результаты Модель BRIEF обеспечила значительные улучшения в классификации SZ и ASD по сравнению с 21 современными моделями. Для SZ достигла AUC от 91.5% до 0.6%, а для ASD от 78.4% до 0.5%. Эти результаты превышают все существующие решения, особенно в сложной области классификации динамических признаков. Это первое использование решений, основанных на имитации биологических процессов мозга, для оптимизации сети и классификации с fMRI. #### Значимость BRIEF может применяться в различных медицинских областях, включая классификацию различных психиатрических заболеваний. Она обеспечивает более точные показатели классификации, чем существующие модели. Кроме того, модель может применяться для исследования биологических признаков в связи с развитием характеристик заболеваний, что может облегчить развитие новых терапий. #### Выводы Наша модель BRIEF демонстрирует значительные улучшения в классификации психиатрических заболеваний, основываясь на моделировании биологического процесса обучения и решения. Будущие исследования будут направляться на улучшение гибкости модели, увеличение размера выборок и расширение применений к другим типам данных.

Annotation:

Existing deep learning models for functional MRI-based classification have limitations in network architecture determination (relying on experience) and feature space fusion (mostly simple concatenation, lacking mutual learning). Inspired by the human brain's mechanism of updating neural connections through learning and decision-making, we proposed a novel BRain-Inspired feature Fusion (BRIEF) framework, which is able to optimize network architecture automatically by incorporating an improved ne...

ID: 2508.11732v1 cs.LG, cs.AI

arXiv PDF

📄 Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes

2025-08-19

Авторы:

Michael Bereket, Jure Leskovec

## Контекст В последние годы reinforcement learning (RL) продемонстрировал свою эффективность в улучшении точности языковых моделей в задачах, где результаты определены детерминированно, например, в математике. Однако возникает вопрос о том, насколько эффективны эти методы при работе с задачами, где результаты имеют стохастический характер, таких как научные эксперименты. Большая часть текущей RL-литературы ориентирована на детерминированные задачи, но менее исследована задача улучшения моделей стохастических результатов. Одной из причин этого является сложность моделирования и оценки моделей в таких средах. Без понимания как работают эти модели в стохастических условиях, невозможно выявить и устранить их недостатки. В настоящей работе мы исследуем, насколько RL-методы эффективны в улучшении моделей для задач, где результаты определяются стохастическими факторами. Мы применяем свои методы к синтетическим данным и реальным научным экспериментам, чтобы протестировать их эффективность. Наши результаты демонстрируют, что многие текущие RL-методы неэффективны в оптимизации моделей для таких задач. Это может привести к ошибкам в прогнозировании и принятии решений в области научных исследований. ## Метод Мы использовали три основных RL-метода для сравнения: Group Relative Policy Optimization (GRPO), Proximal Policy Optimization (PPO) и REINFORCE Leave-One-Out (RLOO). Были проведены эксперименты на синтетических данных, которые эмулируют бинарные стохастические результаты, а также на данных реальных научных экспериментов, связанных с биологическими системами. GRPO — это метод, использующий групповую нормализацию для оптимизации политик. PPO — метод, основанный на пробиндированной репродукции, который ограничивает изменение политики между эпохами. RLOO — метод, который оставляет один элемент для тестирования и использует остальные для обучения. Обучение моделей проводилось с использованием оптимизатора Adam, с гиперпараметрами, выбранными на основе тюнинга. Мы оценивали калибровочную точность моделей с помощью метрик, таких как Expected Calibration Error (ECE) и Classwise Calibration Error (CCE). ## Результаты Мы обнаружили, что GRPO стабильно вызывает переоценку достоверности (overconfidence) в прогнозах для бинарных стохастических результатов. На синтетических данных, где был искусственно создан стохастический результат, GRPO показал высокую достоверность в прогнозах, но с малой точностью. В то же время, PPO и RLOO демонстрировали более низкую достоверность, но более точные прогнозы. Эксперименты на реальных научных данных показали, что GRPO проигрывает PPO и RLOO в области калибровки прогнозов. Например, при оценивании вероятности появл

Annotation:

Reinforcement learning (RL) has proven remarkably effective at improving the accuracy of language models in verifiable and deterministic domains like mathematics. Here, we examine if current RL methods are also effective at optimizing language models in verifiable domains with stochastic outcomes, like scientific experiments. Through applications to synthetic data and real-world biological experiments, we demonstrate that Group Relative Policy Optimization (GRPO) induces overconfident probabilit...

ID: 2508.11800v1 cs.LG, cs.AI

arXiv PDF

📄 FairTabGen: Unifying Counterfactual and Causal Fairness in Synthetic Tabular Data Generation

2025-08-19

Авторы:

Nitish Nagesh, Salar Shakibhamedan, Mahdi Bagheri, Ziyu Wang, Nima TaheriNejad, Axel Jantsch, Amir M. Rahmani

## Контекст Синтезирование синтетических данных представляет собой ключевую задачу в области обработки персональных данных, особенно в случае редких или конфиденциальных данных, таких как табличные данные, которые широко используются в реальных приложениях. Однако существуют значительные вызовы, связанные с созданием табличных данных, которые не только обладают высокой практической полезностью, но и удовлетворяют критериям справедливости, в частности, касательно противоположности и каузальной справедливости. На данный момент существуют методы, которые адресуют эти проблемы, однако они либо ограничены в своих возможностях, либо не удается добиться равновесия между пользовательской полезностью и справедливостью. Было сформулировано намерение разработать новую модель, которая бы увеличила эффективность подходов к справедливости в синтетическом синтезе табличных данных, оптимизировав все при этом их качество и полезность. ## Метод Мы предлагаем FairTabGen, фреймворк построения синтетических табличных данных, основанный на большой модели языка, с функционалом поддержки различных форм справедливости, в том числе противоположности и каузальной. Для достижения баланса между полезностью и справедливостью мы внедрили методы, такие как встроенное обучение с использованием контекста, пришли к совершенствованию способа оценки результатов, а также предложили специальные методы курирования данных. Основные элементы фреймворка включают: - **Встроенное обучение с использованием контекста**: Мы используем модель с большим объемом данных, которая учитывает широкий спектр сценариев, позволяя получить подробные и применимые результаты. - **Процесс рефинемента**: Нам удалось добиться более точного определения запросов, что улучшило качество сгенерированных данных. - **Специальные методы курирования данных**: Мы вносим критерии справедливости в процесс выбора и обработки данных, чтобы обеспечить эффективность и поддержание справедливости. ## Результаты Мы проверили FairTabGen на широком спектре реальных табличных данных, сравнив его с альтернативными методами, включая методы, основанные на генеративных адверских сетях (GAN) и больших моделях языка (LLM). Наши эксперименты показали, что FairTabGen превосходит имеющиеся решения в следующих аспектах: - **Справедливость**: Мы достигли значительных улучшений в таких критериях, как демографическая равновесия и противоположность, с повышением до 10%. - **Полезность**: Наши данные сохраняют высокий уровень статистической ценности, которая необходима для реальных приложений. - **Эффективность**: FairTabGen показал вы

Annotation:

Generating synthetic data is crucial in privacy-sensitive, data-scarce settings, especially for tabular datasets widely used in real-world applications. A key challenge is improving counterfactual and causal fairness, while preserving high utility. We present FairTabGen, a fairness-aware large language model-based framework for tabular synthetic data generation. We integrate multiple fairness definitions including counterfactual and causal fairness into both its generation and evaluation pipelin...

ID: 2508.11810v1 cs.LG, cs.AI

arXiv PDF

📄 ENA: Efficient N-dimensional Attention

2025-08-19

Авторы:

Yibo Zhong

#### Контекст Современные модели глубокого обучения сталкиваются с вызовами при работе с данными высокого порядка (например, 1D-ND), такими как видео, звук или сложные структуры данных. Традиционные трансформеры, хотя очень эффективны для линейных последовательностей, неэффективны при работе с высокопорядковыми данными из-за высокой стоимости вычислений и памяти. Это приводит к необходимости разработки более эффективных архитектур, которые могут эффективно обрабатывать высокопорядковые данные. Этот рабочей группой предлагается ENA (Efficient N-dimensional Attention) — архитектура, которая комбинирует линейную рекуррентную сеть с высокопорядковым скольжением окнами (SWA) для моделирования высокопорядковых данных. Целью работы является изучение и эффективное решение проблем моделирования высокопорядковых последовательностей, которые требуют высокой производительности и малого потребления ресурсов. #### Метод Работа основывается на двух ключевых элементах: **сканировании** и **аттенции-гибридных моделях**. Сканирование — это подход, который использует линейные модели для последовательного сканирования данных по осям. Однако, как показано в теории и практике, этот подход оказался ограниченным в своих возможностях. Вместо этого, работа рассматривает аттенцион-гибридные модели, в которых линейная рекуррентная сеть комбинируется с модифицированной аттенцией для моделирования высокопорядковых данных. Особое внимание уделено **типам аттенции**, в том числе **tiled high-order sliding window attention (SWA)**, которая представляет собой модификацию скольжения окнами для высокопорядковых данных. Архитектура ENA представляет собой синергетическую комбинацию этих двух компонентов, которая обеспечивает эффективность в теории и в практике. #### Результаты Для оценки эффективности ENA проведены несколько экспериментов на различных наборах данных 1D-ND. Использовались различные модели для сравнения, включая трансформеры и другие аттенцион-гибридные модели. Результаты показали, что ENA превосходит трансформеры и другие архитектуры по точности и эффективности вычислений. Ключевым результатом является то, что **tiled high-order sliding window attention (SWA)** оказалась очень эффективной как в теории, так и в практике. Эта модель демонстрирует превосходную скорость обучения и работы на высокопорядковых последовательностях, что делает её привлекательной для задач, требующих моделирования длинных последовательностей. #### Значимость ENA предлагает расширение линейных рекуррентных моделей за счёт сочетания линейного взвешивания и высокопорядкового скольжения окнами. Эта модель может быть применена в различных областях, таких как

Annotation:

Efficient modeling of long sequences of high-order data requires a more efficient architecture than Transformer. In this paper, we investigate two key aspects of extending linear recurrent models, especially those originally designed for language modeling, to high-order data (1D to ND): scanning strategies and attention-hybrid architectures. Empirical results suggest that scanning provides limited benefits, while attention-hybrid models yield promising results. Focusing on the latter, we further...

ID: 2508.11921v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Extending Straight-Through Estimation for Robust Neural Networks on Analog CIM Hardware

2025-08-19

Авторы:

Yuannuo Feng, Wenyong Zhou, Yuexi Lyu, Yixiang Zhang, Zhengwu Liu, Ngai Wong, Wang Kang

## Контекст Аналоговые Compute-In-Memory (CIM) архитектуры предлагают значительные энергоэффективностные выигрыши для нейронных сетей, однако сталкиваются с трудностями внедрения из-за характерных аппаратных шумов. Интерес к этим архитектурам возникает из-за потребности в энергосберегающих решениях для нейронных сетей, особенно в приложениях с ограниченными ресурсами. Однако существующие методы тренировки, предназначенные для устранения влияния шума, часто основываются на идеализированных моделях шума, которые недостаточно точно отражают реальные аппаратные особенности. Наша работа нацелена на развитие более точных методов тренировки, учитывающих реальные черты аппаратного шума в CIM. ## Метод Мы расширяем Straight-Through Estimator (STE) фреймворк для внедрения более точной модели шума в процессе обучения. Наша методология разделяет форвардную симуляцию шума от обратного вычисления градиентов. Это позволяет использовать более точные, но теоретически неразрывные модели шума в аналоговых CIM-системах. Мы обосновываем наш подход теоретически, демонстрируя, что он сохраняет ключевую информацию о направлениях градиентов, обеспечивая стабильность оптимизации и эффективность вычислений. ## Результаты Мы проводили эксперименты на задачах классификации изображений и текстового генератора. Наши результаты показали до 5.3% улучшения точности в классификации изображений, сокращения perplexity на 0.72 в текстовом генераторе, ускорения обучения в 2.2 раза и сокращения пикового использования памяти на 37.9% по сравнению с существующими методами. Эти результаты доказывают эффективность нашего подхода в улучшении качества и производительности обучения на аналоговых CIM-системах. ## Значимость Наша работа может быть применима в разработке энергоэффективных нейронных сетей для приложений с ограниченными ресурсами, таких как IoT-устройства и мобильные платформы. Она предлагает преимущества в точности и производительности, значительно сокращая влияние шума и улучшая эффективность вычислений. Эти достижения открывают новые пути для развития CIM-технологий и их применения в реальных мировых задачах. ## Выводы Мы разработали расширенный STE-подход, который эффективно работает с шумом в аналоговых CIM-системах, улучшая качество и производительность обучения. Будущие исследования будут направлены на расширение этого подхода к другим типам нейронных сетей и аппаратных платформам, а также на улучшение способности моделей устойчивости к аппаратным характеристикам.

Annotation:

Analog Compute-In-Memory (CIM) architectures promise significant energy efficiency gains for neural network inference, but suffer from complex hardware-induced noise that poses major challenges for deployment. While noise-aware training methods have been proposed to address this issue, they typically rely on idealized and differentiable noise models that fail to capture the full complexity of analog CIM hardware variations. Motivated by the Straight-Through Estimator (STE) framework in quantizat...

ID: 2508.11940v1 cs.LG, cs.AI, cs.AR

arXiv PDF

📄 Efficient Modular Learning through Naive LoRA Summation: Leveraging Orthogonality in High-Dimensional Models

2025-08-19

Авторы:

Zhanhao Cao, Clement Truong, Andrew Lizarraga

#### ## Контекст В последние годы высшие значения в области языковых моделей достигаются благодаря масштабированию моделей, но это часто требует огромных вычислительных ресурсов. Для решения этой проблемы появились методы параметрного эффективного оптимизации (Parameter-Efficient Fine-Tuning, PEFT), которые позволяют обновлять только малую часть параметров модели. Один из таких подходов — Low-Rank Adaptation (LoRA), который хранит изменения параметров в виде произведения двух малых матриц. Это делает LoRA подходящим для составления независимых модулей. Однако, несмотря на эффективность, существуют проблемы с переобучением и конфликтом между модулями при их композиции. Эти проблемы опережают потенциал LoRA в создании более мощных и гибких языковых моделей. Наша мотивация заключается в исследовании возможности составления LoRA-модулей для эффективного многозадачного обучения без необходимости дополнительной обучения. #### ## Метод Мы предлагаем подход, основанный на ортогональности между LoRA-модулями, обученными на различных задачах. Основная идея заключается в том, что если модули тренируются на разных датасетах, то их вклад в модель должен быть добавочным и не мешать друг другу. Для тестирования эффективности этого подхода мы использовали модель GPT-2 Small с рангом LoRA=4 и альфа=64, обучив модули для трех различных доменов: математики, медицины и финансов. Далее, мы проводили парные эксперименты, добавляя модули по одному и измеряя их влияние на качество модели. Для оценки результатов мы использовали метрику perplexity. Для проверки гипотезы об ортогональности LoRA-модулей мы анализировали косинусную схожесть их вкладов. #### ## Результаты Исследования показали, что добавление модулей для различных доменов может существенно улучшить качество модели. Например, объединение модулей для математики и медицины привело к уменьшению perplexity на 9.1%, что является одной из лучших результатов среди всех парных комбинаций. Однако, при добавлении модулей для математики и финансов, а также для финансов и медицины, результаты были более смешанными, с положительным и отрицательным изменением. Для понимания источника этих изменений мы проанализировали косинусную схожесть LoRA-модулей. Мы обнаружили, что чем выше положительная корреляция косинусной схожести, тем меньше вероятность конфликта между модулями. #### ## Значимость Наш подход демонстрирует возможность эффективного многозадачного обучения без необходимости дополнительной обучения. Он может быть применен в различных сценариях машинного обучения, где требуется быстрое и эффективное обновление моделей. Этот подход также может быть использован для соз

Annotation:

Recent advances in large language models are driven by scale, while parameter-efficient fine-tuning (PEFT) enables updating only a small fraction of parameters. Low-Rank Adaptation (LoRA) stores parameter deltas as the product of two small matrices, which makes them natural building blocks that can be composed. Motivated by the superposition principle, we hypothesize that independently trained LoRA modules on disjoint domains are approximately orthogonal and can be combined by simple addition. U...

ID: 2508.11985v1 cs.LG, cs.AI

arXiv PDF

📄 Generative Medical Event Models Improve with Scale

2025-08-19

Авторы:

Shane Waxler, Paul Blazek, Davis White, Daniel Sneider, Kevin Chung, Mani Nagarathnam, Patrick Williams, Hank Voeller, Karen Wong, Matthew Swanhorst, Sheng Zhang, Naoto Usuyama, Cliff Wong, Tristan Naumann, Hoifung Poon, Andrew Loza, Daniella Meeker, Seth Hain, Rahul Shah

Описание: ## Контекст Реализация персонализированной медицины на масштабах требует методов, которые могут извлечь сводки из длительных пациентских историй, представленных в виде последовательностей медицинских событий. Особенно обнадеживают в этом плане модели основательного типа, обученные на больших медицинских базах. Методы такого рода могут способствовать эффективному выявлению закономерностей в медицинских данных и их применению для решения разных задач в сфере клинического управления и повышения качества здравоохранения. ## Метод Мы представляем Cosmos Medical Event Transformer (CoMET) - новую семейство декодерных моделей преобразователей, обученных на огромных масштабах с помощью данных о медицинских событиях. Используя Epic Cosmos, который включает в себя медицинские истории более 300 миллионов пациентов в 310 здравоохранных системах, мы обучили модель CoMET на базе 118 миллионов пациентов, отражающих 115 миллионов медицинских событий (151 миллиардов токенов). Кроме того, мы провели наиболее широкий компьютерный эксперимент для моделей медицинских событий, выявляя силуэтные зависимости между размером модели, количеством вычислений и объемом обучающих данных. Модели CoMET были подготовлены с помощью различных мощностей (до 1 миллиарда параметров), чтобы оптимизировать вычисления для различных задач. ## Результаты Мы экспериментально проверили CoMET на 78 реальных задачах, таких как предсказание диагноза, прогноз болезни и оптимизация здравоохранения. Модель показала выдающиеся результаты, наблюдая закономерности повышения качества с ростом размера модели и объема обучающих данных. Особенно заметно был ее превосходство над задачеориентированными моделями, которые требуют задачи-специфической настройки, а также над такими методами, как парусь или шаотренировки. В целом, CoMET также показала свои преимущества в ситуациях необходимости быстрого решения задач, работая без дополнительных данных или примеров. ## Значимость Модель CoMET может быть применена во многих сферах, включая клиническое принятие решений, оптимизацию линий здравоохранения и повышение пользовательских опытов. Один из основных преимуществ CoMET заключается в том, что она может быть использована для повышения качества работы системы здравоохранения, без необходимости сложных настроек модели. Это может привести к более быстрому развитию разработок в сфере здравоохранения и снижению количества ошибок. ## Выводы Мы доказали, что модель CoMET, основанная на авторегрессии, может эффективно предсказывать следующие медицинские события, помогая улучши

Annotation:

Realizing personalized medicine at scale calls for methods that distill insights from longitudinal patient journeys, which can be viewed as a sequence of medical events. Foundation models pretrained on large-scale medical event data represent a promising direction for scaling real-world evidence generation and generalizing to diverse downstream tasks. Using Epic Cosmos, a dataset with medical events from de-identified longitudinal health records for 16.3 billion encounters over 300 million uniqu...

ID: 2508.12104v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 DynamixSFT: Dynamic Mixture Optimization of Instruction Tuning Collections

2025-08-19

Авторы:

Haebin Shin, Lei Ji, Xiao Liu, Zhiwei Yu, Qi Chen, Yeyun Gong

## Контекст В посттренировочном этапе модели естественного языка (NLP) становится важной задачей управления и оптимизацией смеси инструкций, используемых для оптимизации моделей с помощью многозначных данных. Эта задача возникает из-за того, что всё больше инструкционных данных появляется в ходе тренировки моделей. Эти данные могут быть несовместимыми, несогласованными, или потреблять различные ресурсы, что приводит к вызовам в эффективности процесса обучения. В этой статье, мы проводим исследование вопроса оптимального управления и выбора смеси инструкционных данных в ходе обучения моделей, чтобы улучшить их качество и эффективность. ## Метод Мы представляем DynamixSFT, динамическую и автоматизированную методику оптимизации смеси инструкционных данных. Метод основывается на формулировке задачи как многорукий бандит (multi-armed bandit), что позволяет сбалансированно распределить ресурсы между различными ресурсами. Мы вводим Prior-scaled Boltzmann Exploration, чтобы гарантировать, что новые выборки сохраняют природные пропорции в исходном наборе данных, чтобы сохранить разнообразие и покрытие. Для оценки вклада каждого ресурса в улучшение модели мы используем легковесную модель 1-Step Look-ahead Reward, которая принимает во внимание вклад каждого набора в процесс обучения. ## Результаты Мы проводим эксперименты с DynamixSFT, используя набор данных Tulu-v2-mixture, состоящий из 16 инструкционных наборов. Мы сравниваем результаты с другими методами, такими как uniform sampling и vanilla Boltzmann Exploration. Наши результаты показывают, что DynamixSFT улучшает качество модели на до 2.2% в 10 разных бенчмарковых задачах. Мы также предоставляем анализ и визуализации, подробно описывающие динамику нашего метода и влияние каждого компонента на полученные результаты. ## Значимость Метод DynamixSFT может использоваться в различных областях, где требуется высокая эффективность обучения моделей со сложными инструкциями, например в системах распределенного обучения, в области генеративных моделей и в области оптимизации моделей для конкретных задач. Наш метод демонстрирует преимущества при использовании динамического управления смесью данных, что может привести к повышению качества моделей без значительных изменений архитектуры. Это открывает новые возможности для улучшения процесса обучения в целом. ## Выводы Мы представили DynamixSFT как мощный метод для оптимизации смеси инструкционных данных в процессе обучения моделей. Наши результаты показывают, что данный подход может значительно улучшить качество моделей без значительного увеличения ресурсов. В будущем, мы планируем расширить применение DynamixSFT на другие типы моделей и данных, а также улучшить его адаптацию в ситуациях с б

Annotation:

As numerous instruction-tuning datasets continue to emerge during the post-training stage, dynamically balancing and optimizing their mixtures has become a critical challenge. To address this, we propose DynamixSFT, a dynamic and automated method for instruction-tuning dataset mixture optimization. We formulate the problem as a multi-armed bandit setup and introduce a Prior-scaled Boltzmann Exploration that softly anchors the updated sampling distribution to the original dataset proportions, the...

ID: 2508.12116v1 cs.LG, cs.AI, cs.CL

arXiv PDF

1
2
260
261
262
263
264
290
291

Показано 2611 - 2620 из 2901 записей