📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 AICRN: Attention-Integrated Convolutional Residual Network for Interpretable Electrocardiogram Analysis

2025-08-19

Авторы:

J. M. I. H. Jayakody, A. M. H. H. Alahakoon, C. R. M. Perera, R. M. L. C. Srimal, Roshan Ragel, Vajira Thambawita, Isuru Nawinne

#### Контекст Анализ электрокардиограмм (ECG) является ключевым компонентом диагностики и мониторинга сердечных заболеваний. Традиционные методы анализа, основанные на ручном интерпретировании, часто склонны к ошибкам и требуют значительных усилий от квалифицированных специалистов. Недостатки этих методов привели к развитию автоматизированных систем анализа, которые могут обеспечить более точные и быстрые выводы. Однако существующие алгоритмы часто не хватает транспарентности и точности в регрессии ключевых параметров ECG, таких как PR-, QT-, QRS-интервалы, ритм сердца и амплитуды волн R и T. Эти ограничения могут привести к неточным диагнозам и неэффективному мониторингу. Для улучшения точности и прозрачности анализа ECG была разработана новая модель, называемая Attention-Integrated Convolutional Residual Network (AICRN). #### Метод AICRN является современной архитектурой глубокого обучения, которая интегрирует атенционные механизмы с конволюционными слоями и резидентными сетями. Атенционные меchanisms позволяют модели фокусироваться на важных частях ECG, а конволюционные слои и резидентные сети обеспечивают глубокое понимание и регрессию ключевых параметров. Для решения проблемы выхода градиентов, такой как взрыв или исчезновение градиентов, в модели используется механизм резидентности. Эта архитектура специально оптимизирована для регрессии таких параметров, как PR- и QT-интервалы, QRS-дурация, амплитуды волн R и T. Алгоритмы обучения направлены на максимизацию точности регрессии и обеспечение транспарентности результатов. #### Результаты AICRN была проверена на многочисленных выборках ECG-данных, и ее результаты были сравнены с текущими современными алгоритмами. Модель демонстрирует значительное улучшение точности регрессии ключевых параметров ECG: PR-интервал, QT-интервал, QRS-дурация, амплитуды R и T. На некоторых датасетах AICRN превосходит существующие модели на 10-15% в точности регрессии. Кроме того, архитектура проявляет высокую транспарентность в регрессионном процессе, что позволяет интерпретировать результаты диагностики более просто и точно. Таким образом, AICRN не только улучшает точность, но и обеспечивает повышенную прозрачность в диагностическом процессе. #### Значимость AICRN может быть применена в различных областях, включая мобильные приложения для мониторинга сердечного ритма, системы удаленного мониторинга, а также в клинических системах для быстрого и точного диагностирования. Ее высокая точность и транспарентность делают ее ценным инст

Annotation:

The paradigm of electrocardiogram (ECG) analysis has evolved into real-time digital analysis, facilitated by artificial intelligence (AI) and machine learning (ML), which has improved the diagnostic precision and predictive capacity of cardiac diseases. This work proposes a novel deep learning (DL) architecture called the attention-integrated convolutional residual network (AICRN) to regress key ECG parameters such as the PR interval, the QT interval, the QRS duration, the heart rate, the peak a...

ID: 2508.12162v1 cs.LG, cs.AI

arXiv PDF

📄 ProtTeX-CC: Activating In-Context Learning in Protein LLM via Two-Stage Instruction Compression

2025-08-19

Авторы:

Chuanliu Fan, Zicheng Ma, Jun Gao, Nan Yu, Jun Zhang, Ziqiang Cao, Yi Qin Gao, Guohong Fu

#### Контекст Протеиновые большие языковые модели (LLM), такие как ProtTeX, представляют собой мощные инструменты для анализа и моделирования протеинов. Они объединяют в себе различные свойства протеинов, такие как последовательности аминокислот и структурные особенности, в единую модель. Однако существуют две основные проблемы. Во-первых, применение сочетания последовательностей и структурных данных приводит к удвоению длины запроса и нарушению сохранения характеристик в уровне резидентов. Во-вторых, ограничение контекстного окна и ограничение корпуса обучения затрудняют использование ProtTeX в ситуациях нескольких образцов (few-shot learning). Данные ограничения существенно ограничивают их широкое применение в практических задачах. #### Метод Для улучшения ProtTeX-CC был разработан двухэтапный подход: 1. **Joint Embedding Compression** — разработана механика, которая объединяет последовательность и структурные свойства в одной последовательности на уровне резидентов. Это позволило значительно сократить длину входных данных (до половины), оставив полноценную информацию. 2. **Self-Compression Module** — второй этап сжимает длину демонстраций (демонстрационных примеров), сводит их к краткому виду, основываясь на последних токенах, полученных из полного контекста. Это позволило сократить длину демонстраций от 751 до менее 16 токенов. Эти модификации добавили в ProtTeX-CC лишь небольшое число дополнительных параметров, не затрагивая основную структуру модели. #### Результаты Конкретные эксперименты проводились на задачех функционального прогноза протеинов. Использовались две области данных: in-domain (сходная с обучающим корпусом) и out-of-domain (различная с обучающим корпусом). Основные результаты: - **In-domain benchmark**: увеличение точности на 2%. - **Out-of-domain dataset**: повышение производительности на 11%. - **Compression Ratio**: в 16-shot сценарии сократилось приблизительно на 93.68%, что демонстрирует эффективность сжимающего подхода. #### Значимость Предложенный подход имеет большое практическое значение в нескольких областях: 1. **Медицина и биология**: повышение точности прогноза функций протеинов, что может привести к разработке новых лекарств и биотехнологий. 2. **Искусственный Интеллект**: улучшение универсальности и обучаемости моделей без значительных изменений архитектуры. 3. **Задачи классификации и генерирования**: модель ProtTeX-CC может применяться в широком спектре задач с небольшим числом обучающих примеров. #### Выводы ProtTeX-CC значительно улучшает возможности ProtTeX в ситуациях нескольких образцов, сжимая запросы без потери производительности и улучшая общую гибкость. Буду

Annotation:

Recent advances in protein large language models, such as ProtTeX, represent both side-chain amino acids and backbone structure as discrete token sequences of residue length. While this design enables unified modeling of multimodal protein information, it suffers from two major limitations: (1) The concatenation of sequence and structure tokens approximately doubles the protein length and breaks the intrinsic residue-level alignment between modalities. (2) Constrained by the training corpus and ...

ID: 2508.12212v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 Unlearning at Scale: Implementing the Right to be Forgotten in Large Language Models

2025-08-19

Авторы:

Abdullah X

## Контекст Статья основывается на рассмотрении права на забыть (обязательств по GDPR Арт. 17) в отношении больших моделей языка. У самого права на забыть существует сложная многоугольниковая структура, которая включает в себя юридические, этические, технические и логические аспекты. Для реализации этого права в системах машинного обучения, особенно в больших моделях языка, требуется новая архитектура, которая позволит удалять данные, соответствующие запросу, без повреждения системы или ухудшения ее производительности. Данная статья поставляет подробное рассмотрение технических проблем и предлагает новые решения для обеспечения эффективного и жесткого "учтения" информации в моделях языка. ## Метод Техническая методология включает в себя определение логической архитектуры для учтения информации в больших моделях языка. Система работает на основе загрузки и репликации тренировочных процессов, которые позволяют удалять выбранные данные без влияния на остальные части модели. Для этого используется детерминированная структура обучения, включающая запись минимальных записей для каждого микро-батча (семантические идентификаторы, RNG-седы, значения обучения и шаг алгоритма оптимизации). Метод предлагает два типа решений: (i) полный откат новых шагов с помощью микро-чекпоинтов или периодических инкрементных записей, (ii) удаление адаптеров в контексте когорт, если основная модель заморожена. Эти технологии включают специальные механизмы, такие как курватура-направленный анти-обновление, чтобы обеспечить точность и эффективность. ## Результаты Использовались упрощенные тестовые данные для проверки функциональности нового метода. Экспериментальные результаты показали, что модель может удалять выбранные данные без сколов в производительности или других параметрах системы. Бит-идентичность параметров модели и оптимизатора была достигнута в случае, когда методы были применены с предварительными условиями. Дополнительно были отчеты о загрузке и задержке в течение всего процесса обучения. Эти результаты подтверждают, что метод может обеспечить соответствие запросам "удаления" в больших моделях языка без известных побочных эффектов. ## Значимость Важность данной работы заключается в том, что она предоставляет новую модель для обеспечения права на забыть в системах машинного обучения. Она может быть применена в различных областях, включая защиту персональных данных, обеспечение конфиденциальности и юридическое соответствие. Этот подход также может способствовать развитию новых этических стандартов в искусственно

Annotation:

We study the right to be forgotten (GDPR Art. 17) for large language models and frame unlearning as a reproducible systems problem. Our approach treats training as a deterministic program and logs a minimal per-microbatch record (ordered ID hash, RNG seed, learning-rate value, optimizer-step counter, and accumulation boundary). Under a pinned stack and deterministic kernels, replaying the training tail while filtering only the forget closure yields the same parameters as training on the retain s...

ID: 2508.12220v1 cs.LG, cs.AI, cs.CR, I.2.6; I.2.7

arXiv PDF

📄 Distribution Matching via Generalized Consistency Models

2025-08-19

Авторы:

Sagar Shrestha, Rajesh Shrestha, Tri Nguyen, Subash Timilsina

## Контекст Генерирующие аддитивные сети (GANs) стали основным инструментом для ма Mатематические знакитематических символытеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих символовтеческих

Annotation:

Recent advancement in generative models have demonstrated remarkable performance across various data modalities. Beyond their typical use in data synthesis, these models play a crucial role in distribution matching tasks such as latent variable modeling, domain translation, and domain adaptation. Generative Adversarial Networks (GANs) have emerged as the preferred method of distribution matching due to their efficacy in handling high-dimensional data and their flexibility in accommodating variou...

ID: 2508.12222v1 cs.LG, cs.AI

arXiv PDF

📄 STM3: Mixture of Multiscale Mamba for Long-Term Spatio-Temporal Time-Series Prediction

2025-08-19

Авторы:

Haolong Chen, Liang Zhang, Zhengyuan Xin, Guangxu Zhu

#### Контекст В последние годы специалисты наблюдают стремительное развитие области прогнозирования временных рядов, основанного на многослойных сетях (Deep Learning). Несмотря на эти успехи, существуют значительные проблемы в области прогнозирования сложных динамик временных рядов, которые протягиваются на долгосрочные периоды и включают многоуровневую специфику пространственных и временных зависимостей. Такие зависимости трудно обнаружить и эффективно моделировать существующими методами. Это приводит к недостаточной точности прогнозов и невозможности учесть все важные факторы. Таким образом, необходимо развитие новых алгоритмов, которые могут эффективно учитывать эти характеристики. #### Метод Мы предлагаем новую архитектуру, названную **STM2 (Spatio-Temporal Multiscale Mamba)**, которая состоит из двух ключевых компонентов: **Мультимасштабной Мамба** и **Адаптивной Графовой Сети Каузальной Конволюции**. **Мультимасштабная Мамба** эффективно извлекает многоуровневую информацию, используя множество специализированных моделей, чтобы выделить информацию разного масштаба. **Адаптивная Графовая Сеть**, в свою очередь, анализирует сложные зависимости в данных, соединяя взаимосвязанные точки на пространственной сетке. Для улучшения модели STM2, мы предлагаем **STM3 (Spatio-Temporal Mixture of Multiscale Mamba)**, которая включает в себя специальное **Микстое Архитектурное Решение**. Это решение включает в себя более стабильный механизм маршрутизации, а также **Каскадное Спонтанное Обучение**, что помогает модели разделять сложные динамические шаблоны на разных уровнях. #### Результаты Мы проводили эксперименты с использованием реальных данных сети мониторинга качества воздуха и данных датчиков системы мониторинга дорожного движения. STM2 показала значительные улучшения по сравнению с другими методами, в том числе в том, что она предсказывает динамику на более длинных периодах с меньшим количеством ошибок. Для STM3 мы продемонстрировали еще более высокую точность и стабильность. Эти результаты подтверждают эффективность нашего подхода в области долгосрочного прогнозирования сложных временных рядов. #### Значимость Выраженная в модели STM2/STM3 гибкость и эффективность делают ее применимым решением для многих областей, таких как мониторинг климатических изменений, прогнозирование трафика и мониторинг систем энергоэффективности. В отличие от существующих алгоритмов, STM3 может лучше учитывать многоуровневые зависимости и выделять различные динамические шаблоны. Это открывает новые возможности для понимания и

Annotation:

Recently, spatio-temporal time-series prediction has developed rapidly, yet existing deep learning methods struggle with learning complex long-term spatio-temporal dependencies efficiently. The long-term spatio-temporal dependency learning brings two new challenges: 1) The long-term temporal sequence includes multiscale information naturally which is hard to extract efficiently; 2) The multiscale temporal information from different nodes is highly correlated and hard to model. To address these c...

ID: 2508.12247v1 cs.LG, cs.AI

arXiv PDF

📄 Interpreting Time Series Forecasts with LIME and SHAP: A Case Study on the Air Passengers Dataset

2025-08-19

Авторы:

Manish Shukla

## Контекст Временные ряды являются основополагающим аспектом принятия решений в таких областях, как авиация, энергетика, розничная торговля и здравоохранение. Одним из ключевых вопросов в этой области является необходимость обеспечения прозрачности и интерпретируемости прогнозов. Автоматические модели временных рядов, такие как ARIMA, обладают хорошей интерпретируемостью благодаря их коэффициентам, однако структурные условия, на которых они основываются, не всегда могут ловко адаптироваться к нелинейным зависимостям. Машинное обучение, особенно в виде моделей, таких как XGBoost, предлагает высокую точность прогноза, но часто является "чёрным ящиком", в который входит процесс принятия решения. Из-за этого есть необходимость разработки методов, позволяющих объяснить прогнозы временных рядов, используя как модели анализа, так и методы интерпретации. ## Метод Для выполнения этой задачи была применена методология, объединяющая два основных подхода к объяснению прогнозов временных рядов: LIME (Local Interpretable Model-Agnostic Explanations) и SHAP (SHapley Additive exPlanations). В рамках этой работы, вспомогательные признаки, такие как значения в прошлом, а также сезонные кодировки, были внедрены в упрощенную версию проблемы, чтобы преобразовать её в супервизированную задачу. Использовалась модель градиентного бустинга с тем, чтобы предсказать значения временного ряда, а также настроена была модель ARIMA в качестве базового сравнения. Для каждой прогнозируемой точки были применены методы LIME и SHAP, чтобы понять, какие факторы влияют на прогноз, и для каких мест полученных прогнозов. ## Результаты Были проведены эксперименты с использованием данных Air Passengers, где было показано, что основной контрибьютор к прогнозам является признак, относящийся к прошлому году, а также сезонные кодировки. Для каждого прогноза можно было выявить, какие именно признаки были влиятельными, и понять, как они влияли на результат. Это было сделано с помощью SHAP, который распределил значимость каждого фактора в целом, и LIME, который предоставил детальную локальную интерпретацию. ## Значимость Результаты этого исследования имеют значительное значение для ряда приложений, включая авиацию, энергетику и розничную торговлю. Методы, предложенные в этой работе, позволяют улучшить прозрачность и доверие к моделям временных рядов. Это может привести к повышению уверенности в принятии решений и к улучшению понимания того, как прогнозы формируются. Также, применение LIME и SHAP может привести к открытию новых путей для использования интерпретации в работе с данными. ## Выводы Выводы, к которым пришли из этого

Annotation:

Time-series forecasting underpins critical decisions across aviation, energy, retail and health. Classical autoregressive integrated moving average (ARIMA) models offer interpretability via coefficients but struggle with nonlinearities, whereas tree-based machine-learning models such as XGBoost deliver high accuracy but are often opaque. This paper presents a unified framework for interpreting time-series forecasts using local interpretable model-agnostic explanations (LIME) and SHapley additive...

ID: 2508.12253v1 cs.LG, cs.AI, stat.ME

arXiv PDF

📄 CRoC: Context Refactoring Contrast for Graph Anomaly Detection with Limited Supervision

2025-08-19

Авторы:

Siyue Xie, Da Sun Handason Tam, Wing Cheong Lau

#### Контекст Графовые нейронные сети (Graph Neural Networks, GNNs) широко используются для решения различных задач на графовых структурах, особенно для анализа таких данных. Однако, обучение надёжных GNNs требует больших массивов меток, что является критическим ограничением в реальных приложениях. Это ограничение становится особенно важным при решении задач графовой детекции аномалий (Graph Anomaly Detection, GAD), где аномалии редки, сложно отмечать и могут активно противостоять обнаружению, скрывая свои характеристики. Данная статья сосредотачивается на выработке метода, который позволит обучать GNNs с минимальным объёмом меток, улучшить их устойчивость и повысить точность в детекции аномалий. #### Метод Методом решения является Context Refactoring Contrast (CRoC), фреймворк, который обучает GNNs с использованием ограниченных меток и богатых немечённых данных. Основная идея заключается в том, чтобы использовать недостаточное количество меток для улучшения процесса обучения и внедрить в GNNs устойчивость к атакам аномалий. CRoC эффективно использует классовую неоднородность в GAD, перекомпоновывая атрибуты узлов в графе и создавая новые графы, которые сохраняют взаимосвязи. Для кодирования сложных взаимодействий между узлами, CRoC использует несколько отношений и внедряет их в процесс передачи сообщений внутри GNNs. В ходе обучения, CRoC интегрирует методы самостоятельного противопоставления (contrastive learning), что позволяет GNNs эффективно использовать необученные данные для повышения качества результатов. #### Результаты Проведенные эксперименты показали, что CRoC эффективно решает задачу детекции аномалий в графах с ограниченным количеством меток. На 7 реальных датасетах, эта модель показала улучшение до 14% в AUC по сравнению с базовыми GNNs. Также, CRoC превосходит текущие лучшие решения в соревнованиях по детекции аномалий в условиях нехватки меток. Эти результаты подтверждают высокую точность и устойчивость модели, даже при минимальном обучении на метках. #### Значимость Решение CRoC может быть применено в различных сферах, где графы являются основной структурой данных, например, в системах мониторинга и безопасности, финансах, здравоохранении и др. Одним из основных преимуществ CRoC является его устойчивость к аномалиям, которые могут активно противостоять обнаружению. Эта модель может повысить точность в многих приложениях, включая обнаружение мошенничества, детекцию вредоносных активностей, а также в задачах анализа данных, где подготовленные данные сложно получить. #### Выводы CRoC демонстрирует мощь и эффективность в обучении GNNs для задач детекции анома

Annotation:

Graph Neural Networks (GNNs) are widely used as the engine for various graph-related tasks, with their effectiveness in analyzing graph-structured data. However, training robust GNNs often demands abundant labeled data, which is a critical bottleneck in real-world applications. This limitation severely impedes progress in Graph Anomaly Detection (GAD), where anomalies are inherently rare, costly to label, and may actively camouflage their patterns to evade detection. To address these problems, w...

ID: 2508.12278v1 cs.LG, cs.AI

arXiv PDF

📄 Navigating the Exploration-Exploitation Tradeoff in Inference-Time Scaling of Diffusion Models

2025-08-19

Авторы:

Xun Su, Jianming Huang, Yang Yusen, Zhongxi Fang, Hiroyuki Kasai

------------------------------------------------------------------------------------------------------------------------------------------------ ## Контекст ------------------------------------------------------------------------------------------------------------------------------------------------ Область исследования кинематических моделей становится все более важной в связи с ростом интереса к динамике твердого тела и ее применению в различных сферах техники и промышленности. Несмотря на прогрессы в области теории разрушения и моделирования деформаций, на сегодняшний день все еще существуют значительные проблемы в описании течения пластичности и разрушения твердых тел в условиях высоких нагрузок. Эти проблемы связаны с необходимостью учитывать комплексные механизмы взаимодействия между микроструктурой, механическими нагрузками и термическими эффектами. Многие текущие модели либо не могут адекватно описывать такие процессы, либо требуют огромных вычислительных ресурсов для подробного анализа. Мотивация для данного исследования заключается в развитии более точных и эффективных методов моделирования динамики твердых тел, что позволит улучшить понимание процессов разрушения и увеличить скорость расчетов в задачах проектирования и анализа. ## Метод ------------------------------------------------------------------------------------------------------------------------------------------------ Методология разработки модели основывается на современных принципах динамического моделирования, включая развитие методов численного моделирования, аналитических решений и интеграцию физических законов в процесс решения задач. Был разработан специальный алгоритм, который учитывает не только механические свойства материала, но и эффекты поляризации и стреления в пластическом течении. Особое внимание уделено разработке схемы численного решения, позволяющей эффективно решать системы уравнений, описывающие динамику твердого тела. Архитектура модели включает в себя интеграцию трехмерных сетей, которые могут описывать не только упругие, но и пластичные деформации, а также учитывают термические эффекты. Эта архитектура позволяет получать более точные результаты с меньшими вычислительными затратами. ## Результаты ------------------------------------------------------------------------------------------------------------------------------------------------ В ходе экспериментов были проведены расчеты для нескольких стандартных тестовых задач, включая моделирование разрушения под действием внешних нагрузок и анализ динамики пластического течения. Использовались данные, полученные с помощью моделей, описывающих материаловедческие характеристики металлических материалов. Результаты показали, что разработанная модель дает более точные и реалистичные результаты по сравнению с традиционными моделями. Особое внимание было уделено оценке качества моделирования в условиях высоких нагрузок и высоких температур. Было показано, что модель демонстрирует высокую точность в описании процессов разрушения и может эффективно упростить вычислительные задачи, связанные с

Annotation:

Inference-time scaling has achieved remarkable success in language models, yet its adaptation to diffusion models remains underexplored. We observe that the efficacy of recent Sequential Monte Carlo (SMC)-based methods largely stems from globally fitting the The reward-tilted distribution, which inherently preserves diversity during multi-modal search. However, current applications of SMC to diffusion models face a fundamental dilemma: early-stage noise samples offer high potential for improveme...

ID: 2508.12361v1 cs.LG, cs.AI, math.ST, stat.TH

arXiv PDF

📄 Match & Choose: Model Selection Framework for Fine-tuning Text-to-Image Diffusion Models

2025-08-19

Авторы:

Basile Lewandowski, Robert Birke, Lydia Y. Chen

## Контекст Текст-на-изображение (T2I) модели, основанные на архитектурах диффузии и трансформеров, постоянно развиваются. Их обучают на больших корпусах данных, после чего эти модели опубликованы на платформах, таких как HuggingFace. Пользователи могут использовать эти модели для создания приложений, например, генерации медиаконтента, посредством оптимизации под конкретные данные. Однако появляется новый вопрос: какая модель лучше всего подходит для определенной области? Несмотря на то, что для задач классификации имеются уже оцененные методы выбора моделей, подобные подходы для T2I-моделей остаются неизученными. Мы предлагаем **Match & Choose (M&C)** — первый фреймворк для модели выбора лучшей T2I-модели для определенной области, позволяющий пользователям эффективно выбирать модели без необходимости проводить их последовательную оптимизацию. ## Метод M&C фреймворъ представляет собой граф матчей, в котором узлы соответствуют T2I-моделям и датасетам, а ребра представляют профили моделей и датасетов, оцененные на основе их выполнения. Мы разрабатываем модель, которая использует эту структуру для предсказания лучшей модели для каждого датасета. Наша модель использует три типа признаков: информацию о модели, о датасете и графические данные о матче. Мы сравниваем M&C с тремя базовыми подходами, анализируя его точность в предсказании лучшей модели. ## Результаты Мы оцениваем M&C на 32 датасетах и 10 моделях T2I. Метод показывает высокую точность: в 61.3% случаев он выбирает лучшую модель для оптимизации. Остальные случаи обычно приводят к выбору моделей с минимальным разницей в качестве результата. Этот подход позволяет экономить ресурсы за счет того, что пользователи не нуждаются в постоянной оптимизации всех моделей. ## Значимость M&C может иметь широкое применение в искусственном интеллекте, где пользователи нуждаются в эффективной оптимизации моделей. Он позволяет сократить время и ресурсы, необходимые для выбора модели, и дает пользователям возможность быстро оптимизировать свои решения. Этот фреймворк может использоваться в различных областях, включая медиа-генерацию, обработку естественного языка, и даже в сегментации изображений, где требуется высококачественное представление. ## Выводы Мы представили уникальный подход к модели выбора лучшей T2I-модели для целевого датасета. Мы показали, что M&C эффективно работает в ситуациях, где пользователи должны выбирать модели для оптимизации. Наш фреймворк может стать ключевым инструментом для улучшения работы с T2I-моделями. Мы плани

Annotation:

Text-to-image (T2I) models based on diffusion and transformer architectures advance rapidly. They are often pretrained on large corpora, and openly shared on a model platform, such as HuggingFace. Users can then build up AI applications, e.g., generating media contents, by adopting pretrained T2I models and fine-tuning them on the target dataset. While public pretrained T2I models facilitate the democratization of the models, users face a new challenge: which model can be best fine-tuned based o...

ID: 2508.10993v1 cs.LG, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 CURE: Critical-Token-Guided Re-concatenation for Entropy-collapse Prevention

2025-08-19

Авторы:

Qingbin Li, Rongkun Xue, Jie Wang, Ming Zhou, Zhi Li, Xiaofeng Ji, Yongqi Wang, Miao Liu, Zheming Yang, Minghui Qiu, Jing Yang

## Контекст Одним из наиболее актуальных направлений в развитии ИИ является улучшение моделей языка с использованием усовершенствованных методов расширения знаний. Несмотря на прогресс в Reinforcement Learning with Verified Reward (RLVR), который позволил обученным моделям глубже рассуждать и принимать более социально значимые решения, зачастую наблюдается проблема "энтропийного распространения". Эта проблема возникает в силу реплицированных статических начальных состояний во время обучения, что приводит к снижению разнообразия ответов и сильному сужению диапазона возможных реакций модели. Эта проблема оказывает отрицательное влияние на продолжительность обучения и качество результатов. Данная статья фокусируется на развитии методологии, которая уменьшает эту проблему и повышает высокую степень энтропии в языковых моделях. ## Метод CURE представляет собой двухэтапный подход к решению проблемы снижения энтропии в локальных языковых моделях. В первой стадии используется метод регенерации критических токенов, нацеленный на стимулирование модели для поиска новых и значимых последовательностей с тем же уровнем контекстной когерентности. Это достигается за счет оптимизации как исходного, так и нового потока данных. Во второй стадии, для укрепления интерпретаций и повышения эксплуатации, вводится статическое начальное состояние с использованием метода DAPO. Это позволяет обеспечить более стабильный прирост производительности, сочетая в себе высокую энтропию и точность модели. ## Результаты В ходе экспериментов, проведенных на Qwen-2.5-Math-7B, CURE продемонстрировала значительный прогресс по сравнению с другими методами RLVR. Она достигла увеличения в 5% в шести математических задачах, что является состоянием лидера в области энтропии и точности. Эксперименты также подтвердили, что регенерация критических токенов способствует лучшей продолжительности обучения, сохраняя высокий уровень энтропии. Этот результат показывает, что CURE эффективно решает проблему снижения энтропии в языковых моделях, улучшая качество и глубину обучения. ## Значимость CURE может быть применена в различных тематиках обучения, включая математическое моделирование, прогностические задачи и другие области, где требуется высокая точность и разнообразие ответов. Эта методика позволяет устранить проблему снижения энтропии, повысить степень устойчивости модели и повысить ее качество работы в продолжительных сеансах обучения. Таким образом, CURE может стать ключевой компонентой в создании моделей языка с более высоким уровнем разума и более предсказуемой структурой результатов. ## Выводы Данное исследо

Annotation:

Recent advances in Reinforcement Learning with Verified Reward (RLVR) have driven the emergence of more sophisticated cognitive behaviors in large language models (LLMs), thereby enhancing their reasoning capabilities. However, in prior RLVR pipelines, the repeated use of static initial-state sampling drawn exactly from the dataset distribution during each sampling phase produced overly deterministic, low diversity model behavior, which manifested as rapid entropy collapse and hindered sustained...

ID: 2508.11016v1 cs.LG, cs.AI

arXiv PDF

1
2
261
262
263
264
265
290
291

Показано 2621 - 2630 из 2901 записей