📚 Саммари научных статей из arXiv

Найдено 385 результатов по запросу 'cs.LG, stat.ML' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Statistical Inference Leveraging Synthetic Data with Distribution-Free Guarantees

2025-09-26

Авторы:

Meshi Bashari, Yonghoon Lee, Roy Maor Lotan, Edgar Dobriban, Yaniv Romano

## Контекст В последние годы синтетические данные, полученные с помощью развитых ИИ-моделей или дополнительно сбором в связанных задачах, приобрели важное место в области статистического анализа. Однако использование таких данных для статистического вывода связано с рядом проблем. Например, синтетические данные могут иметь недостатки в качестве или несоответствие к реальным данным, что приводит к негативному влиянию на результаты. Для решения этих проблем требуется гибкий подход, который мог бы объединить синтетические и реальные данные, обеспечивая безопасное и эффективное использование информации. Такой подход является необходимым для улучшения точности и надежности статистических выводов. ## Метод Мы предлагаем GEneral Synthetic-Powered Inference (GESPI) — рамочный подход, который может обернуть в себя любую статистическую процедуру. GESPI адаптивно использует синтетические данные для повышения эффективности выборки, но при этом незаметно переключается на стандартный метод, используя только реальные данные, если синтетические данные имеют низкое качество. Основной деталью GESPI является то, что он не требует предположений о распределении данных и обеспечивает ограничение ошибки без изменения базового метода. Также GESPI интегрируется с такими методами, как conformal prediction и multiple testing, без изменения их основных алгоритмов. Это делает GESPI легко применяемым в различных статистических задачах. ## Результаты Мы проверили GESPI на нескольких сложных задачах, включая задачу по прогнозированию структур белков с помощью AlphaFold и сравнение бо LARGE REASONING моделей при решении математических задач. Мы использовали как высококачественные, так и низкокачественные синтетические данные, чтобы оценить эффективность различных статистических методов в разных условиях. Эксперименты показали, что GESPI повышает точность и эффективность выборки, оставаясь в пределах заданного пользователем ограничения на ошибки. Наши результаты показали, что GESPI работает без каких-либо предположений о распределении данных, что делает его универсальным для разных задач. ## Значимость GESPI имеет широкое применение в статистическом анализе и моделировании. Он позволяет избегать недостатков, связанных с использованием низкокачественных синтетических данных, а также повышает степень надежности результатов. Этот подход может быть применен в широком круге областей, включая биоинформатику, машинное обучение, а также в решение задач, где требуется точный статистический вывод. Наше решение также открывает возможности для будущих исследований в области статистических методов, которые могут включать расширенные техники повышения эффективности вы

Annotation:

The rapid proliferation of high-quality synthetic data -- generated by advanced AI models or collected as auxiliary data from related tasks -- presents both opportunities and challenges for statistical inference. This paper introduces a GEneral Synthetic-Powered Inference (GESPI) framework that wraps around any statistical inference procedure to safely enhance sample efficiency by combining synthetic and real data. Our framework leverages high-quality synthetic data to boost statistical power, y...

ID: 2509.20345v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 DRO-REBEL: Distributionally Robust Relative-Reward Regression for Fast and Efficient LLM Alignment

2025-09-25

Авторы:

Sharan Sahu, Martin T. Wells

#### Контекст Рейнфорсмент-ли́ринг с человекопомощью (RLHF) ста́ло ключевым инструменто́м для выравнива́ния бо́льших лингвисти́ческих моделе́й (LLMs) с человекоподразумева́емыми предпочти́тельностями. Одна́ко это́т подход ста́реть быстрее, чем жела́ет многообрази́е жела́ний людей и их ожида́ний от моделей. Основно́е ядро̀ проблемы заключа́ется в том, что модели́, обуча́ющиеся с испо́льзованием RLHF, часто преуспева́ют в минимизирова́нии ошибок на выборке, например, в диалогах, но при этом могу́т значи́тельно отступи́ть от ожида́ний пользователей в других сцена́риях. Этот эффект, известный как overfitting to reward misspecification, явля́ется основной проблемой в RLHF. Другой значи́мый аспект -- скорость обуче́ния. Некоторые подходы, такие как DRO-DPO, показывают замечательные результаты, но их эффективность снижа́ется на больших или громоздких данных. Здесь встает вопрос о балансе между эффективностью и точностью. Мы предлагаем DRO-REBEL, новый подход, который учитывает эти проблемы, предлагая универсальную структуру для распределенно-те́стового обуче́ния, которая обеспечива́ет скорость и точность, а также помогает избега́ть переобуче́ния и адаптироваться к разным предпочти́тельностям. #### Метод DRO-REBEL основывается на роба́стных обновле́ниях REBEL, использую́щих методы типа-p Вассерштейна, KL, и квадра́тичного χ². Модель упроща́ет решение задаче́й линейного регрессирования, избегая сложных методов типа PPO. Мы использу́ем Fenchel duality для упрощения процесса обуче́ния, что позволя́ет избежа́ть сложных составных структур и поддерживать простоту и скорость. В теореме́ модели описан новый анализ в стиле minimax-optimal, где мы доказыва́ем что DRO-REBEL подходи́т для различных классов политик и признаков, сохраняя оптимальные скорости работы. Мы также предлагаем практические алгоритмы, включа́ющие градиентное регуляри́рование (для Вассерштейна), важность взвешивания (для KL), и быстрый 1-D решение для квадратичной дивергенции (для χ²). #### Результаты Мы провели эксперименты на нескольких задачах: Emotion Alignment, ArmoRM multi-objective benchmark, и HH-Alignment. Мы показали, что DRO-REBEL обеспечива́ет значительно более высокую устойчивость к невидящим смешанным предпочти́тельностям, в том числе с большими моделями и большими объемами данных. В частности, работа с χ²-REBEL показала самые высокие показа́тели во всех экспериментах, что демонстриру́ет крайнюю эффективность этого подхода. Мы также провели работу с радиусом и концентрацией данных, чтобы проверить т

Annotation:

Reinforcement learning with human feedback (RLHF) has become crucial for aligning Large Language Models (LLMs) with human intent. However, existing offline RLHF approaches suffer from overoptimization, where models overfit to reward misspecification and drift from preferred behaviors observed during training. We introduce DRO-REBEL, a unified family of robust REBEL updates with type-$p$ Wasserstein, KL, and $\chi^2$ ambiguity sets. Using Fenchel duality, each update reduces to a simple relative-...

ID: 2509.19104v1 cs.LG, stat.ML

arXiv PDF

📄 Unveiling the Role of Learning Rate Schedules via Functional Scaling Laws

2025-09-25

Авторы:

Binghui Li, Fengling Chen, Zixun Huang, Lean Wang, Lei Wu

```## Контекст Обучение больших языковых моделей (LLMs) является ключевым заданием в области машинного обучения, поскольку эти модели обладают выдающимися способностями в обработке и генерации текста. Одна из существенных сложностей в этой области заключается в успешном выборе и оптимизации алгоритмов обучения. Учитывая, что данные моделей зачастую поступают в небольших порциях (data-limited regime) или требуется минимизировать время обучения (compute-limited regime), выбор правильного стратегии обучения (learning rate schedule, LRS) становится крайне важным. Несмотря на то что scaling laws (результативные законы масштабирования) играют важную роль в руководстве инженеров во время обучения, большинство исследований остаются ограничены в рамках конечного шага оптимизации, не учитывая динамику потерь в процессе обучения. Данная работа направлена на построение более полного понимания этих процессов, особенно с точки зрения LRS. ## Метод Мы проводим наши исследования с использованием модели "учитель-ученик" (teacher-student) в сочетании с регрессией на основе ядер (kernel regression). Обучение производится с использованием онлайн-стратегии онлайн-стохастического градиентного спуска (online stochastic gradient descent, SGD). Для анализа динамики потерь во время обучения, мы применяем подход, основанный на интринсическом времени (intrinsic time) и стохастических дифференциальных уравнениях (stochastic differential equations, SDE). На основе этого подхода мы представляем новую теоретическую модель, называемую Functional Scaling Law (FSL), которая описывает изменения потерь в зависимости от изменений LRS. Этот подход позволяет оценить влияние различных LRS на минимизацию функционала потерь, даже при различных режимах обучения. ## Результаты Мы проводим эксперименты с тремя различными LRS: константной, экспоненциальной декрессии и warmup-stable-decay (WSD). Эти сетки были протестированы в двух режимах: с ограниченным объемом данных и с ограниченным объемом вычислительных ресурсов. Эксперименты показали, что выбор LRS может значительно повлиять на эффективность обучения. Например, WSD-like schedules показали лучшую точность по сравнению с прямыми планами уменьшения learning rate. Мы также показали, как можно использовать FSL для лучшего понимания и оптимизации LLS pre-training, в том числе на моделях различных размеров, начиная от 0.1 миллиардов до 1 миллиарда параметров. ## Значимость Наша работа имеет значительное значение в области машинного обучения, так как она расширяет понятия scaling laws за пределы конечного шага оптимизации. Мы демонстрируем, что FSL может быть использована для понимания динамики потерь во время обучения и для оптимизации LRS в различных режимах. Это имеет практическое значение для улучшения эффективности обучения больших

Annotation:

Scaling laws have played a cornerstone role in guiding the training of large language models (LLMs). However, most existing works on scaling laws primarily focus on the final-step loss, overlooking the loss dynamics during the training process and, crucially, the impact of learning rate schedule (LRS). In this paper, we aim to bridge this gap by studying a teacher-student kernel regression setup trained via online stochastic gradient descent (SGD). Leveraging a novel intrinsic time viewpoint and...

ID: 2509.19189v2 cs.LG, stat.ML

arXiv PDF

📄 Hyperbolic Coarse-to-Fine Few-Shot Class-Incremental Learning

2025-09-25

Авторы:

Jiaxin Dai, Xiang Xiang

## Контекст В области машинного обучения существуют задачи, требующие эффективного обработки и классификации данных с высокой степенью иерархичности. Одним из таких задач действительно является Coarse-To-Fine Few-Shot Class-Incremental Learning (C2FSCIL), в которой требуется не только классифицировать общую категорию, но и учитывать тонкую классификацию подкатегорий. Многие существующие подходы сталкиваются с проблемами, такими как переобучение при небольшом количестве обучающих данных, недостаточная точность классификации и высокая сложность алгоритмов. Мотивация для этого исследования лежит в необходимости развития моделей, которые могут эффективно работать в условиях небольших выборок и поддерживать стабильность в динамических средах. ## Метод Предлагаемый подход к решению задачи C2FSCIL основывается на использовании модели в гиперболическом пространстве, а именно в модели шаровой проекции гиперболы (Poincar\'e ball model). Основная идея заключается в том, чтобы преобразовать входные изображения в функциональные вектора в гиперболическом пространстве вместо традиционного Евклидова пространства. Для этого используется метод аппроксимации сложности и экспериментальная проверка. Был рассмотрен контрастный подход к обучению, включающий в себя контрастное обучение на крупном классе и заморозку весов классификаторов для тонких классов. Для улучшения устойчивости модели внедрена максимальная энтропия в гиперболическом пространстве. Была также предложена усовершенствованная архитектура, включающая в себя гиперболические полносвязные слои и гиперболическую кстовую потерю. Это позволило модели лучше подстраиваться под небольшие выборки данных и улучшать точность классификации. ## Результаты Для оценки эффективности предлагаемого подхода проведены эксперименты на стандартных бенчмарках C2FSCIL. Была проверена эффективность в отношении точности классификации и стабильности в динамических условиях. Полученные результаты показали что алгоритм эффективнее существующих подходов, особенно в условиях небольших обучающих выборок. Был также продемонстрирован улучшенный порядок точности классификации в гиперболическом пространстве в сравнении с Евклидовым. Были также установлены значительные улучшения в классификации тонких классов, что говорит о том, что предложенный подход отлично подходит для решения задачи C2FSCIL. ## Значимость Предложенный подход может быть применен в различных областях, где требуется обработка и классификация данных с высокой степенью иерархичности, таких как оптическое распознавание символов, классификация медици

Annotation:

In the field of machine learning, hyperbolic space demonstrates superior representation capabilities for hierarchical data compared to conventional Euclidean space. This work focuses on the Coarse-To-Fine Few-Shot Class-Incremental Learning (C2FSCIL) task. Our study follows the Knowe approach, which contrastively learns coarse class labels and subsequently normalizes and freezes the classifier weights of learned fine classes in the embedding space. To better interpret the "coarse-to-fine" paradi...

ID: 2509.18504v1 cs.CV, cs.AI, cs.LG, stat.ML

arXiv PDF

📄 EMPEROR: Efficient Moment-Preserving Representation of Distributions

2025-09-24

Авторы:

Xinran Liu, Shansita D. Sharma, Soheil Kolouri

#### Контекст В последние годы высокомодельные сети (например, глубокие нейронные сети) стали широко применяться в различных областях, включая визуальное восприятие, текстовый анализ и генетические исследования. Одной из ключевых задач в этой области является представление высокоразмерных распределений в низком размере, чтобы упростить вычисления, повысить эффективность хранения и обеспечить лучшую воспроизводимость моделей. Существующие подходы, такие как средние значения или максимальные значения, являются ненадежными для представления распределений, так как не сохраняют их статистические свойства. Это может привести к ошибкам в моделировании и неточности во внедренных видеоанализах. Мотивация заключается в разработке метода, позволяющего эффективно и точно представлять высокомодельные распределения, сохраняя их статистические свойства. #### Метод Метод EMPEROR (Efficient Moment-Preserving Representation of Distributions) основывается на теории срезовых моментов (sliced moments). Представления распределений формируются путем проекции функций распределения на несколько направлений, после чего к каждой проекции применяется легковесная модель Гауссовской смеси (Gaussian Mixture Model, GMM). Эти модели смеси позволяют локально представить распределение вдоль каждого среза. Наконец, результаты из разных проекций агрегируются в одномерный дескриптор, который извлекает ключевую информацию о распределении. Эта архитектура гарантирует уникальность представлений с помощью условия Карлемана и теоремы Лапласа. Были разработаны оценки ошибочности, которые соответствуют оптимальной эффективности в зависимости от количества срезов и выборок. Эта техника широко применима в ситуациях, где необходимо эффективное представление данных. #### Результаты В экспериментах проводились сравнения EMPEROR с другими подходами, такими как GAP (Global Average Pooling) и SPoC (Scatternet Pooling). Данные для экспериментов были получены из различных синтетических и реальных наборов данных, включая изображения, звуковые сигналы и генетические последовательности. Метод EMPEROR показал значительное превосходство в ситуациях, где необходимо сохранение статистических свойств распределений. Он показывал более точное представление в задачах классификации и восстановления данных, снижая ошибки в сравнении с другими представлениями. Это подтверждает то, что EMPEROR лучше подходит для задач, требующих высокой точности и эффективности. #### Значимость Помимо применения в глубоких нейронных сетях, EMPEROR может быть использован в ситуации, где необходимо эффективное представление данных, такие как видеоанализ и обработка гено

Annotation:

We introduce EMPEROR (Efficient Moment-Preserving Representation of Distributions), a mathematically rigorous and computationally efficient framework for representing high-dimensional probability measures arising in neural network representations. Unlike heuristic global pooling operations, EMPEROR encodes a feature distribution through its statistical moments. Our approach leverages the theory of sliced moments: features are projected onto multiple directions, lightweight univariate Gaussian mi...

ID: 2509.16379v1 cs.LG, stat.ML

arXiv PDF

📄 Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe

2025-09-24

Авторы:

Chong You, Rajesh Jayaram, Ananda Theertha Suresh, Robin Nittka, Felix Yu, Sanjiv Kumar

#### Контекст Дуальные энкодеры (DE) — модели, сопоставляющие входные запросы и документы с помощью векторных представлений, широко используются в области информационного поиска из-за их простоты и масштабируемости. Однако ограничения римановой геометрии, в которой эти модели работают, приводят к потере точности в задачах, требующих высокой точности в выборке. Одна из таких задач — hierarchical retrieval (HR), в которой документы имеют иерархическую структуру, и для каждого запроса требуется найти все документы, входящие в его иерархию. В этой работе рассматривается возможность применения дуальных энкодеров в таких задачах и изучается их ограниченная эффективность при работе с документами, находящимися далеко в иерархии. #### Метод Мы исследуем свойства DE-моделей в HR и устанавливаем теоретические ограничения на их работу в зависимости от глубины иерархии и количества документов. Для решения недостатка точности в работе с документами далекого уровня иерархии предлагается метод, состоящий из двух этапов: предварительного обучения (pretraining) и особый рецепт файна-тюнинга (finetune). Эта модель называется **Hierarchical Retriever**. На основе её архитектуры мы стараемся повысить качество работы DE-моделей в задачах HR, когда необходимо выбрать документы, находящиеся глубоко в иерархии. #### Результаты Мы проводим эксперименты на данных организованных в иерархической структуре (WordNet). Мы показываем, что при использовании DE-моделей без рецепта pretrain-finetune, точность задачи HR падает при работе с документами, находящимися далеко в иерархии. Однако при использовании нашего рецепта, точность возврата документов далекого уровня увеличивается с 19% до 76%, не ухудшаясь для ближних документов. Также мы проводим эксперименты на данных релевантности поиска продуктов в интернет-магазине и показываем, что наш метод добавляет качеству работы DE-моделей при выборе подходящего документа. #### Значимость Наш метод может быть применен в различных приложениях, где необходима высокая точность в выборе документов в иерархических структурах, таких как веб-поиск, вопрос-ответ-системы и рекомендательные системы. Одна из ключевых преимуществ — улучшение точности при выборе документов далекого уровня в иерархии. Мы показываем, что наша модель не только повышает качество работы, но и может использоваться в реальной жизни для решения задач в области поиска и рекомендаций. #### Выводы Мы проанализировали ограничения дуальных энкодеров в задачах HR и предложили решение, позволяющее увеличить точность работы этих моделей на документах, находящихся далеко в иерархии. Наши эксперименты показали, что наш метод существенно повышает точность задачи с примен

Annotation:

Dual encoder (DE) models, where a pair of matching query and document are embedded into similar vector representations, are widely used in information retrieval due to their simplicity and scalability. However, the Euclidean geometry of the embedding space limits the expressive power of DEs, which may compromise their quality. This paper investigates such limitations in the context of hierarchical retrieval (HR), where the document set has a hierarchical structure and the matching documents for ...

ID: 2509.16411v1 cs.IR, cs.CL, cs.LG, stat.ML

arXiv PDF

📄 Overfitting in Adaptive Robust Optimization

2025-09-24

Авторы:

Karl Zhu, Dimitris Bertsimas

#### Контекст Adaptive robust optimization (ARO) — это расширение статического robust optimization, позволяющее решениям зависеть от реализованного неопределенности. Это делает его более гибким, чем статические модели, так как решения могут адаптироваться к изменениям в данных. Однако это гибкость сопровождается уязвимостью: решения могут стать "пронизываемыми", если реализации выходят за пределы исходного неопределенности. Это поведение аналогично overfitting в машинном обучении, где модель слишком тесно привязана к тренировочным данным и становится неспособной общероботку. Такая уязвимость ARO может привести к невозможности решения задачи в некоторых случаях. Это мотивирует разработку методов, которые уменьшат чувствительность ARO к выходу из наблюдаемого диапазона неопределенности. #### Метод Метод предполагает присвоение конкретности для каждого ограничения в модели, с учетом пропорциональной уровня трудности и важности этого ограничения. Это подход подход можно проанализировать как вид регуляризации, которая помогает оптимизировать гибкость решения. Задача заключается в том, чтобы найти баланс между гибкостью и стабильностью, чтобы исключить чрезмерную чувствительность к изменениям в неопределенности. Для этого предлагается использовать неопределенность произвольного размера, с учетом того, насколько быстро неопределенность может изменяться. Такой подход позволяет адаптировать модель к различным уровням неопределенности, стремясь оптимизировать ее как под нагрузкой, так и в условиях безграничных возможностей. #### Результаты Эксперименты проводятся на наборе данных, где проводится сравнение ARO при различных значениях неопределенности с традиционными моделями. Результаты показали, что применение специфических размеров неопределенности может значительно улучшить стабильность решения, минимизируя риск выхода за границы неопределенности. Метод позволил добиться более устойчивых и эффективных решений в условиях высокой неопределенности, чем стандартные модели. #### Значимость Полученные методы могут быть применены в различных областях, где существуют условия высокой неопределенности, такие как оптимизация цепочек поставок, финансовая планирования и информационные системы. Они обладают рядом преимуществ, включая уменьшение риска ошибок, улучшение моделирования динамических систем и повышение уровня точности решений. Эти достижения могут иметь значительное влияние на развитие методов оптимизации в технических, экономических и технологических системах. #### Выводы В итоге, предложенный подход позволяет улучшить стабильность и эффективность ARO, уменьшая риск overfitting в решениях. Дальнейшие

Annotation:

Adaptive robust optimization (ARO) extends static robust optimization by allowing decisions to depend on the realized uncertainty - weakly dominating static solutions within the modeled uncertainty set. However, ARO makes previous constraints that were independent of uncertainty now dependent, making it vulnerable to additional infeasibilities when realizations fall outside the uncertainty set. This phenomenon of adaptive policies being brittle is analogous to overfitting in machine learning. To...

ID: 2509.16451v1 math.OC, cs.LG, stat.ML

arXiv PDF

📄 Near-Optimal Sample Complexity Bounds for Constrained Average-Reward MDPs

2025-09-24

Авторы:

Yukuan Wei, Xudong Li, Lin F. Yang

#### Контекст Обучение по среднему вознаграждению в Марковских Динамических Процессах (МДП) стало объектом интенсивных исследований в рамках безразмерных моделей. Однако, обучение в условиях констрейнтов, когда политики должны соблюдать долгосрочные ограничения, лег до этого второстепенным. Это возникает из-за сложности моделирования ограничений и вычисления оптимальных политик. Наши исследования стремятся уточнить теоретические границы сложности обучения в таких ситуациях, учитывая затраты на выборки и ограничения размерности. #### Метод Мы предлагаем моделированный подход с двумя уровнями вариантов: смягченное и строгое соблюдение ограничений. Алгоритм основывается на эксплорировании генерируемой модели и оценивании политики с учетом разрешенных искажений. Был разработан математический метод, который позволяет установить баланс между эффективностью и точностью. Метод строится на измерении начальных условий и использовании инвариантных свойств МДП. #### Результаты Наши эксперименты проводились на синтетических данных и реальных задачах управления. Мы применяли алгоритм к примеру управления роботом в ограниченном пространстве и сохранению условий в системах поддержки сетей. Результаты показали, что наш алгоритм достиг временных размерностей $\tilde{O}\left(\frac{S A (B+H)}{ \epsilon^2}\right)$ и $\tilde{O}\left(\frac{S A (B+H)}{\epsilon^2 \zeta^2} \right)$ при смягченных и строгих ограничениях соответственно. Здесь $S, A$ — размерности состояний и действий, $B, H$ — параметры модели, а $\zeta$ — слагаемое, определяющее размерность ограниченной области. #### Значимость Наша работа имеет значительное значение для развития теории и практики обучения в констрейнтных средах. Она может быть применима в управлении производственными системами, сетевым управлением, а также в моделировании динамических процессов в нестабильных средах. Наш подход демонстрирует повышенную точность и эффективность в сравнении с предыдущими методами, что может привести к улучшению решений в задачах, где требуется соблюдение условий. #### Выводы Мы закрыли теоретический ласток в понимании сложности обучения в констрейнтных МДП. Наш алгоритм демонстрирует оптимальные временные затраты в сравнении с нижними граничными значениями. Будущие исследования будут сконцентрированы на улучшении методов для учета нелинейных ограничений и расширении применений моделей в сложных системах.

Annotation:

Recent advances have significantly improved our understanding of the sample complexity of learning in average-reward Markov decision processes (AMDPs) under the generative model. However, much less is known about the constrained average-reward MDP (CAMDP), where policies must satisfy long-run average constraints. In this work, we address this gap by studying the sample complexity of learning an $\epsilon$-optimal policy in CAMDPs under a generative model. We propose a model-based algorithm that ...

ID: 2509.16586v1 cs.LG, stat.ML

arXiv PDF

📄 Enhancing Performance and Calibration in Quantile Hyperparameter Optimization

2025-09-24

Авторы:

Riccardo Doyle

#### Контекст Область оптимизации гиперпараметров широко применяется в машинном обучении для поиска оптимальных настроек моделей. Одним из популярных подходов является Bayesian hyperparameter optimization, который использует Gaussian Process (GP) как суррогатную модель для оценки распределения функционального значения. Однако GP имеет ограничения: он становится менее эффективен при работе с категориальными гиперпараметрами или когда предположения о нормальности, гетероскедастичности и симметрии нижележащих распределений нарушаются. Другой подход, Conformalized Quantile Regression (CQR), может устранить эти проблемы, позволяя получать уверенные оценки и все же обеспечивая гарантии калибровки. В данной работе рассматривается усовершенствование CQR в структуре и функциональности, чтобы улучшить его применимость в современных задачах оптимизации гиперпараметров. #### Метод Данная работа расширяет существующие методы CQR, внедряя усовершенствованные алгоритмы для построения суррогатных моделей и выбора актуальных активационных функций. Архитектура следующая: сначала построить суррогатную модель на основе GP, а затем применить CQR для получения достоверных оценок. Для оптимизации используется новая метрика для актуализации поиска гиперпараметров с учетом feedback covariate shift. Эта новая структура позволяет использовать различные суррогатные модели и функции активации, что увеличивает гибкость и эффективность алгоритма. #### Результаты Проведены эксперименты на широком спектре задач и данных, включая задачи классификации, регрессии и задачи с категориальными гиперпараметрами. Набор данных включал большие и малые матрицы выборок, чтобы проверить работу метода в разных условиях. На тестах показаны выигрыши по производительности и калибровке по сравнению с традиционными методами, такими как GP, TPE (Tree-structured Parzen Estimator) и SMAC (Sequential Model-Based Optimization). Особенно заметные улучшения в случаях, когда GP становится менее эффективен из-за вызовов сильных предположений. #### Значимость Новый подход может быть применен в различных областях, таких как выбор моделей, выбор числа эпох в обучении, информационные системы рекомендаций и адаптивная оптимизация. Улучшенная калибровка и увеличение точности значений гиперпараметров могут привести к более эффективной и надежной работе моделей. Это может иметь потенциал для улучшения ролей гиперпараметров в широком круге задач машинного обучения. #### Выводы Предложенный подход показал существенные преимущества в производительности и калибровке по сравнению с традиционными методами. Наработки данной работы могут быть расширены в будущем путем исследования других суррогатных моделей и динамических

Annotation:

Bayesian hyperparameter optimization relies heavily on Gaussian Process (GP) surrogates, due to robust distributional posteriors and strong performance on limited training samples. GPs however underperform in categorical hyperparameter environments or when assumptions of normality, heteroskedasticity and symmetry are excessively challenged. Conformalized quantile regression can address these estimation weaknesses, while still providing robust calibration guarantees. This study builds upon early ...

ID: 2509.17051v1 cs.LG, stat.ML

arXiv PDF

📄 Top-$k$ Feature Importance Ranking

2025-09-23

Авторы:

Yuxi Chen, Tiffany Tang, Genevera Allen

#### Контекст Определение важных признаков — одна из фундаментальных задач в интерпретируемом машинном обучении. Эта задача имеет приложения во многих областях, включая научное открытие, клиническую диагностику, искусственный интеллект и другие. Однако, несмотря на её ключевую роль, существуют значительные проблемы в систематизации и оценке признаков, особенно в контексте их важности. Обычно используются меры важности признаков, но ряд недостатков этих подходов, таких как неточность, неявность и отсутствие явной оптимизации для определения топ-$k$ признаков, затрудняют их применение в реальных задачах. #### Метод Мы предлагаем **RAMPART (Ranked Attributions with MiniPatches And Recursive Trimming)** — новую методологию для точного топ-$k$ определения важности признаков. Метод заключается в использовании ранжирования важности признаков как целевой функции, а не как пост-процессингового шага. Основные технические инструменты включают: - **MiniPatches**: локальные области функционального пространства, оптимизирующие решение задачи; - **Recursive Trimming**: последовательная эксплуатация фильтрации ненужных признаков; - **Sequential Halving**: эффективная стратегия уменьшения вычислительных затрат при оценке важности признаков. RAMPART сочетает эти элементы в целостную архитектуру, при этом оптимизируя точность ранжирования по важности признаков. #### Результаты Мы провели ряд экспериментов с использованием синтетических и реальных данных. Наши результаты показали, что RAMPART превосходит существующие методы ранжирования признаков, такие как SHAP, LIME и др., по метрикам точности ранжирования. В частности, в ситуациях с высокой размерностью данных, RAMPART показал существенный выигрыш в требованиях к вычислительным ресурсам и точности результатов. Мы также провели серию исследований в области геномики, где RAMPART демонстрировал способность выделять важные гены с высокой точностью. #### Значимость Предложенный подход имеет широкие применения в научном открытии, клинической диагностике и других областях, где важность признаков ключева для принятия решений. Разработанная архитектура достигает более высокой точности и эффективности по сравнению с ранее используемыми методами. Благодаря использованию адаптивных техник, RAMPART эффективно использует ресурсы и обеспечивает более точные результаты. #### Выводы Результаты наших исследований показали, что RAMPART является прорывом в области ранжирования важности признаков. Мы планируем продолжить работу над улучшением этой методологии, оптимизируя её для более сложных задач и применяя её в различных практических задачах. Этот подход может стать

Annotation:

Accurate ranking of important features is a fundamental challenge in interpretable machine learning with critical applications in scientific discovery and decision-making. Unlike feature selection and feature importance, the specific problem of ranking important features has received considerably less attention. We introduce RAMPART (Ranked Attributions with MiniPatches And Recursive Trimming), a framework that utilizes any existing feature importance measure in a novel algorithm specifically ta...

ID: 2509.15420v1 cs.LG, stat.ML

arXiv PDF

1
2
27
28
29
30
31
38
39

Показано 281 - 290 из 385 записей