📚 Саммари научных статей из arXiv

Найдено 124 результатов по запросу 'cs.AI, stat.ML' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 ART: Adaptive Resampling-based Training for Imbalanced Classification

2025-09-05

Авторы:

Arjun Basandrai, Shourya Jain, K. Ilanthenral

## Контекст Работа с несбалансированными классами — одна из самых сложных задач в области машинного обучения. Традиционные методы, такие как undersampling (выборка из меньшинства классов) и oversampling (повторение меньшинства классов), либо fixed resampling (фиксированная распределение классов), ориентируются на статические распределения и не учитывают динамики обучения. Эти методы могут ограничивать производительность модели, так как не учитывают изменения в класс-суровей механизм. ## Метод Предложенный метод Adaptive Resampling-based Training (ART) представляет собой адаптивный подход к обучению, который регулярно адаптирует распределение обучающих данных на основе класс-суровых F1-метрик. Эти метрики вычисляются в определенных промежутках времени, чтобы определить изменения в класс-суровой сложности обучения. ART сосредотачивается на классах, которые не получают достаточного внимания в обучении, и постепенно повышает их вклад в обучение модели. Это способствует более гармоничной процедуре обучения и улучшает общую производительность. ## Результаты Используя различные датасеты, такие как Pima Indians Diabetes и Yeast, ART продемонстрировал существенные улучшения по сравнению с традиционными методами, такими как SMOTE, NearMiss, и Cost-sensitive Learning. Эксперименты показали, что ART повышает macro F1-метрику на среднем 2.64 процентных пункта на табулярных датасетах (статистически значимые результаты по paired t-tests и Wilcoxon tests, p < 0.05). Также ART показал привлекательные результаты на текстовых и изображенийных данных. Это подтверждает, что ART является надежной платформой для обработки несбалансированных задач классификации. ## Значимость ART может использоваться в многих областях, таких как медицинская диагностика, анализ текстов и анализ изображений, где классы неравномерно распределены. Он предлагает значительные преимущества по сравнению с существующими методами, включая более точное моделирование, уменьшение влияния выбросов и улучшение общей производительности модели. Это может привести к более точным прогнозам и более эффективным решениям в различных сферах. ## Выводы Предложенный ART-подход показал свою эффективность в обработке несбалансированных задач классификации. Он устанавливает новый стандарт в этой области, предлагая более гибкий и динамичный метод, который учитывает изменения в класс-суровой сложности. Будущие исследования будут ориентированы на расширение применимости ART к более крупным и сложным датасетам, а также на создание более универсальных решений для обработки несбалансированных классов.

Annotation:

Traditional resampling methods for handling class imbalance typically uses fixed distributions, undersampling the majority or oversampling the minority. These static strategies ignore changes in class-wise learning difficulty, which can limit the overall performance of the model. This paper proposes an Adaptive Resampling-based Training (ART) method that periodically updates the distribution of the training data based on the class-wise performance of the model. Specifically, ART uses class-wis...

ID: 2509.00955v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection

2025-09-05

Авторы:

Zhijie Zhong, Zhiwen Yu, Yiu-ming Cheung, Kaixiang Yang

## Контекст В области временных рядов, оценка моделей аномализации является критически важной задачей. Однако существующие метрики имеют недостатки: недостаточная дискриминативная сила, чувствительность к гиперпараметрам, восприимчивость дискрепантности данных и высокий компьютерный оверхед. Эти ограничения приводят к неточной оценке моделей и снижают надежность результатов. Наша мотивация заключается в разработке более стабильной и эффективной метрики, которая учитывает не только точность предсказаний, но и их уверенность и согласованность. ## Метод Мы предлагаем метод **Confidence-Consistency Evaluation (CCE)**, который оценивает две стороны качества предсказаний: уверенность и согласованность. Для построения метрики CCE используется техника Байесовского вывода для оценки неопределенности аномалий. Мы строим "глобальную" и "событийную" оценки уверенности и согласованности, чтобы обеспечить полную картину качества модели. Это позволяет CCE быть компактной и ресурсосберегающей метрикой. Мы также применяем техники линейной алгебры и математической статистики для обеспечения робастности и эффективности. ## Результаты Мы проводили эксперименты на различных датасетах, включающих данные с разными характеристиками (например, IoT, финансовые данные). Метрика CCE показала существенное улучшение в дискриминативности и устойчивости по сравнению с существующими метриками. Мы также провели тесты на систематической неточности и внешних помех, показав, что CCE лучше справляется с ними. Также, CCE доказала свою эффективность в быстрой оценке моделей при малом оверхеде вычислений. ## Значимость Метрика CCE может применяться во многих областях, где важна точная оценка аномалий в временных рядах, такие как безопасность систем, финансовый мониторинг, интернет вещей. Она обеспечивает лучшую точность, устойчивость к помехам и эффективность. Благодаря RankEval, мы предложили первый стандартизированный процесс для сравнения различных метрик, что способствует повышению надежности исследований в этой области. ## Выводы Мы предложили новую метрику CCE, которая предлагает сильные доказательства ее эффективности и устойчивости в оценке моделей аномализации временных рядов. Мы также интегрировали RankEval в качестве открытого стандарта для сравнения метрик. Будущие исследования будут фокусироваться на расширении CCE для более сложных моделей и приложений, а также на ее применении в реальных мировых задачах.

Annotation:

Time Series Anomaly Detection metrics serve as crucial tools for model evaluation. However, existing metrics suffer from several limitations: insufficient discriminative power, strong hyperparameter dependency, sensitivity to perturbations, and high computational overhead. This paper introduces Confidence-Consistency Evaluation (CCE), a novel evaluation metric that simultaneously measures prediction confidence and uncertainty consistency. By employing Bayesian estimation to quantify the uncertai...

ID: 2509.01098v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Fantastic Pretraining Optimizers and Where to Find Them

2025-09-05

Авторы:

Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang

#### Контекст Обучение моделей языковых моделей (LLM) требует сложной оптимизации сложной архитектуры. Наиболее популярным выбранным оптимизатором для этой задачи является AdamW. Тем не менее, несколько работ утверждают, что использование альтернативных оптимизаторов может привести к скорости обучения быстрее в два раза. Это подрывает доверие к AdamW и создает мотивацию для поиска более эффективных решений. Однако существует два фундаментальных недостатка в существующих исследованиях: неодинаковая настройка гиперпараметров и ограниченные сценарии оценки. Эти проблемы мешают сравнивать оптимизаторы всесторонне и приводят к недостоверным выводам. Наша мотивация заключается в создании систематического исследования, выявив эти недостатки и предоставив справедливый оснований для сравнения. #### Метод Для сравнения оптимизаторов мы используем систематическую методологию, включающую четыре модели различных размеров (от 0.1 до 1.2 миллиардов параметров) и данных-моделей (от 1 до 8 раз масштаба Chinchilla). Мы проводим тщательную настройку гиперпараметров для каждого оптимизатора, используя параллельные эксперименты для всех моделей. Эксперименты проводятся на одинаковых условиях и останавливаются после достижения целевого объема тренировочных данных. Мы проводим правдивое сравнение скорости обучения и качества, обеспечивая уникальную возможность подтвердить или опровергнуть общепринятые утверждения. #### Результаты Наши эксперименты показали, что: 1. Оптимальные гиперпараметры для одного оптимизатора могут быть неэффективными для другого, что делает безусловный переход нечестным. 2. Объявленные скорости обучения альтернативных оптимизаторов значительно преувеличены, и преимущество сокращается до 1.1x для моделей с 1.2 миллиардами параметров. 3. Использование матриц-препредикаторов (где градиенты мультиплицируются матрицами вместо скаляров) демонстрирует ограниченное преимущество, что делает предложенные оптимизаторы лишь немного эффективнее AdamW. #### Значимость Наши результаты имеют значение для областей применения глубокого обучения, в том числе моделей языка и других задач машинного обучения. Мы показываем, что некоторые предложенные оптимизаторы не приносят столь значимого выигрыша в скорости, как утверждалось ранее. Это открывает новый потенциал для разработки более точных и эффективных оптимизаторов, отвечающих реальным потребностям моделей широкого масштаба. #### Выводы Мы подтвердили, что существующие методологии сравнения оптимизаторов необходимо улучшить, чтобы обеспечить правильное и справедливое сравнение.

Annotation:

AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-mode...

ID: 2509.02046v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Top-H Decoding: Adapting the Creativity and Coherence with Bounded Entropy in Text Generation

2025-09-05

Авторы:

Erfan Baghaei Potraghloo, Seyedarmin Azizi, Souvik Kundu, Massoud Pedram

## Контекст В современных текстовых генерационных моделях, таких как Large Language Models (LLMs), широко используется техника обрезания выбора токенов для генерации текста. Она позволяет контролировать тон и стиль генерируемого текста, ограничивая сеть выбором токенов соответствующего доверия. Однако существуют проблемы, связанные с тем, чтобы добиться оптимального баланса между творчеством и логической согласованностью. Техники, такие как top-\$p\$-sampling (nucleus sampling) и min-\$p\$-sampling, сталкиваются с ограничениями, в том числе слишком узкой оптимизации токена с наивысшим доверием без учета профиля вероятностей в целом. В данной работе мы сосредоточиваемся на развитии нового подхода для эффективного управления этой динамикой. ## Метод Мы предлагаем **top-H decoding**, метод, который позволяет контролировать творческую и когнитивную субъективность в текстовой генерации, основываясь на теоретических аспектах взаимодействия этих свойств. Метод опирается на формализацию проблемы **entropy-constrained minimum divergence** (ECMD), которая, в свою очередь, эквивалентна **entropy-constrained mass maximization** (ECMM), являющейся NP-трудной задачей. Для ее решения мы предлагаем грубое, но эффективное решение, основанное на логике грибного алгоритма. Этот подход позволяет снизить разброс в выборе токенов, увеличивая среднюю вероятность выбранных значений, с тем свойством, что он остается независим от того, насколько высокой или низкой требуется творческая степень. ## Результаты Мы проверили **top-H decoding** на нескольких датасетах, включая benchmarks для творческого письма и для вопросов-ответов (question-answering). На датасете Creative Writing Benchmarks, наш метод показал результаты, превосходящие существующие технологии, включая min-\$p\$-sampling, на **25.63%** в творческих задачах. Одновременно, на вопросах-ответах, таких как GPQA, GSM8K и MT-Bench, наша модель поддерживала высокую точность, не теряя в логической согласованности, даже при высоких значениях творчества. Также, с помощью LLM-as-judge мы проверили, что top-H сохраняет логическую когнитивную согласованность даже при высоком уровне творчества, что отличает его от min-\$p\$-sampling. ## Значимость Выводы работы показывают, что **top-H decoding** открывает новые горизонты в области текстовой генерации, давая возможность улучшить творческий потенциал и сохранить логическую целостность в тексте одновременно. Метод может быть успешно интегрирован в современные текстовые генерационные системы, включая модели для креативного письма, машинного обучения, интеллектуальных агентов и даже в область генерации новостей. Э

Annotation:

Large language models (LLMs), despite their impressive performance across a wide range of tasks, often struggle to balance two competing objectives in open-ended text generation: fostering diversity and creativity while preserving logical coherence. Existing truncated sampling techniques, including temperature scaling, top-\$p\$ (nucleus) sampling, and min-\$p\$ sampling, aim to manage this trade-off. However, they exhibit limitations, particularly in the effective incorporation of the confidenc...

ID: 2509.02510v1 cs.CL, cs.AI, stat.ML

arXiv PDF

📄 BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design

2025-09-02

Авторы:

Deepro Choudhury, Sinead Williamson, Adam Goliński, Ning Miao, Freddie Bickford Smith, Michael Kirchhof, Yizhe Zhang, Tom Rainforth

## Контекст Исследование рассматривает область интеллектуального группирования информации с использованием значимых технологий глубокого обучения, в частности, Байесовского экспериментального дизайна (BED). Логический мотив заключается в улучшении способности Large Language Models (LLMs) адаптироваться к участию в многоключевых беседах, взаимодействовать с внешними источниками данных и эффективно собирать информацию. Недостаток существующих подходов в том, что традиционные технологии не включают в себя интерактивного взаимодействия с пользователем и не учитывают последовательный характер сбора информации. Задача исследования — разработать новую методологию, позволяющую LLMs адаптироваться к сложным задачам информационного поиска и повысить точность решения пользовательских задач. ## Метод В центре исследования стоит концепция BED-LLM (Bayesian Experimental Design with Large Language Models), которая основывается на последовательном выборе запросов или вопросов, которые максимизируют ожидаемый прирост информации (Expected Information Gain, EIG) о целевой задаче. Метод использует прогностическую модель Байеса, в которой LLM строит свое внутреннее представление о реальности и использует его для принятия решений. Решение использует несколько ключевых инноваций, включая более точный алгоритм для вычисления EIG, не зависящий исключительно на входные данные, а также стратегию построения запросов, ориентированную на решение конкретных пользовательских задач. ## Результаты Исследования проводились на многочисленных тестах, в том числе использовались игры "20 вопросов" и задачи бинарного классификационного анализа. На этих тестах BED-LLM показал прирост в производительности в сравнении с традиционным подходом, основанным на LLMs, и даже с другими методами адаптивного дизайна. Был проведен эксперимент, где BED-LLM адаптивно изучал предпочтения пользователя в реальном времени. Результаты показали, что подход эффективно уменьшает число запросов, необходимых для достижения точного решения, и обеспечивает лучшую пользовательскую заинтересованность. ## Значимость Разработанный подход имеет широкое применение в области принятия решений в сложных средах, бизнес-анализе, медицине, информационной безопасности и других областях, где необходимо адаптивное взаимодействие с пользователем. Основные преимущества — увеличение точности решений и эффективность в решении задач с нетривиальными условиями. Логическое влияние — это возможность значительного улучшения интеллектуальных систем, в том числе роботов-консультантов, интеллектуальных авторов и диагностических систем. ## Выводы Ре

Annotation:

We propose a general-purpose approach for improving the ability of Large Language Models (LLMs) to intelligently and adaptively gather information from a user or other external source using the framework of sequential Bayesian experimental design (BED). This enables LLMs to act as effective multi-turn conversational agents and interactively interface with external environments. Our approach, which we call BED-LLM (Bayesian Experimental Design with Large Language Models), is based on iteratively ...

ID: 2508.21184v1 cs.CL, cs.AI, stat.ML

arXiv PDF

📄 Provable Benefits of In-Tool Learning for Large Language Models

2025-08-29

Авторы:

Sam Houliston, Ambroise Odonnat, Charles Arnal, Vivien Cabannes

## Контекст В последние годы становится ясно, что языковые модели (LLMs) способны решать широкий спектр задач, включая контекстные задачи речевого понимания и программирования. Однако, несмотря на их мощь и универсальность, эти модели часто сталкиваются с проблемами в области фактического восприятия и переноса своих знаний на разные задачи. Одним из ключевых моментов является ограниченность возможности LLMs запоминать фактические данные, независимо от их размера. Это огранчает их полезность в ситуациях, требующих большого объема дополнительных данных, таких как аннотации, генерация кода, или различные виды моделирования. В этой статье мы рассматриваем возможности использования внешних инструментов (tool-use) вместо внутренней загрузки (in-weight learning) для улучшения производительности моделей, в частности, для решения задач фактического восприятия. ## Метод Подход, рассматриваемый в статье, основан на сравнении возможностей внутреннего запоминания (in-weight learning) и внешних инструментов для обработки фактических данных. Мы используем метод построения архитектур, который позволяет моделям использовать внешние инструменты для доступа к данным во время выполнения. Мы демонстрируем, что для построения модели, которая может работать с любым количеством данных, необходимо использовать внешние инструменты, так как внутренняя память модели ограничена в размере. Мы проводим эксперименты, показывающие, что модели, использующие внешние инструменты, показывают значительно лучшую производительность по сравнению с моделями, ограниченными внутренним запоминанием. Также мы доказываем, что для предобученных моделей (pretrained LLMs) обучение инструментальных способностей (tool-use) более эффективно, чем переучивание модели (fine-tuning) для внутренней загрузки данных. ## Результаты Мы проводим эксперименты с различными вариантами моделей, в том числе с предобученными моделями, и визуализируем результаты на разных тестах фактического восприятия. Мы проверяем возможность моделей на сохранение и использование фактических данных, используя различные конфигурации: только внутренний запоминающий механизм, только внешний инструмент, и комбинация обеих стратегий. Результаты показывают, что модели, использующие внешние инструменты, не только показывают значительно лучшую производительность, но и могут обрабатывать больше данных, не ограничиваясь конкретным размером внутренней памяти. Также мы показываем, что обучение инструментальных способностей (tool-use) для предобученных моделей дает значительный прирост в производительности и гибкости по сравнению с переучиванием модели (fine-tuning) для

Annotation:

Tool-augmented language models, equipped with retrieval, memory, or external APIs, are reshaping AI, yet their theoretical advantages remain underexplored. In this paper, we address this question by demonstrating the benefits of in-tool learning (external retrieval) over in-weight learning (memorization) for factual recall. We show that the number of facts a model can memorize solely in its weights is fundamentally limited by its parameter count. In contrast, we prove that tool-use enables unbou...

ID: 2508.20755v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 The Next Layer: Augmenting Foundation Models with Structure-Preserving and Attention-Guided Learning for Local Patches to Global Context Awareness in Computational Pathology

2025-08-29

Авторы:

Muhammad Waqas, Rukhmini Bandyopadhyay, Eman Showkatian, Amgad Muneer, Anas Zafar, Frank Rojas Alvarez, Maricel Corredor Marin, Wentao Li, David Jaffray, Cara Haymaker, John Heymach, Natalie I Vokes, Luisa Maren Solis Soto, Jianjun Zhang, Jia Wu

#### Контекст Фондовые модели стали мощными инструментами в компьютерной патологии, позволяя извлекать функции из импедансных данных, но часто не учитывают глобальную структуру тканей и локальные контекстуальные отношения важных для диагноза регионов. Эти элементы критически важны для понимания микроокружения опухолей. Для решения этих проблем вводится Multiple Instance Learning (MIL), которая строит рамку для сводки патчей на уровне слайдов. Недостаток таких подходов в том, что они часто лишаются возможности учитывать локальные отношения и взаимодействия между патчами. #### Метод EAGLE-Net, представленная в этой статье, — это MIL-архитектура, которая использует многомерное представление местного контекста и учитывает глобальную структуру ткани. Она включает в себя: многомасштабное пространственное кодирование для понимания тканей на уровне целого слайда, top-K loss для увеличения внимания к местным микроокружениям и background suppression loss для минимизации ложных срабатываний. Эти компоненты работают совместно, чтобы улучшить прогностическую модель и читаемость. #### Результаты На трех паналкотических наборах данных, включающих 10 260 слайдов для классификации и 4 172 слайдов для прогноза выживаемости, EAGLE-Net показала преимущество по сравнению с основными моделями. Модель повысила точность классификации до 3% и добилась лучших индексов согласованности (concordance) в 6 из 7 задач прогноза выживаемости. Она формирует четкие и биологически смысленные карты внимания, что позволяет выделить ключевые области, такие как борьба между тканями и иммунными клетками, или зоны гниение. #### Значимость EAGLE-Net может быть использована в области биомаркерного обнаружения, прогноза выживаемости и поддержки клинических решений. Она предоставляет более точные инструменты для анализа тканей и может стать надежной основой для разработки новых методов в патологии. Её важность заключается в том, что она предлагает новый взгляд на интеграцию локальных и глобальных признаков в моделировании. #### Выводы EAGLE-Net доказывает свою эффективность как инструмент для лучшего понимания микроокружения тканей и возможности прогнозировать заболевания. Будущие исследования будут фокусироваться на расширении модели для работы с более широкими классами заболеваний и улучшении её возможностей для персонализированной медицины.

Annotation:

Foundation models have recently emerged as powerful feature extractors in computational pathology, yet they typically omit mechanisms for leveraging the global spatial structure of tissues and the local contextual relationships among diagnostically relevant regions - key elements for understanding the tumor microenvironment. Multiple instance learning (MIL) remains an essential next step following foundation model, designing a framework to aggregate patch-level features into slide-level predicti...

ID: 2508.19914v1 q-bio.QM, cs.AI, stat.ML

arXiv PDF

📄 Understanding Tool-Integrated Reasoning

2025-08-28

Авторы:

Heng Lin, Zhongwen Xu

#### Контекст Large Language Models (LLMs) достигли великолепных успехов в области текстовых задач, но их возможности в области решения комплексных задач, требующих логического рассуждения и вычислительных ресурсов, до сих пор ограничены. Tool-Integrated Reasoning (TIR) — это подход, в котором LLMs интегрируются с внешними инструментами, такими как программные интерпретаторы или факт-деревья, для расширения их возможностей. Несмотря на прорывную эффективность этого подхода, не было до сих пор классического формального обоснования, почему именно внедрение инструментов улучшает способности LLMs. Это проблема усложняется тем, что существующие методы по-прежнему не могут объяснить, почему именно инструменты позволяют LLMs решать задачи с более высоким уровнем абстракции и комплексности. Целью данного исследования является осмысление принципа действия TIR и его конкретных потенциальных применений. #### Метод Проведено обширное исследование, включающее анализ существующих подходов к интеграции инструментов с LLMs. Архитектура исследования основывается на предложенной новой методологии, **Advantage Shaping Policy Optimization (ASPO)**, которая отличается своей уникальной стратегией назначения привилегий для конкретных действий, оптимизируя поведение агента. Методом является глубокое углубление в архитектурные решения, включая разработку алгоритмов, способных учитывать не только сигналы от награды, но и контекстное знание. Ключевым аспектом является использование внешнего инструмента (на примере Python-интерпретатора) для осуществления вычислительных операций и извлечения сложных знаний. Изучение этих процессов проводилось на сложных математических задачах, где LLMs были оценены по метрике pass@k. #### Результаты В ходе экспериментов было показано, что интеграция инструментов с LLMs приводит к приросту в их возможностях на 25% в сравнении с чисто текстовыми моделями. Исследования показали, что TIR расширяет область решаемых задач, от сложных вычислительных задач до задач, требующих сильной абстрактной аналитики. Были выявлены специфические шаблоны поведения, наблюдавшиеся при использовании инструментов, например, раннее применение кода и более интерактивное взаимодействие. Это позволило установить, что TIR позволяет LLMs не только решать задачи, но и формировать логические стратегии, которые были бы недоступны в чисто текстовой модели. #### Значимость Результаты имеют значительное значение для области ИИ, поскольку они демонстрируют, что инструменты могут не только расширить возможности LLMs, но и изменить их способность вести абстрактное рассуждение. Этот парадигменный переход от простого взаимодействия с инструментами

Annotation:

We study why Tool-Integrated Reasoning (TIR) makes Large Language Models (LLMs) more capable. While LLMs integrated with tools like Python code interpreters show great promise, a principled theory explaining why this paradigm is effective has been missing. This work provides the first formal proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that tools enable a strict expansion of the model's empirical and feasible support, breaking the capability ceiling of pure-text mod...

ID: 2508.19201v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Provable Generalization in Overparameterized Neural Nets

2025-08-27

Авторы:

Aviral Dhingra

#### Контекст В последние годы стали популярны модели глубокого обучения, которые обладают значительным перевесом в параметрах по сравнению с размером обучающихся данных. Несмотря на это, эти модели демонстрируют выдающиеся результаты в задачах общего языкового понимания. Традиционные меры сложности, такие как VC-размер или оценки PAC-Bayes, часто оказываются нерелевантными в таком "overparameterized" режиме. Это отступление представляет собой значительную проблему: классические подходы не могут объяснить успех таких моделей. Моя работа стремится развить альтернативный подход к изучению этой проблемы, основываясь на понятии "эффективного размера" в моделях с автопредсказанием. Я предлагаю использовать ранг входного вектора в качестве новой меры сложности, которая может учитывать спектральные свойства моделей, а не просто их размер. #### Метод Мой подход основывается на анализе спектра входного вектора в модели attention-based. Я разработал метод, позволяющий оценивать эффективный ранг attention-матриц, который отражает "функциональный размер" модели. Эта мера отличается от традиционных, так как не определяется по количеству параметров, а строится на основе спектральной структуры входных данных. Основным элементом анализа является вычисление нормы второго градиента, который позволяет проверить эффективность новой меры. Я также рассматриваю архитектуру модели, в которой attention-матрицы являются центральным элементом, и использую методы спектрального анализа для подтверждения моего подхода. #### Результаты Я провел эксперименты на широко известных данных, включая наборы для обучения языковых моделей. Мои результаты показали, что эффективный ранг attention-матриц соотносится с тем, как модели обучаются и как они масштабируются с ростом размера обучающихся данных. Например, в модели Transformer я обнаружил, что эффективный ранг приближается к логарифму размера обучающих данных, что хорошо соответствует реальным эмпирическим законам генерализации. Эти результаты подтверждают, что ранг входного вектора может быть лучшим индикатором генерализации, чем сам размер модели. #### Значимость Результаты моего исследования имеют потенциал для развития теоретических основ обучения моделей с большим числом параметров. Они подтверждают, что не только параметры, но и спектральные свойства моделей играют ключевую роль в генерализации. Это может иметь значительные последствия для разработки более эффективных моделей, которые могут обучаться быстрее и лучше адаптироваться к новым данным. Мои находки также открывают пути для дальнейшего исследования

Annotation:

Deep neural networks often contain far more parameters than training examples, yet they still manage to generalize well in practice. Classical complexity measures such as VC-dimension or PAC-Bayes bounds usually become vacuous in this overparameterized regime, offering little explanation for the empirical success of models like Transformers. In this work, I explore an alternative notion of capacity for attention-based models, based on the effective rank of their attention matrices. The intuition...

ID: 2508.17256v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Convergence and Generalization of Anti-Regularization for Parametric Models

2025-08-27

Авторы:

Dongseok Kim, Wonjun Jeong, Gisung Oh

## Контекст Область исследования фокусируется на типичных проблемах обучения моделей в условиях ограниченных данных и ресурсов. Существуют ситуации, когда ограниченный объем данных приводит к недообучению модели, что снижает её интерпретируемость и калибровку. Многие методы, направленные на повышение моделирования в таких условиях, либо неэффективны, либо приводят к переобучению. Мотивация для разработки Anti-Regularization (AR) заключается в том, чтобы найти баланс между повышением моделирования и уменьшением разброса модели в условиях недостатка данных. ## Метод Anti-regularization предлагает добавить к функции потерь специальный термин, который корректирует модель, увеличивая её выразительность в условиях недостатка данных. Данная корректировка достигается путём добавления в целевую функцию термина, основанного на знаковым осцилляциях, который стимулирует модель в интервале малого объёма данных. Тем не менее, с ростом размера выборки, этот эффект автоматически приосативается за счёт использования закона воздействия степени, чтобы избежать переобучения. Для обеспечения устойчивости вводится проекционный градиентный метод с клиппингом, который регулирует аномальные значения в модели. Алгоритм построен на теории спектра моделей и базируется на условиях спектральной безопасности и регионах доверия. ## Результаты На основе ряда экспериментов показано, что AR позволяет значительно повысить моделирование в условиях недостатка данных. Модель была протестирована на задачах регрессии и классификации, и результаты показали, что AR существенно сокращает подгонку модели к данным и улучшает калибровку. Данные эксперименты подтвердили, что уменьшение разброса модели в стадии обучения позволяет повысить её качество использования в реальных задачах. Также были проведены анализы абляции, подтвердившие значимость определённых компонент, таких как декремент степени и стабилизатор градиента. ## Значимость AR может быть использован в ограниченных условиях для повышения качества обучения моделей в регрессионных и классификационных задачах. Его применимость продемонстрирована в различных моделях, включая линейные модели и модели с Neural Tangent Kernel (NTK). Основные преимущества AR заключаются в том, что он не только повышает моделирование, но и повышает калибровку модели, уменьшая риск переобучения. Также AR является простым в реализации и может быть интегрирован в существующий эмпирический цикл минимизации риска. ## Выводы AR оказался эффективным в случаях недостатка данных, повышая выразительность моделей и снижая риск недообучения. Будущие исследования будут направлены на расширение AR на более

Annotation:

We propose Anti-regularization (AR), which adds a sign-reversed reward term to the loss to intentionally increase model expressivity in the small-sample regime, and then attenuates this intervention with a power-law decay as the sample size grows. We formalize spectral safety and trust-region conditions, and design a lightweight stability safeguard that combines a projection operator with gradient clipping, ensuring stable intervention under stated assumptions. Our analysis spans linear smoother...

ID: 2508.17412v1 cs.LG, cs.AI, stat.ML

arXiv PDF

1
2
9
10
11
12
13

Показано 101 - 110 из 124 записей