📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Christo Mathew, Wentian Wang, Lazaros Gallos, Paul Kantor, Vladimir Menkov, Hao Wang

#### Контекст Исследование фундаментальных аспектов метрологии для искусственного интеллекта (ИИ) является ключевым направлением в развитии этого направления. Одна из проблем заключается в необходимости понятия метрики, которая могла бы оценивать эффективность ИИ в структурированных, но неточно определенных средах. Одним из таких сред является **Game Of Hidden Rules (GOHR)**, где агент должен выяснить и выполнить скрытые правила для успешного очищения платы. Проблема заключается в том, что готовые решения отсутствуют, и агенту необходимо применять универсальный подход к обучению, основываясь на частичных наблюдениях. Это делает GOHR важной моделью для изучения логики, способности адаптироваться и решать проблемы в сложных и неопределенных средах. #### Метод Чтобы оценить ИИ в GOHR, авторы применяют **Transformer-based Advantage Actor-Critic (A2C)** алгоритм с двумя стратегиями представления состояния: **Feature-Centric (FC)** и **Object-Centric (OC)**. Агент имеет только частичные наблюдения и должен осуществлять параллельное выяснение правил и изучение оптимальной стратегии решения задачи. Такой подход позволяет изучить, насколько эффективно ИИ может работать в условиях неполной информативности и как два разных представления данных влияют на обучение. Эксперименты проводятся в разных условиях, включая правила и списки задач. #### Результаты Результаты экспериментов показывают, что агент на основе FC более эффективен в сценариях с небольшим числом правил и меньшего количества испытаний. Однако OC-агент показывает лучшую стабильность и гибкость при увеличении сложности задачи. Это указывает на то, что оба представления имеют свои преимущества и недостатки, зависящие от специфики задачи. Таким образом, FC работает лучше в простых сценариях, тогда как OC демонстрирует преимущества в значительно более сложных задачах. #### Значимость Результаты имеют значительное значение для развития метрологии в ИИ, особенно в сфере улучшения способности ИИ к обучению с рефлексией и самокоррекции. Приложения могут найтися в сложных неупорядоченных средах, где требуется высокая универсальность и адаптация. Это может иметь отношение к системам распознавания речи, робототехнике, автономным вождению и другим областям, где необходимо определять и выполнять неявные правила. #### Выводы Исследование показывает, что обучение в средах с неявными правилами требует универсальных моделей, которые могут применяться к различным сценариям. Несмотря на то, что оба представления данных показали эффективность, они имеют различные сильные и слабые стороны. Будущие исследования должны сформировать более общую стратегию, которая бы у
Annotation:
We investigate reinforcement learning in the Game Of Hidden Rules (GOHR) environment, a complex puzzle in which an agent must infer and execute hidden rules to clear a 6$\times$6 board by placing game pieces into buckets. We explore two state representation strategies, namely Feature-Centric (FC) and Object-Centric (OC), and employ a Transformer-based Advantage Actor-Critic (A2C) algorithm for training. The agent has access only to partial observations and must simultaneously infer the governing...
ID: 2509.06213v1 cs.LG, cs.AI, stat.ML
Авторы:

Yin Huang, Yongqi Dong, Youhua Tang, Li Li

## Контекст Проблема нехватки парковочных мест в урбанизированных районах становится все более актуальной в связи с повышающимся уровнем владельца запасных мест. Это не только усложняет жизнь гражданам, но и создает значительную проблему для управления городским транспортом. Удостовериться, что парковочные места доступны при необходимости, может стать ключевым фактором для повышения эффективности городской инфраструктуры. Для решения этой проблемы необходимо правильно формальизовать процесс прогнозирования доступности парковочных мест, основываясь на интеграции разнородных данных. ## Метод Для решения предлагается методология, названная SST-iTransformer. Метод использует K-means кластеризацию для группирования парковочных мест в кластеры, которые далее используются для извлечения интересных характеристик транспортных режимов (метро, автобус, такси, онлайн-заказы такси). Основные усовершенствования предлагаемого подхода заключаются в использовании масочной операции восстановления для обучения с самостоятельной сверткой, а также в разработанном двойном механизме внимания: серийного, который реализует зависимости временных рядов через патчинг, и канального, которое моделирует взаимодействия между различными переменными. ## Результаты Эксперименты проводились на реальных данных из города Чэнду, Китай. На них показана высокая точность прогноза, которая превосходит современные модели, такие как Informer, Autoformer и Crossformer. Использование данных по онлайн-заказам такси дает самый большой прирост в точности, а затем идут данные по такси. Из исследований также следует, что исключение исторических данных связанных парковочных мест в кластерах приводит к существенной потере точности. ## Значимость Предложенный подход может быть применен для оптимизации городской инфраструктуры, поддержания транспортной эффективности и планирования транспортных систем. Он предлагает достоверный, улучшенный способ прогнозирования доступности парковочных мест, который может быть использован в различных сценариях, включая городское управление и транспортную инфраструктуру. ## Выводы Опубликованная работа показывает, что SST-iTransformer представляет собой эффективный инструмент для решения проблемы прогнозирования доступности парковочных мест. Будущие исследования могут концентрироваться на улучшении метода с помощью более сложных моделей и использовании более подробных данных, чтобы повысить его точность и расширить область применения.
Annotation:
The rapid growth of private car ownership has worsened the urban parking predicament, underscoring the need for accurate and effective parking availability prediction to support urban planning and management. To address key limitations in modeling spatio-temporal dependencies and exploiting multi-source data for parking availability prediction, this study proposes a novel approach with SST-iTransformer. The methodology leverages K-means clustering to establish parking cluster zones (PCZs), extra...
ID: 2509.04362v1 cs.LG, cs.AI, stat.ML
Авторы:

Arjun Basandrai, Shourya Jain, K. Ilanthenral

## Контекст Работа с несбалансированными классами — одна из самых сложных задач в области машинного обучения. Традиционные методы, такие как undersampling (выборка из меньшинства классов) и oversampling (повторение меньшинства классов), либо fixed resampling (фиксированная распределение классов), ориентируются на статические распределения и не учитывают динамики обучения. Эти методы могут ограничивать производительность модели, так как не учитывают изменения в класс-суровей механизм. ## Метод Предложенный метод Adaptive Resampling-based Training (ART) представляет собой адаптивный подход к обучению, который регулярно адаптирует распределение обучающих данных на основе класс-суровых F1-метрик. Эти метрики вычисляются в определенных промежутках времени, чтобы определить изменения в класс-суровой сложности обучения. ART сосредотачивается на классах, которые не получают достаточного внимания в обучении, и постепенно повышает их вклад в обучение модели. Это способствует более гармоничной процедуре обучения и улучшает общую производительность. ## Результаты Используя различные датасеты, такие как Pima Indians Diabetes и Yeast, ART продемонстрировал существенные улучшения по сравнению с традиционными методами, такими как SMOTE, NearMiss, и Cost-sensitive Learning. Эксперименты показали, что ART повышает macro F1-метрику на среднем 2.64 процентных пункта на табулярных датасетах (статистически значимые результаты по paired t-tests и Wilcoxon tests, p < 0.05). Также ART показал привлекательные результаты на текстовых и изображенийных данных. Это подтверждает, что ART является надежной платформой для обработки несбалансированных задач классификации. ## Значимость ART может использоваться в многих областях, таких как медицинская диагностика, анализ текстов и анализ изображений, где классы неравномерно распределены. Он предлагает значительные преимущества по сравнению с существующими методами, включая более точное моделирование, уменьшение влияния выбросов и улучшение общей производительности модели. Это может привести к более точным прогнозам и более эффективным решениям в различных сферах. ## Выводы Предложенный ART-подход показал свою эффективность в обработке несбалансированных задач классификации. Он устанавливает новый стандарт в этой области, предлагая более гибкий и динамичный метод, который учитывает изменения в класс-суровой сложности. Будущие исследования будут ориентированы на расширение применимости ART к более крупным и сложным датасетам, а также на создание более универсальных решений для обработки несбалансированных классов.
Annotation:
Traditional resampling methods for handling class imbalance typically uses fixed distributions, undersampling the majority or oversampling the minority. These static strategies ignore changes in class-wise learning difficulty, which can limit the overall performance of the model. This paper proposes an Adaptive Resampling-based Training (ART) method that periodically updates the distribution of the training data based on the class-wise performance of the model. Specifically, ART uses class-wis...
ID: 2509.00955v1 cs.LG, cs.AI, stat.ML
Авторы:

Zhijie Zhong, Zhiwen Yu, Yiu-ming Cheung, Kaixiang Yang

## Контекст В области временных рядов, оценка моделей аномализации является критически важной задачей. Однако существующие метрики имеют недостатки: недостаточная дискриминативная сила, чувствительность к гиперпараметрам, восприимчивость дискрепантности данных и высокий компьютерный оверхед. Эти ограничения приводят к неточной оценке моделей и снижают надежность результатов. Наша мотивация заключается в разработке более стабильной и эффективной метрики, которая учитывает не только точность предсказаний, но и их уверенность и согласованность. ## Метод Мы предлагаем метод **Confidence-Consistency Evaluation (CCE)**, который оценивает две стороны качества предсказаний: уверенность и согласованность. Для построения метрики CCE используется техника Байесовского вывода для оценки неопределенности аномалий. Мы строим "глобальную" и "событийную" оценки уверенности и согласованности, чтобы обеспечить полную картину качества модели. Это позволяет CCE быть компактной и ресурсосберегающей метрикой. Мы также применяем техники линейной алгебры и математической статистики для обеспечения робастности и эффективности. ## Результаты Мы проводили эксперименты на различных датасетах, включающих данные с разными характеристиками (например, IoT, финансовые данные). Метрика CCE показала существенное улучшение в дискриминативности и устойчивости по сравнению с существующими метриками. Мы также провели тесты на систематической неточности и внешних помех, показав, что CCE лучше справляется с ними. Также, CCE доказала свою эффективность в быстрой оценке моделей при малом оверхеде вычислений. ## Значимость Метрика CCE может применяться во многих областях, где важна точная оценка аномалий в временных рядах, такие как безопасность систем, финансовый мониторинг, интернет вещей. Она обеспечивает лучшую точность, устойчивость к помехам и эффективность. Благодаря RankEval, мы предложили первый стандартизированный процесс для сравнения различных метрик, что способствует повышению надежности исследований в этой области. ## Выводы Мы предложили новую метрику CCE, которая предлагает сильные доказательства ее эффективности и устойчивости в оценке моделей аномализации временных рядов. Мы также интегрировали RankEval в качестве открытого стандарта для сравнения метрик. Будущие исследования будут фокусироваться на расширении CCE для более сложных моделей и приложений, а также на ее применении в реальных мировых задачах.
Annotation:
Time Series Anomaly Detection metrics serve as crucial tools for model evaluation. However, existing metrics suffer from several limitations: insufficient discriminative power, strong hyperparameter dependency, sensitivity to perturbations, and high computational overhead. This paper introduces Confidence-Consistency Evaluation (CCE), a novel evaluation metric that simultaneously measures prediction confidence and uncertainty consistency. By employing Bayesian estimation to quantify the uncertai...
ID: 2509.01098v1 cs.LG, cs.AI, stat.ML
Авторы:

Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang

#### Контекст Обучение моделей языковых моделей (LLM) требует сложной оптимизации сложной архитектуры. Наиболее популярным выбранным оптимизатором для этой задачи является AdamW. Тем не менее, несколько работ утверждают, что использование альтернативных оптимизаторов может привести к скорости обучения быстрее в два раза. Это подрывает доверие к AdamW и создает мотивацию для поиска более эффективных решений. Однако существует два фундаментальных недостатка в существующих исследованиях: неодинаковая настройка гиперпараметров и ограниченные сценарии оценки. Эти проблемы мешают сравнивать оптимизаторы всесторонне и приводят к недостоверным выводам. Наша мотивация заключается в создании систематического исследования, выявив эти недостатки и предоставив справедливый оснований для сравнения. #### Метод Для сравнения оптимизаторов мы используем систематическую методологию, включающую четыре модели различных размеров (от 0.1 до 1.2 миллиардов параметров) и данных-моделей (от 1 до 8 раз масштаба Chinchilla). Мы проводим тщательную настройку гиперпараметров для каждого оптимизатора, используя параллельные эксперименты для всех моделей. Эксперименты проводятся на одинаковых условиях и останавливаются после достижения целевого объема тренировочных данных. Мы проводим правдивое сравнение скорости обучения и качества, обеспечивая уникальную возможность подтвердить или опровергнуть общепринятые утверждения. #### Результаты Наши эксперименты показали, что: 1. Оптимальные гиперпараметры для одного оптимизатора могут быть неэффективными для другого, что делает безусловный переход нечестным. 2. Объявленные скорости обучения альтернативных оптимизаторов значительно преувеличены, и преимущество сокращается до 1.1x для моделей с 1.2 миллиардами параметров. 3. Использование матриц-препредикаторов (где градиенты мультиплицируются матрицами вместо скаляров) демонстрирует ограниченное преимущество, что делает предложенные оптимизаторы лишь немного эффективнее AdamW. #### Значимость Наши результаты имеют значение для областей применения глубокого обучения, в том числе моделей языка и других задач машинного обучения. Мы показываем, что некоторые предложенные оптимизаторы не приносят столь значимого выигрыша в скорости, как утверждалось ранее. Это открывает новый потенциал для разработки более точных и эффективных оптимизаторов, отвечающих реальным потребностям моделей широкого масштаба. #### Выводы Мы подтвердили, что существующие методологии сравнения оптимизаторов необходимо улучшить, чтобы обеспечить правильное и справедливое сравнение.
Annotation:
AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-mode...
ID: 2509.02046v1 cs.LG, cs.AI, stat.ML
Авторы:

Sam Houliston, Ambroise Odonnat, Charles Arnal, Vivien Cabannes

## Контекст В последние годы становится ясно, что языковые модели (LLMs) способны решать широкий спектр задач, включая контекстные задачи речевого понимания и программирования. Однако, несмотря на их мощь и универсальность, эти модели часто сталкиваются с проблемами в области фактического восприятия и переноса своих знаний на разные задачи. Одним из ключевых моментов является ограниченность возможности LLMs запоминать фактические данные, независимо от их размера. Это огранчает их полезность в ситуациях, требующих большого объема дополнительных данных, таких как аннотации, генерация кода, или различные виды моделирования. В этой статье мы рассматриваем возможности использования внешних инструментов (tool-use) вместо внутренней загрузки (in-weight learning) для улучшения производительности моделей, в частности, для решения задач фактического восприятия. ## Метод Подход, рассматриваемый в статье, основан на сравнении возможностей внутреннего запоминания (in-weight learning) и внешних инструментов для обработки фактических данных. Мы используем метод построения архитектур, который позволяет моделям использовать внешние инструменты для доступа к данным во время выполнения. Мы демонстрируем, что для построения модели, которая может работать с любым количеством данных, необходимо использовать внешние инструменты, так как внутренняя память модели ограничена в размере. Мы проводим эксперименты, показывающие, что модели, использующие внешние инструменты, показывают значительно лучшую производительность по сравнению с моделями, ограниченными внутренним запоминанием. Также мы доказываем, что для предобученных моделей (pretrained LLMs) обучение инструментальных способностей (tool-use) более эффективно, чем переучивание модели (fine-tuning) для внутренней загрузки данных. ## Результаты Мы проводим эксперименты с различными вариантами моделей, в том числе с предобученными моделями, и визуализируем результаты на разных тестах фактического восприятия. Мы проверяем возможность моделей на сохранение и использование фактических данных, используя различные конфигурации: только внутренний запоминающий механизм, только внешний инструмент, и комбинация обеих стратегий. Результаты показывают, что модели, использующие внешние инструменты, не только показывают значительно лучшую производительность, но и могут обрабатывать больше данных, не ограничиваясь конкретным размером внутренней памяти. Также мы показываем, что обучение инструментальных способностей (tool-use) для предобученных моделей дает значительный прирост в производительности и гибкости по сравнению с переучиванием модели (fine-tuning) для
Annotation:
Tool-augmented language models, equipped with retrieval, memory, or external APIs, are reshaping AI, yet their theoretical advantages remain underexplored. In this paper, we address this question by demonstrating the benefits of in-tool learning (external retrieval) over in-weight learning (memorization) for factual recall. We show that the number of facts a model can memorize solely in its weights is fundamentally limited by its parameter count. In contrast, we prove that tool-use enables unbou...
ID: 2508.20755v1 cs.LG, cs.AI, stat.ML
Авторы:

Heng Lin, Zhongwen Xu

#### Контекст Large Language Models (LLMs) достигли великолепных успехов в области текстовых задач, но их возможности в области решения комплексных задач, требующих логического рассуждения и вычислительных ресурсов, до сих пор ограничены. Tool-Integrated Reasoning (TIR) — это подход, в котором LLMs интегрируются с внешними инструментами, такими как программные интерпретаторы или факт-деревья, для расширения их возможностей. Несмотря на прорывную эффективность этого подхода, не было до сих пор классического формального обоснования, почему именно внедрение инструментов улучшает способности LLMs. Это проблема усложняется тем, что существующие методы по-прежнему не могут объяснить, почему именно инструменты позволяют LLMs решать задачи с более высоким уровнем абстракции и комплексности. Целью данного исследования является осмысление принципа действия TIR и его конкретных потенциальных применений. #### Метод Проведено обширное исследование, включающее анализ существующих подходов к интеграции инструментов с LLMs. Архитектура исследования основывается на предложенной новой методологии, **Advantage Shaping Policy Optimization (ASPO)**, которая отличается своей уникальной стратегией назначения привилегий для конкретных действий, оптимизируя поведение агента. Методом является глубокое углубление в архитектурные решения, включая разработку алгоритмов, способных учитывать не только сигналы от награды, но и контекстное знание. Ключевым аспектом является использование внешнего инструмента (на примере Python-интерпретатора) для осуществления вычислительных операций и извлечения сложных знаний. Изучение этих процессов проводилось на сложных математических задачах, где LLMs были оценены по метрике pass@k. #### Результаты В ходе экспериментов было показано, что интеграция инструментов с LLMs приводит к приросту в их возможностях на 25% в сравнении с чисто текстовыми моделями. Исследования показали, что TIR расширяет область решаемых задач, от сложных вычислительных задач до задач, требующих сильной абстрактной аналитики. Были выявлены специфические шаблоны поведения, наблюдавшиеся при использовании инструментов, например, раннее применение кода и более интерактивное взаимодействие. Это позволило установить, что TIR позволяет LLMs не только решать задачи, но и формировать логические стратегии, которые были бы недоступны в чисто текстовой модели. #### Значимость Результаты имеют значительное значение для области ИИ, поскольку они демонстрируют, что инструменты могут не только расширить возможности LLMs, но и изменить их способность вести абстрактное рассуждение. Этот парадигменный переход от простого взаимодействия с инструментами
Annotation:
We study why Tool-Integrated Reasoning (TIR) makes Large Language Models (LLMs) more capable. While LLMs integrated with tools like Python code interpreters show great promise, a principled theory explaining why this paradigm is effective has been missing. This work provides the first formal proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that tools enable a strict expansion of the model's empirical and feasible support, breaking the capability ceiling of pure-text mod...
ID: 2508.19201v1 cs.LG, cs.AI, stat.ML
Авторы:

Aviral Dhingra

#### Контекст В последние годы стали популярны модели глубокого обучения, которые обладают значительным перевесом в параметрах по сравнению с размером обучающихся данных. Несмотря на это, эти модели демонстрируют выдающиеся результаты в задачах общего языкового понимания. Традиционные меры сложности, такие как VC-размер или оценки PAC-Bayes, часто оказываются нерелевантными в таком "overparameterized" режиме. Это отступление представляет собой значительную проблему: классические подходы не могут объяснить успех таких моделей. Моя работа стремится развить альтернативный подход к изучению этой проблемы, основываясь на понятии "эффективного размера" в моделях с автопредсказанием. Я предлагаю использовать ранг входного вектора в качестве новой меры сложности, которая может учитывать спектральные свойства моделей, а не просто их размер. #### Метод Мой подход основывается на анализе спектра входного вектора в модели attention-based. Я разработал метод, позволяющий оценивать эффективный ранг attention-матриц, который отражает "функциональный размер" модели. Эта мера отличается от традиционных, так как не определяется по количеству параметров, а строится на основе спектральной структуры входных данных. Основным элементом анализа является вычисление нормы второго градиента, который позволяет проверить эффективность новой меры. Я также рассматриваю архитектуру модели, в которой attention-матрицы являются центральным элементом, и использую методы спектрального анализа для подтверждения моего подхода. #### Результаты Я провел эксперименты на широко известных данных, включая наборы для обучения языковых моделей. Мои результаты показали, что эффективный ранг attention-матриц соотносится с тем, как модели обучаются и как они масштабируются с ростом размера обучающихся данных. Например, в модели Transformer я обнаружил, что эффективный ранг приближается к логарифму размера обучающих данных, что хорошо соответствует реальным эмпирическим законам генерализации. Эти результаты подтверждают, что ранг входного вектора может быть лучшим индикатором генерализации, чем сам размер модели. #### Значимость Результаты моего исследования имеют потенциал для развития теоретических основ обучения моделей с большим числом параметров. Они подтверждают, что не только параметры, но и спектральные свойства моделей играют ключевую роль в генерализации. Это может иметь значительные последствия для разработки более эффективных моделей, которые могут обучаться быстрее и лучше адаптироваться к новым данным. Мои находки также открывают пути для дальнейшего исследования
Annotation:
Deep neural networks often contain far more parameters than training examples, yet they still manage to generalize well in practice. Classical complexity measures such as VC-dimension or PAC-Bayes bounds usually become vacuous in this overparameterized regime, offering little explanation for the empirical success of models like Transformers. In this work, I explore an alternative notion of capacity for attention-based models, based on the effective rank of their attention matrices. The intuition...
ID: 2508.17256v1 cs.LG, cs.AI, stat.ML
Авторы:

Dongseok Kim, Wonjun Jeong, Gisung Oh

## Контекст Область исследования фокусируется на типичных проблемах обучения моделей в условиях ограниченных данных и ресурсов. Существуют ситуации, когда ограниченный объем данных приводит к недообучению модели, что снижает её интерпретируемость и калибровку. Многие методы, направленные на повышение моделирования в таких условиях, либо неэффективны, либо приводят к переобучению. Мотивация для разработки Anti-Regularization (AR) заключается в том, чтобы найти баланс между повышением моделирования и уменьшением разброса модели в условиях недостатка данных. ## Метод Anti-regularization предлагает добавить к функции потерь специальный термин, который корректирует модель, увеличивая её выразительность в условиях недостатка данных. Данная корректировка достигается путём добавления в целевую функцию термина, основанного на знаковым осцилляциях, который стимулирует модель в интервале малого объёма данных. Тем не менее, с ростом размера выборки, этот эффект автоматически приосативается за счёт использования закона воздействия степени, чтобы избежать переобучения. Для обеспечения устойчивости вводится проекционный градиентный метод с клиппингом, который регулирует аномальные значения в модели. Алгоритм построен на теории спектра моделей и базируется на условиях спектральной безопасности и регионах доверия. ## Результаты На основе ряда экспериментов показано, что AR позволяет значительно повысить моделирование в условиях недостатка данных. Модель была протестирована на задачах регрессии и классификации, и результаты показали, что AR существенно сокращает подгонку модели к данным и улучшает калибровку. Данные эксперименты подтвердили, что уменьшение разброса модели в стадии обучения позволяет повысить её качество использования в реальных задачах. Также были проведены анализы абляции, подтвердившие значимость определённых компонент, таких как декремент степени и стабилизатор градиента. ## Значимость AR может быть использован в ограниченных условиях для повышения качества обучения моделей в регрессионных и классификационных задачах. Его применимость продемонстрирована в различных моделях, включая линейные модели и модели с Neural Tangent Kernel (NTK). Основные преимущества AR заключаются в том, что он не только повышает моделирование, но и повышает калибровку модели, уменьшая риск переобучения. Также AR является простым в реализации и может быть интегрирован в существующий эмпирический цикл минимизации риска. ## Выводы AR оказался эффективным в случаях недостатка данных, повышая выразительность моделей и снижая риск недообучения. Будущие исследования будут направлены на расширение AR на более
Annotation:
We propose Anti-regularization (AR), which adds a sign-reversed reward term to the loss to intentionally increase model expressivity in the small-sample regime, and then attenuates this intervention with a power-law decay as the sample size grows. We formalize spectral safety and trust-region conditions, and design a lightweight stability safeguard that combines a projection operator with gradient clipping, ensuring stable intervention under stated assumptions. Our analysis spans linear smoother...
ID: 2508.17412v1 cs.LG, cs.AI, stat.ML
Авторы:

Jerry Yao-Chieh Hu, Hude Liu, Jennifer Yuntong Zhang, Han Liu

#### Контекст В последние годы трансформеры стали одним из ключевых инструментов в области обработки естественного языка и других задач машинного обучения. Одним из самых захватывающих аспектов их работы является возможность "вывода по контексту" (in-context learning). Это позволяет трансформерам выполнять задачи, вроде регрессии или вычисления, не прибегая к обучению на новых данных, а просто подстраивая входные данные (промпты). Однако существует небольшая проблема: не всегда понятно, насколько эффективны трансформеры в эмуляции сложных алгоритмов, и возможно ли использовать их как универсальные "программы" без изменения весов. Этот вопрос лежит в основе нашего исследования. #### Метод Мы исследовали минимальную архитектуру трансформера, ограниченную двумя слоями с пулингом и фиксированными весами. Этот минимальный трансформер способен эмулировать широкий класс алгоритмов, включая градиентный спуск и линейную регрессию, с помощью специально сконструированных промптов. Эти промпты являются набором токенов, которые интерпретируются трансформером в виде алгоритмических данных или параметров. Мы доказали, что можно построить промпт, который приведет к точной эмуляции алгоритма с любым уровнем точности, используя только две слои с пулингом и последовательное применение трансформаций. Таким образом, мы установили, что трансформеры могут выполнять алгоритмы с фиксированными весами без изменения внутреннего состояния. #### Результаты Мы провели эксперименты для нескольких алгоритмов, таких как градиентный спуск, линейная регрессия и другие. Наши результаты показали, что трансформер с фиксированными весами может эффективно эмулировать эти алгоритмы с помощью промптов. Мы также изучили точность результатов и обнаружили, что они соответствуют запрошенной точности. Этот подход позволяет трансформерам заменять сложные модели на простую архитектуру с постоянным весом, что значительно упрощает их использование в задачах программирования алгоритмов. #### Значимость Наши результаты имеют значительное значение для области обучения без потери весов (weight-agnostic learning). Мы продемонстрировали, что трансформеры могут эмулировать алгоритмы таких областей, как машинное обучение, вычисления и даже численные решения уравнений. Это делает их универсальными инструментами для решения различных задач, не требуя постоянного обучения. Этот подход также может быть применен в ситуациях, когда необходимо быстро программировать алгоритмы во время выполнения, без дополнительных обучающих э
Annotation:
We prove that a minimal Transformer architecture with frozen weights is capable of emulating a broad class of algorithms by in-context prompting. In particular, for any algorithm implementable by a fixed-weight attention head (e.g. one-step gradient descent or linear/ridge regression), there exists a prompt that drives a two-layer softmax attention module to reproduce the algorithm's output with arbitrary precision. This guarantee extends even to a single-head attention layer (using longer promp...
ID: 2508.17550v1 cs.LG, cs.AI, stat.ML
Показано 81 - 90 из 102 записей