📚 Саммари научных статей из arXiv

Найдено 20 результатов по запросу 'cs.LG, cs.AI, cs.IT' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Semantic Channel Equalization Strategies for Deep Joint Source-Channel Coding

2025-10-08

Авторы:

Lorenzo Pannacci, Simone Fiorellino, Mario Edoardo Pandolfo, Emilio Calvanese Strinati, Paolo Di Lorenzo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Deep joint source-channel coding (DeepJSCC) has emerged as a powerful paradigm for end-to-end semantic communications, jointly learning to compress and protect task-relevant features over noisy channels. However, existing DeepJSCC schemes assume a shared latent space at transmitter (TX) and receiver (RX) - an assumption that fails in multi-vendor deployments where encoders and decoders cannot be co-trained. This mismatch introduces "semantic noise", degrading reconstruction quality and downstrea...

ID: 2510.04674v1 cs.LG, cs.AI, cs.IT, cs.NI, math.IT

arXiv PDF

📄 Calibration Meets Reality: Making Machine Learning Predictions Trustworthy

2025-10-01

Авторы:

Kristina P. Sinaga, Arjun S. Nair

## Контекст Post-hoc калибровка является важной методикой для улучшения доверительности прогнозов моделей машинного обучения. Она применяется для преобразования некорректных прогнозов модели в корректные вероятности. Несмотря на широкое распространение таких методов, их теоретическое понимание остается неполным, особенно при работе со сложными данными и архитектурами моделей. Одной из ключевых проблем является влияние качества признаков на калибровку. Ранее недостаточно уделялось внимания взаимосвязи между качеством признаков и калибровочными методами. В настоящей работе мы предлагаем глубокий анализ пост-хок калибровочных методов, включая Platt scaling и isotonic regression. ## Метод Мы используем теоретический подход для анализа воздействия качества признаков на работу методов калибровки. Основные технические решения заключаются в формализации метрик калибровки и их связи с информативностью признаков. Мы разрабатываем алгоритмы для синтетических и реальных данных, которые позволяют изучить работу калибровки в условиях различного качества данных. Экспериментом становится измерение калибровочных массивов для различных уровней информативности признаков. ## Результаты Мы проводим эксперименты на синтетических и реальных данных. На синтетических данных показывается, что информативность признаков сильно влияет на калибровочный результат. Если использовать только информативные признаки, то калибровочные методы показывают более высокую точность и доверительность. На реальных данных, включающих шумные признаки, мы отмечаем снижение калибровочной достоверности, однако методы isotonic regression и Platt scaling по-прежнему показывают лучшую устойчивость по сравнению с некалиброванной моделью. ## Значимость Наши результаты имеют большое значение для практического применения калибровочных методов в различных областях, таких как здравоохранение, финансы и технологии. Мы демонстрируем, что навык калибровки может быть особенно важен в ситуациях с недостаточной информативностью признаков. Также мы показываем, что isotonic regression и Platt scaling могут быть оптимизированы для работы в условиях высокого шума в признаках. Эти полученные результаты могут помочь в выборе подхода к калибровке в зависимости от задачи и конкретных данных. ## Выводы Мы демонстрируем, что качество признаков является ключевым фактором для успешной калибровки моделей машинного обучения. Наши результаты подчеркивают важность использования только информативных признаков и показывают, что isotonic regression и Platt scaling могут быть оптимальными в условиях высокой информативности. Будущие исследования будут сфокусированы на развитии более гибких и устойчивых методов кали

Annotation:

Post-hoc calibration methods are widely used to improve the reliability of probabilistic predictions from machine learning models. Despite their prevalence, a comprehensive theoretical understanding of these methods remains elusive, particularly regarding their performance across different datasets and model architectures. Input features play a crucial role in shaping model predictions and, consequently, their calibration. However, the interplay between feature quality and calibration performanc...

ID: 2509.23665v1 cs.LG, cs.AI, cs.IT, math.IT, math.PR

arXiv PDF

📄 The Alignment Bottleneck

2025-09-23

Авторы:

Wenjun Cao

## Контекст Современные большие языковые модели (БЯМ) показывают значительный прогресс в обработке естественного языка, однако столкнулись с проблемами в достижении полного соответствия заданным поведенческим целям. Эти отклонения связаны с ограниченной полнотой сигнала в процессе обучения, ограниченностью ресурсов в системах и особенностями архитектурных решений. Большая часть работ по ориентированию моделей стремится преодолеть эти проблемы, однако нехватка инструментов для точного определения и ограничения поведения моделей не позволяет достичь стабильных результатов. Мотивируясь теорией ограниченной рациональности в экономике и психологии, мы рассматриваем языковую модель как систему, ограниченную в своих вычислительных возможностях. Наша модель определяет взаимосвязь между задачей и конфигурацией модели, подчеркивая трудности в достижении идеального соответствия заданным поведением. Этот подход позволяет увидеть, что проблемы в работе моделей могут быть связаны с ненадежностью взаимодействия между моделью и задачей, а не с недостатком модели. ## Метод Мы предлагаем модель взаимодействия модели с задачей как двухэтапного процесса. В первой стадии модель принимает входные данные (например, запрос) и формирует представление (предсказание). Во второй стадии эти представления используются для формирования ответа. Мы предполагаем, что модель имеет ограниченные ресурсы для обработки данных и требует взаимодействия с окружающим миром, чтобы корректно выполнять задачи. В модели включены различные методы оценки ограничений ресурсов и способов их оптимизации. Мы применяем методы машинного обучения, такие как стохастические градиенты, для оптимизации модели, а также методы теории информации для анализа взаимодействия модели с задачей. Также мы определяем границы системных ресурсов, например, памяти и вычислительных мощностей, чтобы определить допустимые диапазоны работы модели. ## Результаты Мы провели эксперименты, используя различные модели и наборы данных, включая обучение модели на данных языкового моделирования и оценку ее результатов на тестах языкового понимания. Наши результаты показывают, что ограничение ресурсов модели может привести к ошибкам в задачах, требующих высокого уровня точности. Мы также показали, что при достаточном обучении модели на больших данных, ее поведение может стабилизироваться, но при этом могут возникать новые проблемы, такие как сильное уплотнение модели в своих представлениях. Кроме того, мы проверили гипотезу, что модели могут становиться сильно зависимост от определенных регулярностей в данных, что

Annotation:

Large language models improve with scale, yet feedback-based alignment still exhibits systematic deviations from intended behavior. Motivated by bounded rationality in economics and cognitive science, we view judgment as resource-limited and feedback as a constrained channel. On this basis, we model the loop as a two-stage cascade $U \to H \to Y$ given $S$, with cognitive capacity $C_{\text{cog}|S}$ and average total capacity $\bar{C}_{\text{tot}|S}$. Our main result is a capacity-coupled Alignm...

ID: 2509.15932v1 cs.LG, cs.AI, cs.IT, math.IT, stat.ML

arXiv PDF

📄 Beyond Rebalancing: Benchmarking Binary Classifiers Under Class Imbalance Without Rebalancing Techniques

2025-09-11

Авторы:

Ali Nawaz, Amir Ahmad, Shehroz S. Khan

## Контекст Class imbalance является серьезной проблемой в обучении с учителем, особенно в критических областях, таких как медицинская диагностика и обнаружение аномалий. В таких ситуациях меньшинству класса, значится малое количество примеров, что существенно сказывается на качестве классификации. Несмотря на то, что многочисленные исследования сосредоточились на ребалансировочных методах, меньше внимания уделялось изучению поведения бинарных классификаторов в условиях неравновждности классов, когда такие методы не применяются. Цель нашего исследования — оценить поведение бинарных классификаторов "как есть", без применения техник ребалансировки, чтобы определить их настоящую силу и разброс. ## Метод Мы использовали систематический подход для оценки поведения различных бинарных классификаторов в условиях разной степени неравновждности классов. Для этого мы проводили эксперименты на обоих реальных и синтетических данных, включая сценарии одношота и февшота (одно или несколько примеров меньшинству классу). Также мы использовали синтетические данные с различными уровнями сложности делизионных границ, чтобы создать условия, близкие к реальным. Для сравнения мы включили не только традиционные методы классификации, но и технологии уменьшения выборки (undersampling), увеличения выборки (oversampling) и методы одноклассовой классификации (OCC). ## Результаты Наши эксперименты показали, что уменьшение размера меньшинству класса существенно ухудшает качество классификации для большинства традиционных классификаторов. Однако модели с высоким порогом обучения, такие как TabPFN и бустинг-базированные пакеты, оказались более устойчивыми к неравновждности и показали лучшую общую производительность. Объяснение этому можно найти в их более высокой генерализируемости и внедрении внутренних механизмов ребалансировки. Также мы выявили, что сложные данные, такие как те, что имеют сложные границы разделения, проявляются в условиях неравновждности классов еще сильнее. Эти находки подкрепляются исследованиями графических методов и метриками оценки. ## Значимость Наше исследование имеет значительное значение для выбора классификаторов в условиях неравновждности классов. Оно демонстрирует, что некоторые модели могут превосходить другие в трудных условиях без необходимости применения ребалансировочных техник. Это может иметь практическое значение в областях, где создание больших обучающих выборок для меньшинств классов сложно или невозможно. Кроме того, наши результаты могут способствовать развитию новых подходов к обучению с учителем

Annotation:

Class imbalance poses a significant challenge to supervised classification, particularly in critical domains like medical diagnostics and anomaly detection where minority class instances are rare. While numerous studies have explored rebalancing techniques to address this issue, less attention has been given to evaluating the performance of binary classifiers under imbalance when no such techniques are applied. Therefore, the goal of this study is to assess the performance of binary classifiers ...

ID: 2509.07605v1 cs.LG, cs.AI, cs.IT, math.IT

arXiv PDF

📄 Tackling Federated Unlearning as a Parameter Estimation Problem

2025-08-28

Авторы:

Antonio Balordi, Lorenzo Manini, Fabio Stella, Alessio Merlo

## Контекст Современные технологии сталкиваются с вопросами защиты персональных данных и соблюдения законодательства в области конфиденциальности. Например, законы GDPR и CCPA требуют, чтобы организации эффективно удаляли личные данные по запросу пользователей. Эта проблема особенно актуальна в рамках **Federated Learning**, где данные остаются на клиентских устройствах, что создает сложности в полной переобучении моделей. **Federated Unlearning** — это новая область исследований, стремящаяся разработать методы эффективного удаления данных из моделей без полной переустановки. Наша работа ставит задачу оптимизировать процесс удаления данных, снизив потребность в ресурсах и сохранив высокую точность модели. ## Метод Мы предлагаем **метод моделирования удаления данных как задачи оценки параметров**. Наш подход основывается на **теории информации** и использует **второй порядок гессианских информаций** для идентификации параметров, наиболее восприимчивых к удаляемым данным. Это позволяет ограничить актуальность удаления только определенным клиентом или категории данных. Далее, мы применяем **федеративное периодическое обучение** для минимального восстановления модели. Наша техника является **модельно-независимой** и не требует доступа к неагрегированным данным клиентов после инциальной агрегации. Основная идея заключается в том, чтобы эффективно забывать данные, не теряя в качестве модели. ## Результаты Мы проводили эксперименты на нескольких **benchmark-датасетах** (таких как CIFAR-10 и CIFAR-100), использовав **методы машинного обучения**, такие как глубокие нейронные сети. Наши результаты показывают, что: 1. **Удаление данных**: Успешность стороннего теста возврата данных (Membership Inference Attack, MIA) приближается к случайному значению, что указывает на эффективность удаления. 2. **Точность**: Точность модели после удаления данных остается высокой, приблизительно 0,9 в сравнении с переобученной моделью. 3. **Эффективность**: Наш метод экономит до 90% ресурсов по сравнении с полным переобучением. 4. **Безопасность**: Мы проверили нашу технику в условиях **targeted backdoor attack** и продемонстрировали ее эффективность в безопасном восстановлении модели после атаки. ## Значимость Наш подход имеет **широкие области применения**, включая банковское и медицинское приложения, где требуется строгая защита конфиденциальных данных. Он обеспечивает: 1. **Повышение безопасности**: Удаление данных происходит без необходимости доступа к неагрегированным данным клиентов. 2. **Эффективность**: Минимальное время обучения по сравнении с полной переустановкой. 3. **Кросс-прилож

Annotation:

Privacy regulations require the erasure of data from deep learning models. This is a significant challenge that is amplified in Federated Learning, where data remains on clients, making full retraining or coordinated updates often infeasible. This work introduces an efficient Federated Unlearning framework based on information theory, modeling leakage as a parameter estimation problem. Our method uses second-order Hessian information to identify and selectively reset only the parameters most sen...

ID: 2508.19065v1 cs.LG, cs.AI, cs.IT, math.IT

arXiv PDF

📄 Contrastive ECOC: Learning Output Codes for Adversarial Defense

2025-08-16

Авторы:

Che-Yu Chou, Hung-Hsuan Chen

#### Контекст Многоклассовая классификация широко используется в различных областях, включая здравоохранение, обработку естественного языка и анализ изображений. Одним из ключевых аспектов этой задачи является эффективное представление классов. Однотензорное (one-hot) представление широко применяется, но не всегда является оптимальным с точки зрения точности и устойчивости к атакам. Ошибки в кодировании могут привести к понижению качества моделей, особенно в условиях атак типа адверсарь (adversarial). Ошибка в кодировании (ECOC) — это метод для многоклассовой классификации, в котором каждый класс сопоставляется с уникальным кодировочным словом (codeword). Ручное или случайное построение кодировочных словарей требует больших усилий и может привести к суб-оптимальным результатам, не пригодным для адаптации к конкретным данным. Мотивация заключается в автоматизации процесса построения кодировочных словарей через методы машинного обучения, чтобы повысить устойчивость к атакам и улучшить обобщающие способности моделей. #### Метод Методология, предлагаемая в статье, основывается на подходе контрастного обучения (contrastive learning), который адаптирует кодировочные словари к конкретным данным. Авторы предлагают три модели: **Contrastive ECOC**, **Contrastive ECOC with Class-Specific Prototypes** и **Contrastive ECOC with Data Augmentation**. В этих моделях codebook автоматически формируется на основе данных, позволяя приспособиться к характеристикам данных. Архитектура моделей включает нейронные сети, которые обучаются минимизировать контрастные потери (contrastive losses), чтобы обеспечить максимальную различимость между классами. Это позволяет создавать codebooks, которые лучше подстраиваются под конкретную задачу классификации. #### Результаты Авторы проводили эксперименты на четырёх данных: MNIST, Fashion-MNIST, CIFAR-10 и CIFAR-100. Оценивались способности моделей к устойчивости против адверсарских атак, включая FGSM, PGD и CW. Результаты показали, что Contrastive ECOC существенно превосходит две базовые модели: метод максимального выбора (max-margin ECOC) и автоматический ECOC (AutoECOC). Модели Contrastive ECOC показали высокую точность и устойчивость к атакам, что демонстрирует их эффективность в применении к различным задачам и атакам. Эти результаты подтверждают значительный потенциал автоматически избавляющихся от ручного кодирования, что может увеличить эффективность и устойчивость в многоклассовой классификации. #### Значимость Предложенные модели имеют широкое применение в области многоклассовой классификации, в том числе в задачах, требующих высокой устойчивости к атакам, например, в безопасности и защите данных. Эти модели демонстрируют преимущества перед

Annotation:

Although one-hot encoding is commonly used for multiclass classification, it is not always the most effective encoding mechanism. Error Correcting Output Codes (ECOC) address multiclass classification by mapping each class to a unique codeword used as a label. Traditional ECOC methods rely on manually designed or randomly generated codebooks, which are labor-intensive and may yield suboptimal, dataset-agnostic results. This paper introduces three models for automated codebook learning based on c...

ID: 2508.10491v1 cs.LG, cs.AI, cs.IT, math.IT

arXiv PDF

📄 SGD Convergence under Stepsize Shrinkage in Low-Precision Training

2025-08-13

Авторы:

Vincent-Daniel Yun

## Контекст Low-precision training является ключевым подходом для сокращения вычислительных и памятных затрат в обучении больших моделей глубокого обучения. Однако, преобразование градиентов в низкопрецизионном формате приводит к уменьшению их магнитуды и введению аддитивного шума. Эти изменения могут значительно повлиять на сходимость алгоритма стохастического градиентного десцендента (SGD). В данной работе исследуется вопрос сходимости SGD в ситуации, когда градиенты изменяются в зависимости от шага $\mu_k$ и подвергаются шуму в формате quantization. Эта модель позволяет лучше понять, как эти изменения влияют на сходимость градиентного спуска и как ее можно оптимизировать при использовании низкопрецизионных вычислений. ## Метод Мы используем теоретический подход к анализу сходимости SGD, основываясь на модели шага $\mu_k$ и шума quantization. Для этого предполагается, что каждый градиент заменяется на его масштабированную версию с коэффициентом $q_k \in (0,1]$, который отражает преобразование в низкопрецизионном формате. Шум quantization добавляется как нулевое-среднее шум, который моделирует ошибки в преобразовании. Мы анализируем, как эти модификации влияют на соотношение скорости сходимости и погрешности, а также рассматриваем стандартные теоретичные условия, такие как гладкость и ограниченная дисперсия градиентов. Это позволяет понять, какие факторы влияют на уменьшение скорости сходимости и как ее можно контролировать. ## Результаты Мы проводим эксперименты, подтверждающие теоретические выводы, используя различные модели глубокого обучения и наборы данных. Для этого мы измеряем, как изменение шага $\mu_k$ и наличие шума quantization влияют на скорость сходимости и качество результатов. Полученные результаты показывают, что низкопрецизионное обучение все же может сходиться, но с меньшей скоростью в сравнении с полнопрецизионным градиентным спуском. Однако, при этом возрастает асимптотическая погрешность, которая связана с шумом quantization. Эти результаты позволяют понять, как можно компенсировать эти потери, выбирая оптимальные значения $q_k$ и $\mu_k$. ## Значимость Наша работа имеет значительное значение для развития низкопрецизионного обучения, которое широко применяется в практических задачах, таких как обучение моделей на устройствах с ограниченными ресурсами, такими как мобильные устройства и граничные вычисления. Мы показываем, что low-precision SGD можно применять с оптимальными параметрами, чтобы поддерживать высокую скорость обучения и качество решений. Это может привести к значительным экономиям в вычислительных ресурсах для масштабных моделей. Кроме того, наши

Annotation:

Low-precision training has become essential for reducing the computational and memory costs of large-scale deep learning. However, quantization of gradients introduces both magnitude shrinkage and additive noise, which can alter the convergence behavior of stochastic gradient descent (SGD). In this work, we study the convergence of SGD under a gradient shrinkage model, where each stochastic gradient is scaled by a factor $q_k \in (0,1]$ and perturbed by zero-mean quantization noise. We show that...

ID: 2508.07142v1 cs.LG, cs.AI, cs.IT, cs.NA, math.IT, math.NA

arXiv PDF

📄 Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent

2025-08-13

Авторы:

Tong Yang, Yu Huang, Yingbin Liang, Yuejie Chi

## Контекст Статья рассматривает многошаговый символический рассуждений и их реализацию в контексте трансформеров. Она выделяет проблему недостаточного понимания механизмов, позволяющих трансформерам решать такие задачи. Известно, что трансформеры эффективно работают в авторегрессионных моделях, но теоретическая поддержка их успеха в задачах многошагового рассуждения остается недостаточно изучена. Особое внимание уделяется проблемам путеискания в деревьях, в том числе логике решения задач в формате "путь от цели к корню" и "путь от корня к цели". ## Метод Авторы используют многошаговые трансформеры с авторегрессией для решения задач путеискания в деревьях. Основной акцент ставится на двухфазном подходе: вывод пути от цели к корню и его обратное преобразование в путь от корня к цели. Анализ основывается на динамике градиентного оптимизационного процесса. Моделирование проводится в условиях заданного количества слоёв и аттенционных голов. Изучаются взаимодействия между аттенционными головами и их способность решать задачи структурированными подходами. ## Результаты Выполнены эксперименты с различными моделями в задачах путеискания. Для однослойных трансформеров получены теоретические гарантии на успех решения задач символического рассуждения с обучением и общедоступностью решений для неизвестных деревьев. Особое внимание уделено процессу специализации аттенционных голов в различных этапах задачи. Проведены исследования обучения одношаговых и двухшаговых процедур, показавших, что даже глубокие трансформеры могут решать задачи с помощью простых шагов. ## Значимость Результаты статьи имеют значимость для области машинного обучения, а именно для изучения способов решения сложных задач с помощью трансформеров. Они открывают пути для использования многошаговых моделей в задачах автоматического решения задач, включая путеискание в деревьях и поиск алгоритмических решений. Это демонстрирует возможность трансформеров решать задачи, которые традиционно требуют более глубоких архитектур. ## Выводы Основные достижения статьи заключаются в доказательстве возможности решения многошаговых задач символического рассуждения с помощью трансформеров. Доказана специализация аттенционных голов в различных фазах решения задач. Будущие исследования будут сконцентрированы на углублении теоретических анализов и расширении моделей для решения более сложных задач многошагового рассуждения.

Annotation:

Transformers have demonstrated remarkable capabilities in multi-step reasoning tasks. However, understandings of the underlying mechanisms by which they acquire these abilities through training remain limited, particularly from a theoretical standpoint. This work investigates how transformers learn to solve symbolic multi-step reasoning problems through chain-of-thought processes, focusing on path-finding in trees. We analyze two intertwined tasks: a backward reasoning task, where the model outp...

ID: 2508.08222v1 cs.LG, cs.AI, cs.IT, math.IT, math.OC, stat.ML

arXiv PDF

📄 Balancing Information Accuracy and Response Timeliness in Networked LLMs

2025-08-09

Авторы:

Yigit Turkmen, Baturalp Buyukates, Melih Bastopcu

## Контекст Сетьные Large Language Models (LLMs) затрагивают многие области, включая научные исследования, генерацию контента, выделение информации в текстах биомедицины и развитие образовательных технологий. Однако потребность в больших объемах данных, высоких затратах вычислительных ресурсов и энергии ограничивают их практическое применение. Уменьшение размера моделей и их специализация на определенные темы могут повысить эффективность. В этой работе рассматривается сетевая система LLM, включающую пользователей, центральный процессор задач и кластеры специализированных моделей. Участники отправляют вопросы в виде категориальных бинарных запросов, которые обрабатываются и агрегируются для формирования окончательных ответов. Мы изучаем как точность ответов, так и время их получения. ## Метод Мы предлагаем сетевую систему LLM, где пользователи отправляют запросы в виде бинарных вопросов, а задачи распределяются процессором задач между кластерами моделей. Каждая модель в кластере обрабатывает отдельный запрос, а их ответы агрегируются процессором. Мы оптимизируем два метрики: точность ответов и время их получения. Используемые данные включают различные тематические базы, а алгоритмы агрегации ответов производятся с учетом показателей качества отдельных моделей. ## Результаты Используя эксперименты с различными темами и размерами кластеров, мы показали, что агрегированные ответы показывают значительно вышу точность по сравнению с ответами от отдельных моделей. Это особенно видно, когда модели имеют близкий уровень качества отдельного работы. Общий ответ получается более точным, так как отдельные модели компенсируют друг другу слабые места. Время ответа также снижается в силу распараллеливания задач. ## Значимость Наша работа имеет применение в области обработки текстовых данных, в том числе в выделении информации и синтезе текста. Она позволяет улучшить качество ответов, обеспечивая быстрый и точный ответ. Это может иметь значительное влияние в приложениях, где срочность решения задачи является критической. ## Выводы Мы доказали, что сетевая система LLM, объединяющая несколько моделей, позволяет повысить качество ответов, оптимизируя компромисс между точностью и скоростью получения результата. Будущие исследования будут сфокусированы на дальнейшей оптимизации алгоритмов агрегирования и изучении результатов на более больших данных и сложных задачах.

Annotation:

Recent advancements in Large Language Models (LLMs) have transformed many fields including scientific discovery, content generation, biomedical text mining, and educational technology. However, the substantial requirements for training data, computational resources, and energy consumption pose significant challenges for their practical deployment. A promising alternative is to leverage smaller, specialized language models and aggregate their outputs to improve overall response quality. In this w...

ID: 2508.02209v1 cs.LG, cs.AI, cs.IT, cs.NI, math.IT

arXiv PDF

📄 Provable Post-Training Quantization: Theoretical Analysis of OPTQ and Qronos

2025-08-09

Авторы:

Haoyu Zhang, Shihao Zhang, Ian Colbert, Rayan Saab

## КОНТЕКСТ И ПРОБЛЕМАТИКА Квантование после обучения (Post-Training Quantization, PTQ) представляет собой критически важный инструмент для снижения вычислительных и памятных затрат современных глубоких нейронных сетей, особенно крупных языковых моделей (Large Language Models, LLMs). В условиях экспоненциального роста размеров моделей, где параметры измеряются десятками и сотнями миллиардов, необходимость в эффективных методах сжатия без значительной потери качества становится первостепенной задачей. Среди существующих PTQ-алгоритмов фреймворк OPTQ (также известный как GPTQ) занял лидирующее положение благодаря своей вычислительной эффективности и сильной эмпирической производительности. Однако несмотря на широкое распространение OPTQ в практических приложениях, методология страдает от фундаментального недостатка: отсутствия строгих количественных теоретических гарантий. Это создает значительную проблему для практиков и исследователей, поскольку невозможно заранее предсказать, насколько точно квантованная модель будет приближать поведение оригинальной модели. Отсутствие теоретической базы также затрудняет обоснование практических эвристик, таких как порядок обработки признаков или выбор параметров регуляризации, что приводит к необходимости проведения дорогостоящих экспериментов для настройки гиперпараметров. Кроме того, современные PTQ-алгоритмы, включая Qronos - более современный метод, продемонстрировавший улучшенную эмпирическую производительность, также страдают от аналогичного недостатка теоретического обоснования. Это создает пробел между теорией и практикой, препятствуя систематическому улучшению методов квантования и ограничивая возможность их надежного применения в критически важных приложениях, где требуется строгий контроль над точностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют первый в своем роде количественный теоретический анализ OPTQ и связанных методов, предоставляя строгие гарантии ошибок для как детерминированных, так и стохастических вариантов алгоритма. Методология анализа строится на систематическом исследовании того, как итеративная процедура OPTQ накапливает квантовую ошибку на каждом шаге оптимизации. Ключевым элементом предложенного подхода является вывод неасимптотических оценок ошибки в 2-норме, которые явным образом зависят от калибровочных данных и параметра регуляризации, используемого в OPTQ. Это достигается через разложение общей ошибки квантования на отдельные компоненты, каждый из которых анализируется с использованием методов матричного анализа и теории аппроксимации. Особое внимание уделяется анализу эффекта упорядочивания признаков по убывающей норме - эвристики, широко используемой на практике, но до сих пор не имеющей теоретического обоснования. Для стохастического варианта алгоритма авторы устанавливают более сильные границы ошибки в infinity-норме, что позволяет контролировать необходимый алфавит квантования и особенно полезно для последующих слоев и нелинейностей. Анализ включает разработку новых вероятностных инструментов для оценки распределения ошибок квантования в многомерном пространстве, учитывающих корреляционную структуру весов. Расширение анализа на Qronos включает адаптацию разработанной методологии к специфическим особенностям этого алгоритма, включая его подход к обработке групп весов и использованию дополнительных оптимизационных техник. Это позволяет объяснить эмпирические преимущества Qronos через призму теоретических гарантий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть работы фокусируется на эмпирической валидации полученных теоретических границ через систематическое исследование поведения ошибок квантования на различных архитектурах нейронных сетей и наборах данных. Исследование охватывает как классические сверточные сети (ResNet, VGG), так и современные трансформерные модели, включая BERT и GPT-семейство, что обеспечивает комплексное понимание применимости теоретических результатов. Для валидации 2-норм границ используются синтетические и реальные калибровочные наборы данных различного размера, позволяющие исследовать зависимость ошибки квантования от объема калибровочных данных. Результаты дем

Annotation:

Post-training quantization (PTQ) has become a crucial tool for reducing the memory and compute costs of modern deep neural networks, including large language models (LLMs). Among PTQ algorithms, the OPTQ framework-also known as GPTQ-has emerged as a leading method due to its computational efficiency and strong empirical performance. Despite its widespread adoption, however, OPTQ lacks rigorous quantitative theoretical guarantees. This paper presents the first quantitative error bounds for both d...

ID: 2508.04853v1 cs.LG, cs.AI, cs.IT, cs.NA, math.IT, math.NA, 68T07, 68W25, 62M45, 68Q25

arXiv PDF

1
2

Показано 11 - 20 из 20 записей