📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Laura Lützow, Michael Eichelbeck, Mykel J. Kochenderfer, Matthias Althoff
## Контекст
Современных методов нейронных сетей для решения задач регрессии и классификации развиваются быстро, но лишь немногие из них могут точно оценивать неопределенность в оценках. Отсутствие надежных методов для оценки неопределенности в регрессии и классификации ограничивает применение нейронных сетей в решении реальных проблем, где точная оценка неопределенности критична. Большинство методов неопределенности требуют затратных вычислений и потребляют большие объемы данных, что делает их неэффективными для применения в реальном времени. Данная работа раскрывает потенциал нового подхода, "зоно-совместимая прогнозировательность" (zano-conformal prediction), который может уменьшить вычислительные затраты и улучшить точность оценки неопределенности в задачах регрессии и классификации.
## Метод
Зоно-совместимая прогнозировательность основывается на зонотепической модели, которая является расширением интервальных моделей прогнозов. Данная методология предлагает более эффективный способ определения неопределенности в задачах регрессии и классификации, используя зонотепические неопределенности вместо интервальных. Метод использует зонотепические модели для построения зон, которые представляют неопределенность для каждого выхода модели. Эти зоны построены на основе необходимых линейных ограничений и могут использоваться для вычисления прогнозов с ограниченной неопределенностью. Основной инновацией является то, что модель не требует затратных вычислений и поддерживает широкий класс базовых моделей, в том числе нейронные сети.
## Результаты
В ходе экспериментов был продемонстрирован преимущество зоно-совместимой прогнозировательности по сравнению с интервальными моделями неопределенности. Метод был применен к различным задачам регрессии и классификации, включая задачи с многомерными выходами. Оценки неопределенности, полученные с помощью зоно-совместимого прогнозирования, были менее консервативными по сравнению с интервальными моделями, но при этом показали точность и эффективность за счет того, что оценки неопределенности были более точными и тесно привязаны к фактическим данным. Для классификации было показано, что прогнозы зоно-совместимой модели могут лучше захватывать неопределенность в задачах, где необходимо прогнозировать не только один выход, но и множество возможных классов с уверенностью.
## Значимость
Зоно-совместимая прогнозировательность может быть применена в многих областях, где необходимо оценивать неопределенность, включая робототехнику, машинное обучение для критических задач, а также области, где неопределенность может повлиять на безопасность и надежность решений
Annotation:
Conformal prediction is a popular uncertainty quantification method that
augments a base predictor with prediction sets with statistically valid
coverage guarantees. However, current methods are often computationally
expensive and data-intensive, as they require constructing an uncertainty model
before calibration. Moreover, existing approaches typically represent the
prediction sets with intervals, which limits their ability to capture
dependencies in multi-dimensional outputs. We address these...
📄 Learning with Confidence
2025-08-19Авторы:
Oliver Ethan Richardson
## Контекст
Область исследования связана с теорией обучения и моделирования учения в системах автоматической обработки информации. Обучение в этих системах подразумевает изменение белемерных систем в ответ на информационные входы. Одной из ключевых проблем является определение уровня доверия к полученной информации и ее влиянию на изменение белемерного состояния. Это определяет мотивацию для разработки методов, которые могут эффективно описывать и оценивать уровень доверия, чтобы улучшить процесс обучения и понимания влияния информации на результаты.
## Метод
Методология основывается на аксиоматической определении понятия "учения с уверенностью" (learning with confidence). Данное понятие описывается как мера доверия к входной информации и ее воздействию на модель учения. Для измерения уверенности разработаны два продолжительностных подхода: первый основан на векторных полях, второй — на оценках потерь. Оба подхода базируются на формальных моделях, разрешающих представление уверенности в универсальной форме. Далее, для эффективного обучения рассмотрены технологии, которые позволяют объединить несколько входных данных в единую структуру, называемую "параллельными наблюдениями".
## Результаты
Исследование проводилось на основе моделирования и экспериментов с различными техническими решениями. Были рассмотрены данные, для которых определялись различные уровни доверия. Результаты показали, что концепция уверенности позволяет улучшить точность и эффективность процесса обучения. Эксперименты проводились с разными наборами данных, в том числе с искусственными и реальными. Эти результаты подтвердили, что представление уверенности в универсальной форме позволяет лучше понять и контролировать процесс обучения.
## Значимость
Полученные результаты имеют широкие приложения в области машинного обучения, статистической обработки данных и автоматической обработки естественного языка. Одним из основных преимуществ является улучшение моделей обучения, учитывающих доверительные оценки. Благодаря этому, модели становятся более точными и устойчивыми к шуму в данных. Это может привести к повышению качества решений в сложных ситуациях, где информация имеет различные степени достоверности. Также, полученные методы могут быть использованы в автоматической обработке естественного языка для повышения точности распознавания и анализа текста.
## Выводы
Основными достижениями являются формальное определение понятия уверенности в процессе обучения и разработка универсальных методов ее измерения. Эти методы позволяют лучше понимать и оценивать влияние информации на модель обучения. Будущи
Annotation:
We characterize a notion of confidence that arises in learning or updating
beliefs: the amount of trust one has in incoming information and its impact on
the belief state. This learner's confidence can be used alongside (and is
easily mistaken for) probability or likelihood, but it is fundamentally a
different concept -- one that captures many familiar concepts in the
literature, including learning rates and number of training epochs, Shafer's
weight of evidence, and Kalman gain. We formally axi...
📄 Compressive Meta-Learning
2025-08-19Авторы:
Daniel Mas Montserrat, David Bonet, Maria Perera, Xavier Giró-i-Nieto, Alexander G. Ioannidis
#### Контекст
В последние годы размеры данных, собираемых в различных областях, стремительно растут. Это привело к появлению новых вызовов в области машинного обучения, таких как необходимость в быстрых и эффективных методах обучения моделей. Классические подходы часто становятся неэффективными при работе с большими количествами данных. Одним из таких подходов является **Compressive Learning**, который предлагает уменьшить размер данных с помощью нелинейных, случайных признаков, создавая компактные, информационно полные представления. Эти представления могут быть легко хранены, передаваемы, обрабатываемы и использованы для дальнейшего обучения моделей. Однако, существующие подходы к компрессивному обучению часто ограничиваются случайными и датасет-независимыми методами, не учитывая структуру данных. В данной работе мы предлагаем **Compressive Meta-Learning**, который мета-обучает оба этапа — кодирования и декодирования — с использованием нейронных сетей, повышая производительность и точность систем.
#### Метод
**Compressive Meta-Learning** — это новый подход к обучению, который объединяет нейронные сети с фреймворком компрессивного обучения. Мы предлагаем мета-обучение, которое настраивает нейронные сети для эффективного кодирования и декодирования данных. Наша архитектура включает следующие этапы:
1. **Кодирование** — проекция больших наборов данных на компактные представления с помощью нейронных сетей, которые учитывают структуру данных.
2. **Декодирование** — восстановление интересующих параметров из этих представлений без необходимости хранить или обрабатывать оригинальные данные.
3. **Мета-обучение** — оптимизация параметров нейронных сетей таким образом, чтобы они могли эффективно работать с различными данными и задачами.
Мы используем продвинутые техники оптимизации и адаптивные функции потерь для обеспечения быстрого и точного обучения.
#### Результаты
Мы проводили эксперименты с несколькими задачами, включая **Compressive PCA**, **Compressive Ridge Regression**, **Compressive k-means** и **Autoencoders**. Использовались различные данные для оценки точности и эффективности нашего подхода. **Результаты** показывают, что **Compressive Meta-Learning** превосходит существующие методы по скорости и точности обучения. Например, в задаче **Compressive PCA** наши методы обеспечивали быстрее обработку и высокую точность восстановления. Также, мы проводили эксперименты на реальных данных, подтвердив высокую эффективность наших подходов в реальных приложениях.
#### Значимость
**Compressive Meta-Learning** имеет широкие области применения. Он может быть использован в таких задачах, как **кластеризация**, **регрессия**, **разложение в главные компоненты** и **автокодировани
Annotation:
The rapid expansion in the size of new datasets has created a need for fast
and efficient parameter-learning techniques. Compressive learning is a
framework that enables efficient processing by using random, non-linear
features to project large-scale databases onto compact, information-preserving
representations whose dimensionality is independent of the number of samples
and can be easily stored, transferred, and processed. These database-level
summaries are then used to decode parameters of in...
📄 Quantization through Piecewise-Affine Regularization: Optimization and Statistical Guarantees
2025-08-19Авторы:
Jianhao Ma, Lin Xiao
## Контекст
Работа рассматривает задачу оптимизации задач классификации и регрессии, где принятие решений происходит в рамках квантованных или дискретных пространств. Такие задачи характеризуются высокой сложностью из-за ограниченности пространства решений и нетривиальной структуры оптимальных решений. Одним из подходов, позволяющим упростить решение таких задач, является использование **piecewise-affine regularization** (PAR), который предлагает моделировать квантование через линейные и аффинные преобразования. Авторы фокусируются на супервайзед-learning и исследуют теоретические основы PAR с точки зрения оптимизации и статистики.
## Метод
Прототип метода PAR основывается на введении дополнительных регуляризационных термсов в функционал потерь, которые заставляют решение принимать дискретные значения. Авторы разрабатывают методы решения этого класса задач, включая проксимальные методы, адаптированные для PAR, и метод Альтернативных Направлений Множителей. Эти методы позволяют эффективно решать задачи, где входные данные и параметры модели имеют значительные размеры.
## Результаты
Авторы проверяют свою теорию на задачах регрессии и классификации, в том числе в среде глубоких нейронных сетей. Изучая теоретические свойства решений, они доказывают, что надпараметрические модели, обученные с использованием PAR, обладают высоким уровнем дискретизации, что позволяет имитировать классические квантованные регуляризации (например, $\ell_1$-регуляризация и нелинейные модели). Эксперименты показывают высокую эффективность и скорость сходимости прототипа регуляризации в сравнении с другими методами.
## Значимость
Предложенный подход имеет широкое применение в обучении моделей, где требуется уменьшить размер параметров без существенного потери точности. Например, в случае обучения нейронных сетей, PAR позволяет сократить размер модели, уменьшить потребление памяти и ускорить расчеты. Кроме того, PAR может использоваться в задачах, где требуется обеспечить высокую скорость работы модели в реальном времени.
## Выводы
Работа устанавливает теоретические гарантии и практическую эффективность PAR в решении квантованных задач. Она демонстрирует перспективу использования PAR в супервайзед-learning и связанных областях, таких как глубокое обучение и машинное обучение с ограниченными ресурсами. Будущие исследования могут фокусироваться на расширении теории к более сложным моделям и задачам, а также на экспериментальных исследованиях в реальных сценариях применения.
Annotation:
Optimization problems over discrete or quantized variables are very
challenging in general due to the combinatorial nature of their search space.
Piecewise-affine regularization (PAR) provides a flexible modeling and
computational framework for quantization based on continuous optimization. In
this work, we focus on the setting of supervised learning and investigate the
theoretical foundations of PAR from optimization and statistical perspectives.
First, we show that in the overparameterized reg...
📄 A Semi-supervised Generative Model for Incomplete Multi-view Data Integration with Missing Labels
2025-08-19Авторы:
Yiyang Shen, Weiran Wang
## Контекст
Multi-view learning широко применяется в различных областях, таких как медицина, биология и обработка изображений. Однако данные в таких ситуациях часто имеют недостатки: отсутствуют некоторые представления (views) и метоки (labels). Эти проблемы существенно снижают качество решений, особенно в случае использования простых моделей, которым не удается эффективно обработать такие множественные несовершенства. Например, в биологии, в задачах интеграции многообразий генов и белков, отсутствие одного представления может существенно повлиять на точность интерпретации данных. Наша мотивация заключается в разработке модели, которая будет эффективно работать в условиях отсутствия части данных, объединяя методики машинного обучения и генеративных моделей.
## Метод
Мы предлагаем semi-supervised generative model, которая использует как метоки, так и неотмеченные данные для обучения. Модель на основе information bottleneck (IB) principle имеет два ключевых компонента: (1) уменьшение размерности данных в неизвестном пространстве через информационный бутлет (information bottleneck) для того, чтобы выделить ключевые характеристики, и (2) максимизация кросс-представления мультипликативной информации (cross-view mutual information) для повышения доверия к выделенным признакам в пространстве. Мы используем подход "продукт экспертов" для внедрения в модель неотмеченных данных, чтобы улучшить общую точность. Наша модель работает во взаимосвязанном пространстве, где каждое представление интегрируется с другими для повышения общей точности и устойчивости.
## Результаты
Для проверки эффективности нашей модели, мы провели эксперименты на трех различных датасетах: двух multi-omics датасетах (для задач интеграции данных биологии) и одном изображений (для задач классификации). Мы сравнивали нашу модель с несколькими современными представителями, включая методы, основанные на IB-фреймворке. Результаты показали, что наша модель показывает лучшую точность и восстановление отсутствующих данных (imputation), особенно когда данные имеют недостатки в виде отсутствующих представлений или меток. Например, на датасете биологических данных, наша модель повысила точность классификации на 15% по сравнению с базовыми методами.
## Значимость
Наша модель имеет широкие возможности применения в различных областях, где отсутствуют данные, включая биологию, медицину, и обработку изображений. Основные преимущества заключаются в том, что модель может эффективно интегрировать неполные данные, повышая качество решений. Это может привести к новым перспективам в задачах, где данные часто неполны или отсутствуют, таких как в диагностике заболеваний с помощью мульти-о
Annotation:
Multi-view learning is widely applied to real-life datasets, such as multiple
omics biological data, but it often suffers from both missing views and missing
labels. Prior probabilistic approaches addressed the missing view problem by
using a product-of-experts scheme to aggregate representations from present
views and achieved superior performance over deterministic classifiers, using
the information bottleneck (IB) principle. However, the IB framework is
inherently fully supervised and cannot ...
Авторы:
Feng-ao Wang, Shaobo Chen, Yao Xuan, Junwei Liu, Qi Gao, Hongdong Zhu, Junjie Hou, Lixin Yuan, Jinyu Cheng, Chenxin Yi, Hai Wei, Yin Ma, Tao Xu, Kai Wen, Yixue Li
## Контекст
В области проблем, связанных с обработкой больших объемов данных и их анализа, возникает необходимость в моделях, которые могут эффективно обрабатывать и анализировать такие данные. Одним из ключевых проблемах является ограниченная способность традиционных моделей, основанных на гауссовых предположениях, понять и предсказать сложные структуры данных, особенно в области биологии и других научных сфер. Это приводит к необходимости использовать более сложные модели, которые могут лучше представлять данные и позволяют выполнять более точные исследования. Это увеличивает требования к мощности вычислений и требует эффективного способа обработки и анализа таких данных.
## Метод
В данной работе предлагается использовать гибридную модель, объединяющую квантовый принцип с традиционной архитектурой глубокого обучения. Базовым методом является Quantum Boltzmann Machine-Variational Autoencoder (QBM-VAE), который состоит из квантового процессора для эффективного сэмплирования из Больцмановского распределения и вариационного автокодировщика (VAE) для построения модели. Эта модель использует гибридную архитектуру, где квантовый процессор предоставляет более точное сэмплирование, а классическая архитектура VAE обеспечивает адекватную интерпретацию данных. Данная методология позволяет получить более высокую точность при обработке больших научных данных, включая микроскопические данные и данные биологической природы.
## Результаты
В ходе экспериментов были получены результаты, показывающие высокую эффективность QBM-VAE в обработке микроскопических данных и их интеграции. На примере миллионных данных с использованием квантового сэмплирования и VAE было доказано, что модель превосходит традиционные методы в задачах, таких как классификация клетки, синтез данных и интерпретация биологических траекторий. Эти результаты подтверждают, что Quantum Boltzmann Machine-Variational Autoencoder может преодолеть ограничения традиционных глубоких моделей, предоставляя более точные и научно значимые результаты.
## Значимость
QBM-VAE оказался эффективным в области биологических исследований, где необходимо анализировать данные, содержащие сложные структуры. Он может использоваться в различных приложениях, включая классификацию клеток, интеграцию генома и траектории в клетках. Эта модель предоставляет новый подход к обработке научных данных и может помочь в развитии новых научных открытий. Благодаря использованию квантовых принципов, модель обеспечивает новый уровень точности и эффективности в обработке больших научных данных.
## Выводы
В результате данных ис
Annotation:
A fundamental limitation of probabilistic deep learning is its predominant
reliance on Gaussian priors. This simplistic assumption prevents models from
accurately capturing the complex, non-Gaussian landscapes of natural data,
particularly in demanding domains like complex biological data, severely
hindering the fidelity of the model for scientific discovery. The
physically-grounded Boltzmann distribution offers a more expressive
alternative, but it is computationally intractable on classical co...
Авторы:
Atticus Geiger, Jacqueline Harding, Thomas Icard
## Контекст
Область исследования связана с теорией рационального функционирования искусственных систем, в частности, с использованием методов искусственных нейронных сетей в решении задач обучения и анализа данных. Одна из основных проблем в этой области заключается в том, что традиционные подходы к объяснению работы систем недостаточно эффективны при работе с высокоразмерными данными и сложными моделями. Мотивация заключается в развитии новых методов объяснения, которые позволят более глубоко и точно понять, как системы определяют свои решения и что именно они выводят из данных.
## Метод
Статья предлагает использовать теорию казуальных абстракций, которая позволяет глубже понять связи между представлениями внутри системы и механизмами, которые они используют для решения задач. Авторы используют методы теории связи причин и эффектов для построения моделей, позволяющих анализировать системы с точки зрения их вычислительной мощи и роли представлений. Основная техническая архитектура — использование моделей, основанных на принципах глубокого обучения с точки зрения организации связи между высокоуровневыми представлениями и их фактическим участием в выполнении задач.
## Результаты
В работе представлены результаты экспериментов с нейронными сетями, показывающие, что применение теории казуальных абстракций позволяет более эффективно рассматривать системы с точки зрения их теоретической модели. Авторы также проанализировали различные данные, включая обучающие и тестовые данные, для оценки того, насколько модели могут учитывать представления и их влияние на решения. Результаты показали, что модели, основанные на теории казуальных абстракций, могут обеспечить более точные и глубокие объяснения работы систем.
## Значимость
Применение теории казуальных абстракций может сыграть ключевую роль в области глубокого обучения, позволяя не только улучшить точность решений, но и обеспечить более естественное и понятное объяснение решений моделей. Это важно для развития новых подходов в области технологий искусственного интеллекта, где необходимо не только прогнозировать результаты, но и объяснять, каким образом эти результаты были получены. Это может положительно сказаться на развитии новых задач анализа данных, где разъяснение решений играет ключевую роль.
## Выводы
Модели, основанные на теории казуальных абстракций, демонстрируют более глубокую и точную работу в области вычислительной моделирования. Авторы подчеркивают, что будущие исследования должны быть направлены на углубление понимания связи между представлениями и их вычислительной активностью в различных
Annotation:
Explanations of cognitive behavior often appeal to computations over
representations. What does it take for a system to implement a given
computation over suitable representational vehicles within that system? We
argue that the language of causality -- and specifically the theory of causal
abstraction -- provides a fruitful lens on this topic. Drawing on current
discussions in deep learning with artificial neural networks, we illustrate how
classical themes in the philosophy of computation and c...
Авторы:
Asela Hevapathige, Asiri Wijesinghe, Ahad N. Zehmakan
#### Контекст
Графовые нейронные сети (GNN) широко используются для анализа структурных данных, таких как социальные, биологические и физические системы. Одним из ключевых подходов является физическая модель диффузии, которая опирается на понятия физической диффузии, чтобы обеспечить эффективное перенос сообщений по графу. Однако существующие методы сталкиваются с тремя основными ограничениями. Во-первых, они ограничиваются гомогенной диффузией с статическими динамическими моделями, что снижает их универсальность при работе с различными типами графов. Во-вторых, глубина диффузии ограничивается высоким расходом вычислительных ресурсов и уменьшением интерпретируемости результатов. В-третьих, теоретические исследования поведения диффузии в таких сетях еще не являются полными. Данная работа адресована этим проблемам, предлагая универсальный подход, который моделирует более точно взаимодействия в графах.
#### Метод
Мы предлагаем **GODNF** (Generalized Opinion Dynamics Neural Framework), который совершенствует технологию диффузии в GNN. Наш подход является обобщением моделей опинационной динамики, которые представляют собой математические модели взаимодействия в некоторой системе. В GODNF включены динамические модели распространения информации с учетом характеристик ребер и узлов графа. Мы вводим **node-specific behavior modeling** для адаптивной моделирования поведения узлов, а также **dynamic neighborhood influence** для учета многоуровневого влияния соседей. Это позволяет GODNF эффективно работать в глубинных слоях сети, сохраняя интерпретируемость и эффективность. Мы также предлагаем теоретический анализ, доказывающий способность GODNF моделировать различные типы конфигураций диффузии.
#### Результаты
Мы проводим эксперименты на нескольких датасетах, сравнивая GODNF с современными GNN. В задаче классификации узлов и оценки влияния узлов в графе GODNF показывает значительное превосходство по таким показателям, как точность, F1-мера и скорость обучения. Мы также проводим анализ времени выполнения и сходимости, продемонстрирув, что GODNF эффективен даже в глубоких слоях, где многие другие GNN выходят за пределы ресурсов. Данные результаты подтверждают модельную способность GODNF моделировать различные сложные типы диффузии на графах.
#### Значимость
GODNF открывает новые возможности для анализа данных в графах, которые подвержены динамическим изменениям. Он может применяться в областях, таких как социальные сети, биологический анализ, финансы и сетевые централизованные системы. Его главные преимущества заклю
Annotation:
There has been a growing interest in developing diffusion-based Graph Neural
Networks (GNNs), building on the connections between message passing mechanisms
in GNNs and physical diffusion processes. However, existing methods suffer from
three critical limitations: (1) they rely on homogeneous diffusion with static
dynamics, limiting adaptability to diverse graph structures; (2) their depth is
constrained by computational overhead and diminishing interpretability; and (3)
theoretical understandin...
Авторы:
Prathamesh Devadiga, Yashmitha Shailesh
## Контекст
В финансовой торговле, особенно при работе на рынке криптовалют, требуется высокая адаптивность и точность моделей для принятия решений. Традиционные статические нейросетевые модели часто борются с этим, так как они не учитывают изменчивость рынка, называемую "рыночными режимами". Рыночные режимы — это определенные условия, в которых цены на активы склонны к отрезковой, трендовой или диапазонной динамике. Эта нестабильность приводит к ошибкам в прогнозировании и подрыву доверия к моделям. Необходимость учитывать эти режимы в моделировании послужила мотивацией для разработки **RegimeNAS** — разработки фреймворка, предназначенного для решения этой проблемы в контексте криптовалютного рынка.
## Метод
**RegimeNAS** — это развитие различных архитектур различных дифференцируемых поисковых процедур, ориентированных на адаптивность. Фреймворк использует три основных инновации:
1. **Теоретическая основа поиска пространства архитектур**: Регуляризация и оптимизация через гауссовский процесс, чтобы обеспечить лучший поиск решений.
2. **Режимно-ориентированные модули**: Динамически адаптирующиеся блоки, такие как "Range", "Trend" и "Volatility", которые активируются в зависимости от текущего рыночного режима.
3. **Многоцелевое функциональное определение потерь**: Оно включает в себя пенальти для исключения ложных сигналов, простой транзакции и сглаживания переходов между режимами.
Также используется многоглавая аутентификация в разных временных интервалах, чтобы улучшить точность и учесть неопределенность.
## Результаты
Результаты показывают, что RegimeNAS эффективно улучшает прогнозирование торгов. Он снижает **Mean Absolute Error (MAE)** на 80,3% по сравнению с лучшими рекуррентными моделями. Быстрота сходимости также выше — 9 эпох, вместо 50+ при стандартных моделях. Эксперименты проводились на реальных данных криптовалют, и анализ абляции показал, что каждый компонент (в том числе режимно-ориентированные модули) вносит свой вклад в полученные результаты.
## Значимость
RegimeNAS может быть применен в различных финансовых приложениях, включая торговлю криптовалютами, акциями и форексом. Он предоставляет следующие преимущества:
- Улучшенная точность прогнозирования.
- Адаптивность к изменениям рынка.
- Быстрая сходимость и надежность.
Результаты имеют потенциал для значительного улучшения доходности и уменьшения рисков в торговле.
## Выводы
Результаты RegimeNAS показали, что внедрение рыночных режимов в процесс поиска архитектуры может значительно улучшить модели для финансовых задач. Будущие исследования будут
Annotation:
We introduce RegimeNAS, a novel differentiable architecture search framework
specifically designed to enhance cryptocurrency trading performance by
explicitly integrating market regime awareness. Addressing the limitations of
static deep learning models in highly dynamic financial environments, RegimeNAS
features three core innovations: (1) a theoretically grounded Bayesian search
space optimizing architectures with provable convergence properties; (2)
specialized, dynamically activated neural m...
Авторы:
Xiaohan Bi, Binhang Qi, Hailong Sun, Xiang Gao, Yue Yu, Xiaojun Liang
## Контекст
С Deep Neural Networks (DNN) вошедшими в большинство современных систем, их создание становится все дороже. Одним из решений является модельное модулирование, позволяющее переиспытывать модули DNN, тогда как интерпретация всей модели может быть дорогостоящей. Направление "модулирование во время тренировки" (MwT) позволяет упростить модели, но существующие методы ограничены малыми CNN-моделями и не справляются с трансформерами и большими сетями. Наша работа — NeMo — предлагает новый подход с модулированием по уровню нейрона, обеспечивая широкую применимость.
## Метод
NeMo работает на уровне нейрона, центральном для всех DNN. Мы предлагаем относительно-сравнительное обучение для модулей, строимых во время тренировки. Наша стратегия основывается на композитном функционале ошибки, который подстраивается под различные DNN-архитектуры. Чтобы обеспечить масштабируемость, мы использовали адаптивные методы уменьшения размера модулей. Это позволяет NeMo легко применяться к CNN-моделям и большим Transformer-моделям. Модель архитектурно гибкая и эффективна в обработке различных данных.
## Результаты
Мы провели ряд экспериментов на двух Transformer-моделях и четырёх CNN-моделях, использовав два датасета классификации. Наши результаты показали, что NeMo улучшает точность модуляции на среднем 1.72% и снижает размер модулей на среднем 58.10% по сравнению с состоянием технологии. Это продемонстрировано как на CNN, так и на трансформерах. Также мы провели случайную стадию в реальных проектах, показав, что NeMo может быть применен для усовершенствования модулирования в задачах машинного обучения.
## Значимость
NeMo может применяться в различных областях, где требуется эффективное моделирование, например, в больших моделях текста, обработке изображений и других. Он позволяет экономить ресурсы на тренировке и интерпретации, повышая масштабируемость и общую эффективность. Этот подход может стать ключевым для будущих исследований в области моделей DNN.
## Выводы
Мы представили NeMo, новый подход к моделированию DNN на уровне нейрона. Наши эксперименты показали его превосходство по сравнению с другими методами, особенно на больших трансформерах. В будущем мы планируем расширить модель, чтобы она могла применяться к другим типам моделей и задачам. NeMo может стать ключевым шагом в глубоком обучении.
Annotation:
With the growing incorporation of deep neural network (DNN) models into
modern software systems, the prohibitive construction costs have become a
significant challenge. Model reuse has been widely applied to reduce training
costs, but indiscriminately reusing entire models may incur significant
inference overhead. Consequently, DNN modularization has gained attention,
enabling module reuse by decomposing DNN models. The emerging
modularizing-while-training (MwT) paradigm, which incorporates modu...
Показано 2631 -
2640
из 2901 записей