📊 Статистика дайджестов
Всего дайджестов: 34123 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Wei Herng Choong, Jixing Liu, Ching-Yu Kao, Philip Sperl
## Контекст
Графовые методы машинного обучения применяются в различных областях, включая распознавание сообществ, анализ транзакций и рекомендательные системы. Одной из ключевых задач в этих приложениях является обнаружение аномалий, которые могут указывать на нестандартные или нежелательные шаги в системах. Аномалии на графах часто определяются с помощью изменений в спектре графа. Несмотря на то, что некоторые супервизированные методы показали эффективность в использовании спектральной информации, они сталкиваются с ограничениями, связанными с недостаточным количеством отмеченных данных, которые обычно требуются для обучения. В то же время, несупервизированные методы, которые часто ориентированы только на пространственную информацию или используют низкочастотные фильтры, не могут эффективно выявлять аномалии, требующие многомерного анализа. Этот аспект вдохновил нашу работу, направленную на разработку модели, которая может эффективно обнаруживать аномалии с использованием объемной спектральной информации без необходимости больших объемов отмеченных данных.
## Метод
Мы предлагаем GRASPED (Graph Autoencoder with Spectral Encoder and Decoder), модель для обнаружения аномалий на графах, использующую графовую волновая совокупность в качестве основы для скрытого пространства. Графовая волновая совокупность в сочетании с Wiener Graph Deconvolution-ом позволяет модели построить признаки, которые отражают как локальные, так и глобальные свойства графа. GRASPED включает в себя автокодировщик, включающий в себя энкодер с графовой волновой совокупностью, а также декодер, основанный на Wiener Graph Deconvolution, который моделирует граф и его атрибуты. Это дизайн решает проблему многомерного анализа и позволяет определять аномалии, которые могут быть незаметны для моделей, ориентированных только на пространственные признаки.
## Результаты
Мы провели эксперименты с GRASPED на нескольких реальных данных, включая графы связности, транзакционные графы и графы социальных сетей. Мы сравнили результаты с несколькими современными моделями, включая GCN, GAT и другими. Наши эксперименты показали, что GRASPED показывает значительное превосходство в обнаружении аномалий по сравнению с другими моделями. Мы также проводили анализ точности, полноты и F1-меры, которые подтвердили эффективность нашей модели.
## Значимость
GRASPED может быть применена в различных областях, включая системы мониторинга безопасности, анализ транзакций, обнаружение мошенничества и рекомендательные системы. Одним из основных преимуществ GRASPED является ее возможность работать с необученными данными, что делает ее привлекательной для за
Annotation:
Graph machine learning has been widely explored in various domains, such as
community detection, transaction analysis, and recommendation systems. In these
applications, anomaly detection plays an important role. Recently, studies have
shown that anomalies on graphs induce spectral shifts. Some supervised methods
have improved the utilization of such spectral domain information. However,
they remain limited by the scarcity of labeled data due to the nature of
anomalies. On the other hand, existi...
Авторы:
Mohammed Elmusrati
## Контекст
В мире современных технологий использование данных, характеризующихся значительным уровнем неопределенности и шума, стало ключевым для решения проблем в области временных рядов, распознавания узоров и моделирования языка. Эти задачи часто требуют решения в условиях неполной или шумной информации, что затрудняет получение точных выводов. Эта статья основывается на необходимости создания универсального проблемно-ориентированного подхода для унификации различных методов, который мог бы объединить классические методы оценки, статистическое выводение и современные методы машинного обучения, включая глубокое обучение и большие языковые модели. Целью является раскрытие связей между этими подходами и объяснение, как они могут быть интегрированы для решения практических задач.
## Метод
Работа предлагает универсальную математическую модель, которая соединяет классическую теорию оценки, статистическое выводение и современные методы машинного обучения. Основополагающими методами являются метод максимального правдоподобия, Байесовский вывод и атанционные механизмы. Методология включает в себя анализ того, как эти методы работают в разных контекстах, таких как системное идентифицирование, распознавание изображений и генерация текста. Архитектура работы основывается на пространственном анализе зависимостей между этими методами и раскрытии их глубинных связей. Для экспериментов использовались различные данные, включая синтетические и реальные, чтобы продемонстрировать эффективность предложенного подхода.
## Результаты
Проведенные эксперименты показали, что предложенная модель эффективно работает в различных сценариях. На примерах, таких как идентификация систем, классификация изображений и генерация текста, показано, что различные методы, такие как максимальное правдоподобие, Байесовская классификация и глубокое обучение, являются различными аспектами одного и того же проблемного подхода к решению проблем неопределенности данных. Эксперименты также показывают, как модель может решать проблемы, такие как переобучение, недостаток данных и недостаточная интерпретируемость моделей.
## Значимость
Предложенная модель имеет широкое применение в области машинного обучения, статистики и глубокого обучения. Она предоставляет новый взгляд на существующие методы и позволяет их лучше понимать и использовать в современных задачах. Одним из основных преимуществ является универсальность и мощь, которая позволяет интегрировать различные подходы в единую систему. Это может способствовать развитию новых алгорит
Annotation:
Extracting meaning from uncertain, noisy data is a fundamental problem across
time series analysis, pattern recognition, and language modeling. This survey
presents a unified mathematical framework that connects classical estimation
theory, statistical inference, and modern machine learning, including deep
learning and large language models. By analyzing how techniques such as maximum
likelihood estimation, Bayesian inference, and attention mechanisms address
uncertainty, the paper illustrates t...
Авторы:
Jaeha Lee, Gio Huh, Ning Su, Tony Yue YU
## Контекст
Новые разработки в области трансформеров демонстрируют возможность решения задач логического рассуждения и символических вычислений. Однако несмотря на эти успехи, обнаружение нелинейных латентных упреждений остается сложной задачей, особенно в сфере функционального декомпозирования. Эта область имеет широкие приложения в науке и инженерных дисциплинах. Задача многомерного полиномиального декомпозирования доказана как NP-трудная, требуя точности и глубокого понимания. В нашей работе мы призваны расширить возможности трансформеров в области символических вычислений, адресовав эту сложную задачу.
## Метод
Для решения этой задачи мы разработали синтетическую конвейерную модель генерации данных, которая обеспечивает точный контроль над сложностью проблемы. Мы обучаем трансформеры с использованием супервизованного обучения и оцениваем их по четырём ключевым аспектам: свойствам масштабирования и генерализуемости. Для решения трудных задач алгебры мы предлагаем Beam Grouped Relative Policy Optimization (BGRPO) — метод оптимизации рейнфорсмента, который учитывает ранг. Этот подход позволяет улучшить точность и уменьшить потребление ресурсов во время выполнения.
## Результаты
Мы проводим эксперименты с использованием новой конвейерной модели генерации данных, чтобы протестировать наши модели. Мы оцениваем их по метрикам точности, масштабируемости и гибкости. Наши результаты показывают, что трансформеры с BGRPO достигают значительного повышения точности в многомерном декомпозировании полиномов. Благодаря BGRPO, модель повышает точность, при этом сокращая потребление ресурсов в 2 раза и уменьшая размер бигума в 4 раза. Также наши модели демонстрируют высокую точность в задачах полиномиального упрощения, буквально превосходя Mathematica в некоторых случаях.
## Значимость
Наши разработки могут иметь широкое применение в области функционального декомпозирования, где точность и размер задачи являются критичными. Мы предлагаем новый подход к решению трудных задач алгебры, который может быть использован в научных и инженерных приложениях. Модель с BGRPO не только улучшает точность, но и снижает потребление ресурсов, что делает её эффективной в практических задачах.
## Выводы
Мы демонстрируем, что обученные трансформеры с BGRPO могут решать трудные задачи функционального декомпозирования с высокой точностью и эффективностью. Наша работа открывает путь для дальнейшего исследования в области трансформеров для символических вычислений, а также для развития новых методов решения NP-трудных задач в символических областях.
Annotation:
Recent efforts have extended the capabilities of transformers in logical
reasoning and symbolic computations. In this work, we investigate their
capacity for non-linear latent pattern discovery in the context of functional
decomposition, focusing on the challenging algebraic task of multivariate
polynomial decomposition. This problem, with widespread applications in science
and engineering, is proved to be NP-hard, and demands both precision and
insight. Our contributions are threefold: First, w...
Авторы:
Stavros C. Kassinos
## Контекст
Трансформерные нейронные сети (Transformer neural networks, TNT) в последние годы нашли широкое применение в задачах, связанных с физическими проблемами, особенно в ситуациях, когда требуется строить суррогатные модели для физических уравнений (PDE surrogates). Эти задачи часто имеют сложные условия границы и начала, что приводит к эксплуатации потенциальных проблем, таких как перепучивание градиентов и нестабильность потерь. В случае физико-информированных нейронных сетей (PINNs), проблема усиливается из-за сложности сложных сложных потерь, которые могут вызывать значительные колебания в процессе обучения. Из-за этого существует необходимость в разработке оптимизаторов, которые могут ликвидировать эти проблемы, сохранив при этом гибкость и эффективность стандартных методов.
## Метод
Мы предлагаем Kourkoutas-Beta, новый оптимизатор стиля Adam, где значение стабилизирующего параметра `beta2` заменено динамическим значением, которое определяется в зависимости от того, насколько большой текущий градиент в отношении среднего значения за предыдущий период. Этот показатель, который мы называем "sunspike" (солнечный всплеск), дает возможность понизить `beta2` при повышенной активности в градиентах (spikes) и увеличить его при спокойных фазах. Оптимизатор также включает в себя несколько дополнительных режимов: (i) декрейсная регуляризация (leaky AMSGrad), (ii) максимальное отклонение (trust-region clipping), (iii) адаптивные малые термины, и (iv) несколько вариантов коррекции биаса (none, beta2max, exact). Это позволяет Kourkoutas-Beta полностью совместимым с Adam, при этом предоставляя улучшенную стабильность и уменьшенную волатильность.
## Результаты
Мы проверили Kourkoutas-Beta на четырёх разных тестовых сценариях: (i) случай Transformer PDE-суррогата (Heat2D), (ii) 3D PINN для моделирования теплового распространения (Heat3D), (iii) синтетическая задача MLX, где шум и редкие спады градиентов являются значимыми, и (iv) задачу трансформера на уровне символов для обработки текста enwik8 (small-enwik8). Во всех этих случаях Kourkoutas-Beta показал значительные выигрыши в стабильности и получении меньшего значения функции потерь по сравнению с фиксированным `beta2` Adam. Например, на small-enwik8 Kourkoutas-Beta снизил bits-per-character (биты на символ) примерно на 38% по сравнению с Adam с `beta2=0.95` и 58% по сравнению с Adam с `beta2=0.999`, уменьшив также дисперсию результатов при 10 семенах.
## Значимость
Kourkoutas-Beta может быть применен в широком круге задач, включая обучение с учителем для TNT в физико-информированных моделях, а также в задачах с нестабильными градиентами и высоким количеством дан
Annotation:
Transformer neural networks are increasingly used for physics-based problems.
In data-driven PDE surrogates, training samples from varying boundary and
initial conditions can cause erratic losses and spiky gradients; in
physics-informed neural networks (PINNs), stiff composite losses amplify this
effect.
We introduce Kourkoutas-Beta, an Adam-style optimizer where the fixed
second-moment discount beta2 is replaced by a layer-wise dynamic value driven
by a bounded ``sunspike'' ratio: the current...
Авторы:
Madyan Bagosher, Tala Mustafa, Mohammad Alsmirat, Amal Al-Ali, Isam Mashhour Al Jawarneh
## Контекст
Городские транспортные системы сталкиваются с вопросами управления парковкой и определением доступности мест для парковки. Эта проблема особенно актуальна в университетских кампусах, где студенты нуждаются в быстром и удобном доступе к парковкам во время занятий. Ограниченность доступных мест для парковки в кампусах требует развертывания эффективных систем, которые позволят эффективно управлять открытыми местами. Исследование призвано разработать смарт-фреймворк, который будет использовать множество данных, такие как карты улиц, данные о движении транспорта и метеорологические данные, для предсказания доступности парковок. Этот подход снимает необходимость установки дополнительных сенсорных систем на улицах или на местах парковки, так как вся необходимая информация будет получена с помощью сервисов определения местоположения.
## Метод
Фреймворк включает в себя несколько ключевых этапов. Во-первых, данные о местности, транспортных движениях и метеорологических условиях собираются с помощью геоспациальных методов и спутниковых систем. Во-вторых, данные об ожидании времени прибытия и времени парковки используются для выбора оптимального места для парковки. В-трьох, различные модели машинного обучения, включая Linear Regression, Support Vector Regression (SVR), Random Forest Regression (RFR) и Long Short-Term Memory (LSTM), используются для прогнозирования доступности парковки. Наконец, эти модели сравниваются с помощью метрик, таких как Root Mean Squared Error (RMSE), Mean Absolute Error (MAE) и Coefficient of Determination (R2). Метод группирования данных (спатшиал джоин) используется для объединения данных в единое целое, чтобы представить зависимости между парковкой и движением транспорта.
## Результаты
В ходе экспериментов были использованы данные, собранные в течение трех дней, с частотой обработки каждого часа на промежутке с 7:00 до 15:00. Несколько моделей, включая Linear Regression, SVR, RFR и LSTM, были оценены на основе их точности и надежности. Модель Random Forest Regression показала лучшие результаты с RMSE в 0.142 и R2 в 0.582. Тем не менее, требуется больше данных и длительных шагов временных рядов для повышения точности модели LSTM. Данные эксперименты показали, что модель Random Forest Regression является наиболее эффективной для этого фреймворка.
## Значимость
Фреймворк может быть применим в различных сферах, включая управление городскими парковками, улучшение транспортных систем, исследования движения транспорта и планирование пространства. Одним из основных преимуществ является независимость от дополнительных сенсорных систем, так как вся необходимая информация собирается существующими си
Annotation:
As urban populations continue to grow, cities face numerous challenges in
managing parking and determining occupancy. This issue is particularly
pronounced in university campuses, where students need to find vacant parking
spots quickly and conveniently during class timings. The limited availability
of parking spaces on campuses underscores the necessity of implementing
efficient systems to allocate vacant parking spots effectively. We propose a
smart framework that integrates multiple data sour...
Авторы:
Xin Wu, Fei Teng, Ji Zhang, Xingwang Li, Yuxuan Liang
## Контекст
Во временных рядах (time series) области исследования, текущие модели часто сталкиваются с проблемами, связанными с определением признаков, которые действительно важны для классификации, а не только связаны с конкретным доменом. Это приводит к проблеме "spurious correlations", когда модели ориентируются на неинвариантные компоненты данных. Это ограничивает точность и надёжность моделей при работе с неизвестными (out-of-distribution, OOD) выборками. Одним из ключевых подходов, предлагаемых для решения этой проблемы, является **функциональное дисентанглирование (feature disentanglement)**. Однако существующие модели дисентанглирования работают в основном без семантического управления, что приводит к нестабильности в результатах. Рассматривается новое решение в виде модели ERIS (Energy-Regularized Information for Shift-Robustness), которая стремится решить эту проблему с помощью принципа "energy-guided calibration" и других механизмов.
## Метод
Разработанная модель ERIS предлагает инновационный подход к дисентанглированию признаков в временных рядах. Основной идеей является использование **энергетического калибрования (energy-guided calibration)**, которое позволяет модели самостоятельно корректировать свои выводы, ориентируясь на семантические признаки. Для достижения этой цели вводится стратегия **вращательной ортогональности (weight-level orthogonality)**, которая разделяет признаки, связанные с доменом и с меткой, структурно. Для улучшения устойчивости и повышения надёжности внедряется адаптивная методология **добавочного адверсарного обучения (auxiliary adversarial training)**, защищающая модель от внешних шумовых воздействий. Интеграция этих механизмов обеспечивает гибкость и надёжность модели в работе с OOD данными.
## Результаты
В ходе экспериментов были проанализированы результаты работы ERIS на четырьм б BENCHMARK BENCHMARKS базах данных, включая **UCR**, **UEA** и другие. Выявлено, что модель ERIS показывает среднюю повышение точности в **4.04%** по сравнению с современными стандартными моделями в области TSC. Это достигается благодаря эффективному дисентанглированию признаков, что позволяет модели распознавать только те признаки, которые действительно важны для классификации. Экспериментальные результаты подтверждают, что ERIS лучше справляется с задачей классификации на неизвестных выборках, чем существующие модели, что делает её перспективным инструментом для OOD-классификации временных рядов.
## Значимость
ERIS может быть применена в различных областях, где важна надёжная классификация временных рядов при неизвестных условиях. Например, в сферах **мониторинга производственных процессов**, **микроклиматического анализа**, **энергоснабжения** и др. Одним из основных преимуществ является **улу
Annotation:
An ideal time series classification (TSC) should be able to capture invariant
representations, but achieving reliable performance on out-of-distribution
(OOD) data remains a core obstacle. This obstacle arises from the way models
inherently entangle domain-specific and label-relevant features, resulting in
spurious correlations. While feature disentanglement aims to solve this,
current methods are largely unguided, lacking the semantic direction required
to isolate truly universal features. To a...
Авторы:
Donghwa Kang, Doohyun Kim, Sang-Ki Ko, Jinkyu Lee, Brent ByungHoon Kang, Hyeongboo Baek
## Контекст
На протяжении последних десятилетий, специально разработанные спикерные нейронные сети (Spiking Neural Networks, SNNs) приобрели важное место в искусственном интеллекте благодаря их энергоэффективности по сравнению с артифициальными нейронными сетями (ANNs). Однако они страдают от высокой задержки и значительного вычислительного накладного расхода, порождаемого своей многоэтапной работой. Несмотря на то, что различные методы динамического вычисления были предложены для уменьшения задержек и расхода, некоторые из них остались неустойчивыми в различных условиях работы. В то же время, статические архитектуры динамического вычисления, несмотря на их потенциал, не могут решить проблему. Кроме того, применение подхода с адаптивным вычислительным временем (Adaptive Computation Time, ACT) к спикерным видюхам-трансформерам (Vision Transformers, ViTs) сталкивается с двумя главными проблемами: нарушением предварительного условия изоморфного времени и статической архитектурой, не приспособленной к этим принципам. STAS (Spatio-Temporal Adaptive computation time for Spiking Transformers) предлагается как решение этих проблем, сочетая статическую архитектуру с динамическим вычислительным политикой.
## Метод
STAS предлагает интегрированный модуль разделения волновых патчей (Integrated Spike Patch Splitting, I-SPS), который устанавливает темпоральную стабильность за счет создания единой постановки входных данных. Эта стабильность в свою очередь позволяет использовать адаптивный спикерный самоприслушивающийся модуль (Adaptive Spiking Self-Attention, A-SSA), который выполняет приемущество в двухмерной оптимизации токенов по пространственному и временному осям. Эта гибкость в вычислениях позволяет сократить затраты на вычислительные ресурсы без потери точности. Метод STAS был реализован в различных спикерных трансформерных архитектурах и проверен на таких датасетах, как CIFAR-10, CIFAR-100 и ImageNet.
## Результаты
Эксперименты показали, что STAS существенно уменьшает энергозатраты в сравнении с состоянием технологии (SOTA), сокращая ее на 45.9% на CIFAR-10, 43.8% на CIFAR-100 и 30.1% на ImageNet. Это улучшение сочетается с повышением точности распознавания изображений. Таким образом, STAS демонстрирует ключевое преимущество в сочетании эффективности и точности, что делает его привлекательным для применения в спикерных сетях.
## Значимость
Помимо энергоэффективности, STAS имеет широкие перспективы применения в задачах визуального распознавания, передачи речи, обработки естественного языка и других областях, где энергоэффективность и высокая точность играют ключевую роль. Благодаря своему универсальному подходу, STAS может быть успешно использован в раз
Annotation:
Spiking neural networks (SNNs) offer energy efficiency over artificial neural
networks (ANNs) but suffer from high latency and computational overhead due to
their multi-timestep operational nature. While various dynamic computation
methods have been developed to mitigate this by targeting spatial, temporal, or
architecture-specific redundancies, they remain fragmented. While the
principles of adaptive computation time (ACT) offer a robust foundation for a
unified approach, its application to SNN...
📄 Neuro-inspired Ensemble-to-Ensemble Communication Primitives for Sparse and Efficient ANNs
2025-08-22Авторы:
Orestis Konstantaropoulos, Stelios Manolis Smirnakis, Maria Papadopouli
## Контекст
Структура биологических нейронных сетей характеризуется модулярностью, гиерархичностью и разумным разбросом сетевых подключений. Эти принципы обеспечивают эффективное балансирование между расходами на подключения, функциональной специализацией и устойчивостью. Такие принципы могут стать мощным источником мотивации для разработки эффективных и универсальных искусственных нейронных сетей (ANN). Несмотря на то, что методы, такие как спарсинг, были широко использованы для оптимизации памяти и вычислительных затрат, остается недостаточно информации о том, как биологические системы организуют связи между модулями. Наша исследовательская группа вдохновлена научными выводами по сравнению структуры визуального коры мышей и их связей с алгоритмами обработки информации. Мы предлагаем новую архитектуру, которая использует эти разумные сетевые структуры в качестве основы для построения эффективных и устойчивых ANN.
## Метод
Мы предлагаем G2GNet — модель, которая вдохновлена структурой визуальной коры мышей. Эта модель включает в себя несколько уникальных принципов:
1. **Структурная Биаза**: G2GNet вводит модулярность в подключениях между слоями, напрямую основываясь на модели работы визуальной коры мышей.
2. **Упрощенное Соединение**: Мы применяем спарсинг, но в отличие от простых сетей, G2GNet регулирует связи с использованием динамического метода обучения, который периодически перестраивает связи в зависимости от активации.
3. **Принцип Хебба**: Наша модель использует новую правила повторной связи, основываясь на операциях активации, для построения эффективных сетевых систем.
4. **Высокая Эффективность**: Мы добиваемся высокой спарсингности и улучшаем качество решения задач визуального распознавания.
## Результаты
Мы проверили G2GNet на нескольких многоклассовых выборках, включая Fashion-MNIST, CIFAR-10 и CIFAR-100. Наши результаты показали, что G2GNet достигает до 75% спарсинга с улучшением точности на 4.3% в сравнении с традиционными моделями. Мы также проверили, что G2GNet выполняет расчеты эффективнее, используя меньше памяти и вычислений. Эти результаты подтверждают преимущества новой архитектуры и показывают, что она может применяться в реальных задачах, где скорость и эффективность критичны.
## Значимость
Выводы, демонстрируемые G2GNet, открывают новые возможности в области обработки изображений и других задач, требующих высокой точности и эффективности. Модель имеет потенциал для применения в с
Annotation:
The structure of biological neural circuits-modular, hierarchical, and
sparsely interconnected-reflects an efficient trade-off between wiring cost,
functional specialization, and robustness. These principles offer valuable
insights for artificial neural network (ANN) design, especially as networks
grow in depth and scale. Sparsity, in particular, has been widely explored for
reducing memory and computation, improving speed, and enhancing generalization.
Motivated by systems neuroscience findings...
Авторы:
Liyi Zhang, Jake Snell, Thomas L. Griffiths
## Контекст
Fine-tuning large language models (LLMs) с использованием low-rank adaptation (LoRA) является эффективным способом интеграции данных из конкретных наборов. Однако не всегда ясно, насколько хорошо будет генерализоваться такой файн-тюнинг. Чтобы улучшить generalization, были предложены подходы, такие как оптимизация с использованием in-context prompts или использование meta-learning для fine-tuning LLMs. Однако эти методы требуют больших вычислительных ресурсов или многомерных пространств параметров. Наша исследовательская группа разработала Amortized Bayesian Meta-Learning for LoRA (ABMLL), который адаптирует подходы мета-обучения к LLMs на большом масштабе, сохраняя высокую эффективность.
## Метод
ABMLL использует методы amortized Bayesian meta-learning для LLMs, отказавшись от стандартных требований к вычислительным ресурсам. Мы представляем task-specific и global parameters в контексте LoRA и применяем новые hyperparameters для баланса между reconstruction accuracy и fidelity task-specific parameters. Это позволяет повысить generalization и обеспечить новый уровень scalability для LLMs, включая Llama3-8B. Благодаря Bayesian framework, ABMLL также обеспечивает более точное quantification of uncertainty.
## Результаты
Мы проверили ABMLL на двух датасетах: Unified-QA и CrossFit. Метод показал высокую точность и улучшенную expected calibration error по сравнению с соревнователями. Эксперименты показали, что ABMLL эффективно обрабатывает большие LLMs и значительно повышает generalization. Мы также провели анализ того, как эффективно ABMLL работает в разных условиях и подтвердили, что он может генерализоваться на незнакомых данных.
## Значимость
ABMLL может быть применен в различных областях, где требуется высокая точность и generalization на больших моделях. Он предоставляет более эффективное и стабильное решение для fine-tuning LLMs с низким рангом, чем предыдущие методы. Благодаря использованию Bayesian framework, ABMLL также может использоваться для improved uncertainty quantification, что важно для принятия решений в реальном времени. Мы видим потенциал ABMLL в областях, таких как natural language processing, adaptive education и personalized recommendation systems.
## Выводы
ABMLL достигает значительных улучшений в generalization и scalability для fine-tuning LLMs. Он может генерализоваться на незнакомых данных и предоставляет новый уровень точности в области uncertainty quantification. Наша работа открывает новые пути для future research в области meta-learning для LLMs, включая исследования новых regularization techniques и повышения efficiency.
Annotation:
Fine-tuning large language models (LLMs) with low-rank adaptaion (LoRA) is a
cost-effective way to incorporate information from a specific dataset. However,
it is often unclear how well the fine-tuned LLM will generalize, i.e., how well
it will perform on unseen datasets. Methods have been proposed to improve
generalization by optimizing with in-context prompts, or by using meta-learning
to fine-tune LLMs. However, these methods are expensive in memory and
computation, requiring either long-cont...
Авторы:
Amirmohsen Sattarifard, Sepehr Lavasani, Ehsan Imani, Kunlin Zhang, Hanlin Xu, Fengyu Sun, Negar Hassanpour, Chao Gao
#### Контекст
Large Language Models (LLMs) становятся все более популярными в сферах, требующих высокого вычислительного мощности, таких как машинное обучение, глубокое обучение и анализ текстов. Однако их применение на edge-устройствах ограничено тем, что они требуют большого объема вычислений и памяти. Для того, чтобы решить эту проблему, активно исследуются способы оптимизации их работы, в том числе использование динамического удаления нейронов (sparSification), которое позволяет уменьшить вычисления без существенного снижения качества. Однако существующие методы либо требуют дополнительных подготовительных этапов и дополнительного обучения, либо не подходят для конкретных сценариев работы, например, для коротких запросов или длительной генерации текста. Это создает необходимость разработки более эффективных, тренировка-свободных методов, которые могут динамически выбирать нейроны во время исполнения.
#### Метод
Мы предлагаем два метода, основанные на глобально-локальной структуре модели, для динамического спарсинга слоёв feed-forward (FFN) в LLMs: **Activation-based Global-Local Neural Importance Aggregation (AI-GLASS)** и **Impact-based Global-Local Neural Importance Aggregation (AI-GLASS)**. Основная идея заключается в использовании двух разных типов статистик: локальной статистики, полученной из данных для конкретного запроса (prompt) и модельной внутренней статистики, описывающей влияние каждого нейрона на результат. Для выбора нейронов, которые будут включены в вычисления, мы применяем ранжирование по рейтингу (rank-aggregation), что позволяет уменьшить вычислительный затрат без ухудшения качества. Эти методы не требуют дополнительного обучения и могут быть использованы в реальном времени, что делает их привлекательными для применения в реальных системах.
#### Результаты
Мы провести эксперименты с различными LLMs, включая сети с несколькими слоями и разным количеством параметров. Мы сравнили нашу процедуру с другими методами спарсинга, в том числе теми, которые используют дополнительные тренировки или нулевой-шат-методы. Результаты показали, что наша методика GLASS превосходит другие методы в сценариях с длинными запросами, когда другие методы страдают от снижения качества. Мы также провели эксперименты на реальных данных, в том числе на данных для диалоговых систем и текстовой генерации. Эти результаты подтвердили, что GLASS даёт значительно более высокую скорость выполнения, при этом сохраняя качество вывода.
#### Значимость
Наша методика GLASS может применяться в различных областях, где требуется работа над LLMs на edge-устройствах, таких как мобильные приложения, браузерные расширения и IoT-устройства. Она позволяет эффективно использовать ресурсы, снижая вычислительные зат
Annotation:
Deploying Large Language Models (LLMs) on edge hardware demands aggressive,
prompt-aware dynamic pruning to reduce computation without degrading quality.
Static or predictor-based schemes either lock in a single sparsity pattern or
incur extra runtime overhead, and recent zero-shot methods that rely on
statistics from a single prompt fail on short prompt and/or long generation
scenarios. We introduce A/I-GLASS: Activation- and Impact-based Global-Local
neural importance Aggregation for feed-forw...
Показано 2551 -
2560
из 2912 записей