📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
📄 Normalization in Attention Dynamics
2025-10-29Авторы:
Nikita Karagodin, Shu Ge, Yury Polyanskiy, Philippe Rigollet
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We study the effect of normalization schemes on token representations in deep
transformers. Modeling their evolution as interacting particles on the sphere,
we show that normalization acts as a form of speed regulation. This perspective
enables a unified analysis of several schemes -- including Post-LN, Pre-LN,
Mix-LN, Peri-LN, nGPT, and LN-Scaling -- revealing how they influence
clustering dynamics and representation collapse. Our framework clarifies how
different schemes shape token representa...
📄 Air Quality Prediction Using LOESS-ARIMA and Multi-Scale CNN-BiLSTM with Residual-Gated Attention
2025-10-29Авторы:
Soham Pahari, Sandeep Chand Kumain
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Air pollution remains a critical environmental and public health concern in
Indian megacities such as Delhi, Kolkata, and Mumbai, where sudden spikes in
pollutant levels challenge timely intervention. Accurate Air Quality Index
(AQI) forecasting is difficult due to the coexistence of linear trends,
seasonal variations, and volatile nonlinear patterns. This paper proposes a
hybrid forecasting framework that integrates LOESS decomposition, ARIMA
modeling, and a multi-scale CNN-BiLSTM network with ...
Авторы:
Insu Jeon, Minui Hong, Junhyeog Yun, Gunhee Kim
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Federated Learning (FL) aims to train a global inference model from remotely
distributed clients, gaining popularity due to its benefit of improving data
privacy. However, traditional FL often faces challenges in practical
applications, including model overfitting and divergent local models due to
limited and non-IID data among clients. To address these issues, we introduce a
novel Bayesian meta-learning approach called meta-variational dropout (MetaVD).
MetaVD learns to predict client-dependent...
📄 Neural Variational Dropout Processes
2025-10-24Авторы:
Insu Jeon, Youngjin Park, Gunhee Kim
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Learning to infer the conditional posterior model is a key step for robust
meta-learning. This paper presents a new Bayesian meta-learning approach called
Neural Variational Dropout Processes (NVDPs). NVDPs model the conditional
posterior distribution based on a task-specific dropout; a low-rank product of
Bernoulli experts meta-model is utilized for a memory-efficient mapping of
dropout rates from a few observed contexts. It allows for a quick
reconfiguration of a globally learned and shared ne...
📄 TED++: Submanifold-Aware Backdoor Detection via Layerwise Tubular-Neighbourhood Screening
2025-10-18Авторы:
Nam Le, Leo Yu Zhang, Kewen Liao, Shirui Pan, Wei Luo
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
As deep neural networks power increasingly critical applications, stealthy
backdoor attacks, where poisoned training inputs trigger malicious model
behaviour while appearing benign, pose a severe security risk. Many existing
defences are vulnerable when attackers exploit subtle distance-based anomalies
or when clean examples are scarce. To meet this challenge, we introduce TED++,
a submanifold-aware framework that effectively detects subtle backdoors that
evade existing defences. TED++ begins by...
Авторы:
Tianzheng Hu, Qiang Li, Shu Liu, Vince D. Calhoun, Guido van Wingen, Shujian Yu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The development of diagnostic models is gaining traction in the field of
psychiatric disorders. Recently, machine learning classifiers based on
resting-state functional magnetic resonance imaging (rs-fMRI) have been
developed to identify brain biomarkers that differentiate psychiatric disorders
from healthy controls. However, conventional machine learning-based diagnostic
models often depend on extensive feature engineering, which introduces bias
through manual intervention. While deep learning ...
Авторы:
Przemysław Spyra
## Контекст
В последние годы глубокие нейронные сети (DNNs) стали ключевым инструментом в многих областях искусственного интеллекта, от обработки естественного языка до распознавания изображений. Однако этот успех сопровождается высокими затратами на вычисления и энергией. Традиционный подход к обучению DNNs — backpropagation (BP) — является эффективным, но его вычислительная сложность и требования к ресурсам ограничивают его применение в сценариях, требующих высокой энергоэффективности. Эта проблема приобретает особую актуальность в контексте растущего интереса к устройствум с ограниченными способностями по подаче энергии, таким как мобильные устройства и сенсорные городские системы. Поэтому есть необходимость в развитии энергоэффективных алгоритмов обучения DNNs, которые сочеталиient компромиссом между производительностью и энергопотреблением.
## Метод
Данная работа проводит подробный анализ трех алгоритмов обучения DNNs, не зависящих от backpropagation (BP): Forward-Forward (FF), Cascaded-Forward (CaFo) и Mono-Forward (MF). Методология исследования включает:
- **Разработку архитектурных решений** для каждого алгоритма: FF и MF для многослойных перцептронов (MLPs), а CaFo — для консервляционных нейронных сетей (CNNs).
- **Оптимизацию гиперпараметров** с помощью Optuna, чтобы уменьшить разницу в результатах при сравнении с BP.
- **Сравнительный экспериментальный подход**, включающий одинаковые критерии завершения обучения и оптимизацию на основе проверки.
- **Анализ энергопотребления и времени обучения**, используя NVIDIA Management Library (NVML) для точной оценки энергоэффективности.
Эти методы позволяют проверить не только эффективность каждого алгоритма, но и сравнить их с BP в условиях одинаковых условий.
## Результаты
На основе проведенных экспериментов были получены следующие результаты:
- **Форвард-Форвард (FF)**: Несмотря на свою простоту, этот алгоритм не смог достичь той же точности, что и BP, в тестах на классификации.
- **Каскадный-Форвард (CaFo)**: Этот метод показал лучшие результаты в среднем, но не достиг финальной точности, достигнутой BP.
- **Моно-Форвард (MF)**: Заметно превосходит оба предыдущих метода, показывая высокую точность в классификации и обеспечивая лучший общий результат.
Кроме того, MF показал существенные энергосбережения:
- Энергопотребление снизилось на **41%**.
- Время обучения сократилось на **34%**.
- Эффект на уровне вычислительных ресурсов подтверждён аппаратным анализом с помощью NVML.
## Значимость
Результаты работы важно для нескольких областей:
- **Энергоэффективность глубоких
Annotation:
The rising computational and energy demands of deep neural networks (DNNs),
driven largely by backpropagation (BP), challenge sustainable AI development.
This paper rigorously investigates three BP-free training methods: the
Forward-Forward (FF), Cascaded-Forward (CaFo), and Mono-Forward (MF)
algorithms, tracing their progression from foundational concepts to a
demonstrably superior solution.
A robust comparative framework was established: each algorithm was
implemented on its native architect...
Авторы:
Yuchen Ye, Hong Liang, Chaoxia Yuan, Mingyu Li, Aoqi Zhou, Chunqing Shang, Hua Cai, Peixi Liu, Kezuan Wang, Yifeng Zheng
## Контекст
Получение точной информации о атмосферных ветровых полях является ключевым элементом для многих областей, включая прогнозирование погоды, безопасность воздушного транспорта и снижение риска стихийных бедствий. Однако существующие методы, такие как в ситуационных наблюдениях и зондировании, часто ограничены в разрешении пространственно-временного диапазона или существуют технические и финансовые оградители. Ошибки и задержки в прогнозах, связанные с моделями Национального прогноза погоды (НПП), также снижают их эффективность. Необходимость более точных и реального времени данных ветра, а также улучшение систем прогнозирования, побудила развитие инновационных подходов.
## Метод
На основе 5G Global Navigation Satellite System (GNSS) и глубоких нейросетей разработана методология G-WindCast, предназначенная для восстановления и прогнозирования трехмерных ветровых полей. Эта модель использует вариации сигнала GNSS для извлечения информации о ветрах, а затем применяет Forward Neural Networks (FNN) и Transformer networks для анализа сложных спектров спatial-temporal relationships. Основной целью является получение точных и реального времени прогнозов с высокой скоростью и минимальными затратами.
## Результаты
Проведенные эксперименты показали высокую точность G-WindCast в восстановлении трехмерных ветровых полей и прогнозировании в течение 30 минут. Результаты показывают, что модель G-WindCast демонстрирует skill score, сравнимый с высокорезольвентными NWP моделями в определенных условиях. Она также продемонстрировала высокую точность в прогнозировании скорости и направления ветра, превосходя современные реанализы ERA5. Тестирование показало, что модель G-WindCast сохраняет превосходную производительность даже при использовании ограниченного числа GNSS станций (например, около 100), что подтверждает свою экономичность и масштабируемость.
## Значимость
Предлагаемый подход имеет широкое применение в различных сферах, включая прогнозирование погоды, безопасность воздушного транспорта и управление стихийными бедствиями. Главные преимущества заключаются в том, что G-WindCast обеспечивает более точные и реального времени ветровые прогнозы, что может улучшить решения в сложных ситуациях. Его трансформативный потенциал заключается в использовании нестандартных источников данных и глубоких нейросетей для реализации реального времени мониторинга атмосферы.
## Выводы
Результаты опробованы моделью G-WindCast показали свою эффективность в восстановлении и прогнозировании ветровых полей. Будущие исследования будут направлены на улучшение точности, расширение области применения и интеграцию дополнительных данных для повышения надежности и точ
Annotation:
Accurate atmospheric wind field information is crucial for various
applications, including weather forecasting, aviation safety, and disaster risk
reduction. However, obtaining high spatiotemporal resolution wind data remains
challenging due to limitations in traditional in-situ observations and remote
sensing techniques, as well as the computational expense and biases of
numerical weather prediction (NWP) models. This paper introduces G-WindCast, a
novel deep learning framework that leverages s...
📄 Unified Interaction Foundational Model (UIFM) for Predicting Complex User and System Behavior
2025-09-12Авторы:
Vignesh Ethiraj, Subhash Talluri
## Контекст
В большинстве современных приложений искусственного интеллекта центральной задачей является предсказание поведения пользователей и систем в различных сферах, таких как телекоммуникации, электронная коммерция и финансы. Однако существующие модели, основанные на текстовых данных, часто не могут полностью охватить структурированность и контекст, которые характеризуют такие поведенческие процессы. Это приводит к упущению важной информации, которая могла бы улучшить точность предсказаний. Недостаток в полноценном понимании пользовательских и системных поведений становится особенно заметным в сложных, динамически изменяющихся средах. Мотивация для разработки UIFM (Unified Interaction Foundation Model) заключается в построении модели, которая могла бы обеспечить глубокое понимание поведения, учитывая всю структуру и контекст взаимодействий.
## Метод
UIFM представляет собой универсальную модель, разработанную для обработки и предсказания сложных поведенческих сценариев. Основной уникальностью модели является принцип композитной токенизации. В этой модели каждый экземпляр поведения, содержащий множество связанных атрибутов, репрезентируется как единый, семантически целостный токен. Это позволяет модели распознавать и учитывать контекст взаимодействий в целостном виде, вместо дискретного анализа отдельных событий. Архитектура UIFM основывается на современных принципах глубокого обучения и включает в себя слои преобразования, активации и регуляризации, чтобы обеспечить эффективную обработку и вывод. Такой подход гарантирует, что модель учитывает сведения о структуре, времени и зависимостях между событиями.
## Результаты
В ходе исследования были проведены опыты на данных, собранных из реальных систем в области телекоммуникаций, электронной коммерции и финансов. Модель была сравнена с современными подходами, такими как традиционные модели на основе текста и трансформеры. Результаты показали, что UIFM превосходит другие модели в плане точности предсказаний, объединяя в себе более высокую структурную информацию и контекстное понимание. Эксперименты подтвердили, что UIFM выдает более точные прогнозы, даже в сложных сценариях с многоуровневым взаимодействием между пользователями и системами.
## Значимость
Результаты модели UIFM открывают новые возможности в области предсказания поведения пользователей и систем. Она может быть применена в таких сферах, как личные сервисы, мобильные приложения, финансовые системы и системы управления электронными торгами. Основное преимущество UIFM заключается в её универсальности и мощности в обработке сложных поведен
Annotation:
A central goal of artificial intelligence is to build systems that can
understand and predict complex, evolving sequences of events. However, current
foundation models, designed for natural language, fail to grasp the holistic
nature of structured interactions found in domains like telecommunications,
e-commerce and finance. By serializing events into text, they disassemble them
into semantically fragmented parts, losing critical context. In this work, we
introduce the Unified Interaction Founda...
📄 GradES: Significantly Faster Training in Transformers with Gradient-Based Early Stopping
2025-09-05Авторы:
Qifu Wen, Xi Zeng, Zihan Zhou, Shuaijun Liu, Mehdi Hosseinzadeh, Reza Rawassizadeh
## Контекст
Transformers, как основная архитектура для обработки текста, широко применяются в сферах, таких как NLP, машинное обучение и анализ данных. Однако их обучение требует больших вычислительных ресурсов и времени, особенно при работе с большими объемами данных. Одна из сложностей — это процесс early stopping, который ставится перед тем, чтобы предотвратить переобучение. Обычно early stopping основывается на мониторинге глобального значения validation loss и приостанавливает обучение для всех параметров одновременно. Это подход неэффективен, так как для проверки глобального loss требуется дорогостоящая процедура валидации, особенно для крупных моделей.
## Метод
Мы предлагаем GradES — новое, более эффективное решение для gradient-based early stopping, которое работает на уровне компонентов модели. GradES отслеживает магнитуду градиентов в фазе обучения, оперируя непосредственно с матрицами Feed-Forward и матрицами проекции в аттенционной части. Когда модуль градиентов для какой-либо матрицы падёт ниже заданного порога $\tau$, мы останавливаем обновление этой матрицы, но оставляем другие матрицы в процессе обучения. Это позволяет уменьшить количество проверок валидации и ускорить обучение, оставляя медленно узнавающие параметры в процессе обучения.
## Результаты
Мы провели эксперименты на известных датасетах, включая GLUE и SuperGLUE. Мы использовали различные модели Transformer, включая BERT, RoBERTa и DistilBERT. Наши результаты показали, что GradES ускоряет обучение в 1.57–7.22 раз по сравнению с традиционным early stopping. Это даёт значительное уменьшение времени обучения для крупных моделей. Кроме того, GradES улучшает generalization, повышая average accuracy на 1.2%, что имеет значение для высокопроизводительных моделей.
## Значимость
Решение GradES имеет широкую область применения в обучении моделей Transformer. Оно позволяет не только ускорить обучение, но и улучшить качество модели, предотвратив переобучение раньше. Это особенно важно для технологий, где необходимо быстрое обучение и точность результатов. Благодаря GradES, можно эффективно использовать ресурсы, чтобы получить высококачественные модели за меньшее время.
## Выводы
Мы представили GradES, новую технику для gradient-based early stopping, которая быстрее и эффективнее традиционных подходов. Мы показали, что GradES ускоряет обучение без потерь в качестве. В будущем мы планируем расширить GradES для других типов моделей и датасетов, а также исследовать возможность его использования для других задач в области NLP и даже за её пределами.
Annotation:
Early stopping monitors global validation loss and halts all parameter
updates simultaneously, which is computationally costly for large transformers
due to the extended time required for validation inference. We propose GradES,
a novel gradient-based early stopping approach that operates within transformer
components (attention projections and Feed-Forward layer matrices). We found
that different components converge at varying rates during fine-tuning. GradES
tracks the magnitude of gradients i...
Показано 1 -
10
из 14 записей