📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Normalization in Attention Dynamics

2025-10-29

Авторы:

Nikita Karagodin, Shu Ge, Yury Polyanskiy, Philippe Rigollet

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study the effect of normalization schemes on token representations in deep transformers. Modeling their evolution as interacting particles on the sphere, we show that normalization acts as a form of speed regulation. This perspective enables a unified analysis of several schemes -- including Post-LN, Pre-LN, Mix-LN, Peri-LN, nGPT, and LN-Scaling -- revealing how they influence clustering dynamics and representation collapse. Our framework clarifies how different schemes shape token representa...

ID: 2510.22026v1 cs.LG, cs.AI, 68T07, 35Q68, 37C10, 37N99, 82C22

arXiv PDF

📄 Air Quality Prediction Using LOESS-ARIMA and Multi-Scale CNN-BiLSTM with Residual-Gated Attention

2025-10-29

Авторы:

Soham Pahari, Sandeep Chand Kumain

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Air pollution remains a critical environmental and public health concern in Indian megacities such as Delhi, Kolkata, and Mumbai, where sudden spikes in pollutant levels challenge timely intervention. Accurate Air Quality Index (AQI) forecasting is difficult due to the coexistence of linear trends, seasonal variations, and volatile nonlinear patterns. This paper proposes a hybrid forecasting framework that integrates LOESS decomposition, ARIMA modeling, and a multi-scale CNN-BiLSTM network with ...

ID: 2510.22818v1 cs.LG, cs.AI, 68T07, 68U35, I.2.7; I.5.4; C.3

arXiv PDF

📄 Federated Learning via Meta-Variational Dropout

2025-10-25

Авторы:

Insu Jeon, Minui Hong, Junhyeog Yun, Gunhee Kim

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Federated Learning (FL) aims to train a global inference model from remotely distributed clients, gaining popularity due to its benefit of improving data privacy. However, traditional FL often faces challenges in practical applications, including model overfitting and divergent local models due to limited and non-IID data among clients. To address these issues, we introduce a novel Bayesian meta-learning approach called meta-variational dropout (MetaVD). MetaVD learns to predict client-dependent...

ID: 2510.20225v1 cs.LG, cs.AI, 68T07 (Artificial neural networks and deep learning), 62F15 (Bayesian inference)

arXiv PDF

📄 Neural Variational Dropout Processes

2025-10-24

Авторы:

Insu Jeon, Youngjin Park, Gunhee Kim

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Learning to infer the conditional posterior model is a key step for robust meta-learning. This paper presents a new Bayesian meta-learning approach called Neural Variational Dropout Processes (NVDPs). NVDPs model the conditional posterior distribution based on a task-specific dropout; a low-rank product of Bernoulli experts meta-model is utilized for a memory-efficient mapping of dropout rates from a few observed contexts. It allows for a quick reconfiguration of a globally learned and shared ne...

ID: 2510.19425v1 cs.LG, cs.AI, 68T07 (Artificial neural networks), 62F15 (Bayesian inference)

arXiv PDF

📄 TED++: Submanifold-Aware Backdoor Detection via Layerwise Tubular-Neighbourhood Screening

2025-10-18

Авторы:

Nam Le, Leo Yu Zhang, Kewen Liao, Shirui Pan, Wei Luo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As deep neural networks power increasingly critical applications, stealthy backdoor attacks, where poisoned training inputs trigger malicious model behaviour while appearing benign, pose a severe security risk. Many existing defences are vulnerable when attackers exploit subtle distance-based anomalies or when clean examples are scarce. To meet this challenge, we introduce TED++, a submanifold-aware framework that effectively detects subtle backdoors that evade existing defences. TED++ begins by...

ID: 2510.14299v1 cs.LG, cs.AI, 68T07, 62H30, 53Z50, I.2.6; I.5.1; K.6.5

arXiv PDF

📄 BrainIB++: Leveraging Graph Neural Networks and Information Bottleneck for Functional Brain Biomarkers in Schizophrenia

2025-10-07

Авторы:

Tianzheng Hu, Qiang Li, Shu Liu, Vince D. Calhoun, Guido van Wingen, Shujian Yu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The development of diagnostic models is gaining traction in the field of psychiatric disorders. Recently, machine learning classifiers based on resting-state functional magnetic resonance imaging (rs-fMRI) have been developed to identify brain biomarkers that differentiate psychiatric disorders from healthy controls. However, conventional machine learning-based diagnostic models often depend on extensive feature engineering, which introduces bias through manual intervention. While deep learning ...

ID: 2510.03004v1 cs.LG, cs.AI, 68T07 (Primary), 68U10, 94A17 (Secondary)

arXiv PDF

📄 Beyond Backpropagation: Exploring Innovative Algorithms for Energy-Efficient Deep Neural Network Training

2025-09-25

Авторы:

Przemysław Spyra

## Контекст В последние годы глубокие нейронные сети (DNNs) стали ключевым инструментом в многих областях искусственного интеллекта, от обработки естественного языка до распознавания изображений. Однако этот успех сопровождается высокими затратами на вычисления и энергией. Традиционный подход к обучению DNNs — backpropagation (BP) — является эффективным, но его вычислительная сложность и требования к ресурсам ограничивают его применение в сценариях, требующих высокой энергоэффективности. Эта проблема приобретает особую актуальность в контексте растущего интереса к устройствум с ограниченными способностями по подаче энергии, таким как мобильные устройства и сенсорные городские системы. Поэтому есть необходимость в развитии энергоэффективных алгоритмов обучения DNNs, которые сочеталиient компромиссом между производительностью и энергопотреблением. ## Метод Данная работа проводит подробный анализ трех алгоритмов обучения DNNs, не зависящих от backpropagation (BP): Forward-Forward (FF), Cascaded-Forward (CaFo) и Mono-Forward (MF). Методология исследования включает: - **Разработку архитектурных решений** для каждого алгоритма: FF и MF для многослойных перцептронов (MLPs), а CaFo — для консервляционных нейронных сетей (CNNs). - **Оптимизацию гиперпараметров** с помощью Optuna, чтобы уменьшить разницу в результатах при сравнении с BP. - **Сравнительный экспериментальный подход**, включающий одинаковые критерии завершения обучения и оптимизацию на основе проверки. - **Анализ энергопотребления и времени обучения**, используя NVIDIA Management Library (NVML) для точной оценки энергоэффективности. Эти методы позволяют проверить не только эффективность каждого алгоритма, но и сравнить их с BP в условиях одинаковых условий. ## Результаты На основе проведенных экспериментов были получены следующие результаты: - **Форвард-Форвард (FF)**: Несмотря на свою простоту, этот алгоритм не смог достичь той же точности, что и BP, в тестах на классификации. - **Каскадный-Форвард (CaFo)**: Этот метод показал лучшие результаты в среднем, но не достиг финальной точности, достигнутой BP. - **Моно-Форвард (MF)**: Заметно превосходит оба предыдущих метода, показывая высокую точность в классификации и обеспечивая лучший общий результат. Кроме того, MF показал существенные энергосбережения: - Энергопотребление снизилось на **41%**. - Время обучения сократилось на **34%**. - Эффект на уровне вычислительных ресурсов подтверждён аппаратным анализом с помощью NVML. ## Значимость Результаты работы важно для нескольких областей: - **Энергоэффективность глубоких

Annotation:

The rising computational and energy demands of deep neural networks (DNNs), driven largely by backpropagation (BP), challenge sustainable AI development. This paper rigorously investigates three BP-free training methods: the Forward-Forward (FF), Cascaded-Forward (CaFo), and Mono-Forward (MF) algorithms, tracing their progression from foundational concepts to a demonstrably superior solution. A robust comparative framework was established: each algorithm was implemented on its native architect...

ID: 2509.19063v1 cs.LG, cs.AI, 68T07

arXiv PDF

📄 Communications to Circulations: 3D Wind Field Retrieval and Real-Time Prediction Using 5G GNSS Signals and Deep Learning

2025-09-23

Авторы:

Yuchen Ye, Hong Liang, Chaoxia Yuan, Mingyu Li, Aoqi Zhou, Chunqing Shang, Hua Cai, Peixi Liu, Kezuan Wang, Yifeng Zheng

## Контекст Получение точной информации о атмосферных ветровых полях является ключевым элементом для многих областей, включая прогнозирование погоды, безопасность воздушного транспорта и снижение риска стихийных бедствий. Однако существующие методы, такие как в ситуационных наблюдениях и зондировании, часто ограничены в разрешении пространственно-временного диапазона или существуют технические и финансовые оградители. Ошибки и задержки в прогнозах, связанные с моделями Национального прогноза погоды (НПП), также снижают их эффективность. Необходимость более точных и реального времени данных ветра, а также улучшение систем прогнозирования, побудила развитие инновационных подходов. ## Метод На основе 5G Global Navigation Satellite System (GNSS) и глубоких нейросетей разработана методология G-WindCast, предназначенная для восстановления и прогнозирования трехмерных ветровых полей. Эта модель использует вариации сигнала GNSS для извлечения информации о ветрах, а затем применяет Forward Neural Networks (FNN) и Transformer networks для анализа сложных спектров спatial-temporal relationships. Основной целью является получение точных и реального времени прогнозов с высокой скоростью и минимальными затратами. ## Результаты Проведенные эксперименты показали высокую точность G-WindCast в восстановлении трехмерных ветровых полей и прогнозировании в течение 30 минут. Результаты показывают, что модель G-WindCast демонстрирует skill score, сравнимый с высокорезольвентными NWP моделями в определенных условиях. Она также продемонстрировала высокую точность в прогнозировании скорости и направления ветра, превосходя современные реанализы ERA5. Тестирование показало, что модель G-WindCast сохраняет превосходную производительность даже при использовании ограниченного числа GNSS станций (например, около 100), что подтверждает свою экономичность и масштабируемость. ## Значимость Предлагаемый подход имеет широкое применение в различных сферах, включая прогнозирование погоды, безопасность воздушного транспорта и управление стихийными бедствиями. Главные преимущества заключаются в том, что G-WindCast обеспечивает более точные и реального времени ветровые прогнозы, что может улучшить решения в сложных ситуациях. Его трансформативный потенциал заключается в использовании нестандартных источников данных и глубоких нейросетей для реализации реального времени мониторинга атмосферы. ## Выводы Результаты опробованы моделью G-WindCast показали свою эффективность в восстановлении и прогнозировании ветровых полей. Будущие исследования будут направлены на улучшение точности, расширение области применения и интеграцию дополнительных данных для повышения надежности и точ

Annotation:

Accurate atmospheric wind field information is crucial for various applications, including weather forecasting, aviation safety, and disaster risk reduction. However, obtaining high spatiotemporal resolution wind data remains challenging due to limitations in traditional in-situ observations and remote sensing techniques, as well as the computational expense and biases of numerical weather prediction (NWP) models. This paper introduces G-WindCast, a novel deep learning framework that leverages s...

ID: 2509.16068v1 cs.LG, cs.AI, 68T07, I.2.1

arXiv PDF

📄 Unified Interaction Foundational Model (UIFM) for Predicting Complex User and System Behavior

2025-09-12

Авторы:

Vignesh Ethiraj, Subhash Talluri

## Контекст В большинстве современных приложений искусственного интеллекта центральной задачей является предсказание поведения пользователей и систем в различных сферах, таких как телекоммуникации, электронная коммерция и финансы. Однако существующие модели, основанные на текстовых данных, часто не могут полностью охватить структурированность и контекст, которые характеризуют такие поведенческие процессы. Это приводит к упущению важной информации, которая могла бы улучшить точность предсказаний. Недостаток в полноценном понимании пользовательских и системных поведений становится особенно заметным в сложных, динамически изменяющихся средах. Мотивация для разработки UIFM (Unified Interaction Foundation Model) заключается в построении модели, которая могла бы обеспечить глубокое понимание поведения, учитывая всю структуру и контекст взаимодействий. ## Метод UIFM представляет собой универсальную модель, разработанную для обработки и предсказания сложных поведенческих сценариев. Основной уникальностью модели является принцип композитной токенизации. В этой модели каждый экземпляр поведения, содержащий множество связанных атрибутов, репрезентируется как единый, семантически целостный токен. Это позволяет модели распознавать и учитывать контекст взаимодействий в целостном виде, вместо дискретного анализа отдельных событий. Архитектура UIFM основывается на современных принципах глубокого обучения и включает в себя слои преобразования, активации и регуляризации, чтобы обеспечить эффективную обработку и вывод. Такой подход гарантирует, что модель учитывает сведения о структуре, времени и зависимостях между событиями. ## Результаты В ходе исследования были проведены опыты на данных, собранных из реальных систем в области телекоммуникаций, электронной коммерции и финансов. Модель была сравнена с современными подходами, такими как традиционные модели на основе текста и трансформеры. Результаты показали, что UIFM превосходит другие модели в плане точности предсказаний, объединяя в себе более высокую структурную информацию и контекстное понимание. Эксперименты подтвердили, что UIFM выдает более точные прогнозы, даже в сложных сценариях с многоуровневым взаимодействием между пользователями и системами. ## Значимость Результаты модели UIFM открывают новые возможности в области предсказания поведения пользователей и систем. Она может быть применена в таких сферах, как личные сервисы, мобильные приложения, финансовые системы и системы управления электронными торгами. Основное преимущество UIFM заключается в её универсальности и мощности в обработке сложных поведен

Annotation:

A central goal of artificial intelligence is to build systems that can understand and predict complex, evolving sequences of events. However, current foundation models, designed for natural language, fail to grasp the holistic nature of structured interactions found in domains like telecommunications, e-commerce and finance. By serializing events into text, they disassemble them into semantically fragmented parts, losing critical context. In this work, we introduce the Unified Interaction Founda...

ID: 2509.06025v1 cs.LG, cs.AI, 68T07, 62M20, I.2.6; H.2.8; H.3.3

arXiv PDF

📄 GradES: Significantly Faster Training in Transformers with Gradient-Based Early Stopping

2025-09-05

Авторы:

Qifu Wen, Xi Zeng, Zihan Zhou, Shuaijun Liu, Mehdi Hosseinzadeh, Reza Rawassizadeh

## Контекст Transformers, как основная архитектура для обработки текста, широко применяются в сферах, таких как NLP, машинное обучение и анализ данных. Однако их обучение требует больших вычислительных ресурсов и времени, особенно при работе с большими объемами данных. Одна из сложностей — это процесс early stopping, который ставится перед тем, чтобы предотвратить переобучение. Обычно early stopping основывается на мониторинге глобального значения validation loss и приостанавливает обучение для всех параметров одновременно. Это подход неэффективен, так как для проверки глобального loss требуется дорогостоящая процедура валидации, особенно для крупных моделей. ## Метод Мы предлагаем GradES — новое, более эффективное решение для gradient-based early stopping, которое работает на уровне компонентов модели. GradES отслеживает магнитуду градиентов в фазе обучения, оперируя непосредственно с матрицами Feed-Forward и матрицами проекции в аттенционной части. Когда модуль градиентов для какой-либо матрицы падёт ниже заданного порога $\tau$, мы останавливаем обновление этой матрицы, но оставляем другие матрицы в процессе обучения. Это позволяет уменьшить количество проверок валидации и ускорить обучение, оставляя медленно узнавающие параметры в процессе обучения. ## Результаты Мы провели эксперименты на известных датасетах, включая GLUE и SuperGLUE. Мы использовали различные модели Transformer, включая BERT, RoBERTa и DistilBERT. Наши результаты показали, что GradES ускоряет обучение в 1.57–7.22 раз по сравнению с традиционным early stopping. Это даёт значительное уменьшение времени обучения для крупных моделей. Кроме того, GradES улучшает generalization, повышая average accuracy на 1.2%, что имеет значение для высокопроизводительных моделей. ## Значимость Решение GradES имеет широкую область применения в обучении моделей Transformer. Оно позволяет не только ускорить обучение, но и улучшить качество модели, предотвратив переобучение раньше. Это особенно важно для технологий, где необходимо быстрое обучение и точность результатов. Благодаря GradES, можно эффективно использовать ресурсы, чтобы получить высококачественные модели за меньшее время. ## Выводы Мы представили GradES, новую технику для gradient-based early stopping, которая быстрее и эффективнее традиционных подходов. Мы показали, что GradES ускоряет обучение без потерь в качестве. В будущем мы планируем расширить GradES для других типов моделей и датасетов, а также исследовать возможность его использования для других задач в области NLP и даже за её пределами.

Annotation:

Early stopping monitors global validation loss and halts all parameter updates simultaneously, which is computationally costly for large transformers due to the extended time required for validation inference. We propose GradES, a novel gradient-based early stopping approach that operates within transformer components (attention projections and Feed-Forward layer matrices). We found that different components converge at varying rates during fine-tuning. GradES tracks the magnitude of gradients i...

ID: 2509.01842v1 cs.LG, cs.AI, 68T07, I.2; I.2.7

arXiv PDF

Показано 1 - 10 из 14 записей