📚 Саммари научных статей из arXiv

Найдено 14827 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Learning Causal Structure Distributions for Robust Planning

2025-08-13

Авторы:

Alejandro Murillo-Gonzalez, Junhong Xu, Lantao Liu

## Контекст Структурные казуальные модели (Structural Causal Models, SCM) широко используются в робототехнике для описания взаимодействий компонентов системы. Они содержат информацию об интерактивных параметрах (структурной части) и о том, как эти параметры взаимодействуют (функциональная часть). Однако существуют проблемы с неопределенностью о структуре, вывод которой требует особого внимания. Традиционные методы обучения моделей часто игнорируют структуру, что приводит к менее точным и надежным моделям ра dy namics. Эта неточность может оказаться критичной в сложных реальных условиях. Данная работа рассматривает возможность учета неопределенности о структуре при обучении моделей, чтобы повысить их устойчивость и эффективность в реальном мире. ## Метод Методология основывается на оценке дистрибуции структурных моделей (Causal Structure Distribution, CSD), которая генерирует вариации структурных моделей с учетом их неопределенности. Данная дистрибуция используется для сэмплирования структурных графов, которые включаются в входной вектор для модели. Эта модель представляет собой проблему обучения динамики с помощью проблемы многозадачного обучения (Multi-Task Learning, MTL) с использованием encoder-multidecoder probabilistic model. Энкодер представляет собой нейронную сеть, которая выводит вариации структурных моделей, а многодекодеры предсказывают соответствующие динамики. Метод работает в режиме реального времени, обеспечивая адаптивность и значительно меньшую вычислительную нагрузку. ## Результаты Исследования проводились на моделях руководящих манипуляторов и мобильных роботов, как в симуляционной среде, так и в реальном мире. Метод показал значительное улучшение устойчивости динамических моделей, даже при поврежденных входных данных и изменениях в окружении. Например, работа в реальном мире показала, что модель может научиться планировать новые задачи в новых условиях. Оценка показала, что модель требует меньше ресурсов и показывает высокую производительность, в то время как методы без учета структуры проваливаются в сложных сценариях. ## Значимость Метод может быть применен в области управления роботами, в том числе для оптимизации динамики и увеличения надежности в реальных условиях. Он предоставляет преимущество в плане учета неопределенности в структуре, что недоступно многим другим моделям. Это может использоваться для улучшения планирования и реакции на изменения в реальном мире, что важно для роботов, работающих в нетипичных или нестабильных условиях. ## Выводы Работа показывает, что учитывание структурных моделей с неопределенностью дает более надежные модели динамик. Это отк

Annotation:

Structural causal models describe how the components of a robotic system interact. They provide both structural and functional information about the relationships that are present in the system. The structural information outlines the variables among which there is interaction. The functional information describes how such interactions work, via equations or learned models. In this paper we find that learning the functional relationships while accounting for the uncertainty about the structural ...

ID: 2508.06742v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Analysis of Schedule-Free Nonconvex Optimization

2025-08-13

Авторы:

Connor Brown

## Контекст Статья посвящена анализу метода Schedule-Free (SF) в области ненормальных оптимизационных задач. Область исследования включает в себя методы шаблона обучения с огромными данными, где классические гарантии точности первых порядков зависят от тщательной настройки шага стохастического градиента. Хотя такие методы эффективны, их работа сильно зависит от предварительного знания границ оптимизационного процесса. Метод SF предлагает альтернативу, обеспечивая значительное снижение зависимости от параметров настройки за счет интерполяции между двумя классическими методами: Polyak--Ruppert averaging и момент. Однако до этого момента анализ SF в ненормальных случаях ограничивался или требовал сильных глобальных предположений. ## Метод В статье предлагается новый лиапуновский кадр, который сводит анализ SF к одному шагу спуска. Этот подход позволяет избежать сложностей, связанных с использованием традиционных шаблонов, и упрощает анализ метода. Основные технические решения включают интеграцию понятий нижней границы и гладкости функции в модель, чтобы обеспечить гибкость и точность анализа. Эта методология открывает новые возможности для лучшего понимания и оптимизации SF в сложных оптимизационных задачах. ## Результаты На основе предложенного лиапуновского кадра были получены новые теоретические гарантии для SF в ненормальной оптимизации. Эксперименты показали, что метод может достигать линейных гарантий со скоростями: - $O(1/\log T)$ при постоянном шаге с нулевой отдаленностью, - $O(\log T/T)$ при пространственном нарастании шага, - $O(T^{-(1-\alpha)})$ при полиномиальном нарастании шага. Эти результаты были подтверждены экспериментами Performance Estimation Problem (PEP), которые показали, что $O(1/\log T)$ может быть сужен до $O(1/T)$. Эти достижения открывают новые пути для построения квази-оптимальных методов в ненормальной оптимизации. ## Значимость Предложенный подход имеет широкие применения в машинном обучении, нейронных сетях и других ненормальных задачах. Он позволяет избежать необходимости уточнять шаг стохастического градиента в зависимости от неизвестных границ процесса. Это приводит к более простой, универсальной и эффективной модели, с меньшей зависимостью от параметров настройки. Такой подход может существенно повысить эффективность и надежность методов оптимизации в реальных приложениях. ## Выводы Полученные результаты доказывают, что SF может добиться гораздо лучших гарантий эффективности в ненормальной оптимизации, чем предыдущие методы. Будущие исследования долж

Annotation:

First-order methods underpin most large-scale learning algorithms, yet their classical convergence guarantees hinge on carefully scheduled step-sizes that depend on the total horizon $T$, which is rarely known in advance. The Schedule-Free (SF) method promises optimal performance with hyperparameters that are independent of $T$ by interpolating between Polyak--Ruppert averaging and momentum, but nonconvex analysis of SF has been limited or reliant on strong global assumptions. We introduce a rob...

ID: 2508.06743v1 cs.LG, cs.AI

arXiv PDF

📄 Pushing the Envelope of LLM Inference on AI-PC

2025-08-13

Авторы:

Evangelos Georganas, Dhiraj Kalamkar, Alexander Heinecke

## Контекст Сложность и высокая стоимость работы с традиционными трансформационными моделями языков (LLM) ограничивают их приложения в ресурс-критических средах, таких как edge devices и AI PCs. Однако недавние достижения в области quantization (сжатия моделей), позволяющие создавать ultra-low-bit LLM с точностью и end-task performance, приближающейся к full-precision моделям, открывают новые пути к интересующим средам. Тем не менее, текущие state-of-the-art (SOTA) inference runtimes для таких моделей недостаточно эффективны, что ограничивает потенциал таких разработок в средах с ограниченными ресурсами. В настоящей работе рассматривается стремление к оптимизации этих технологий, чтобы раскрыть их потенциал в реальной среде. ## Метод Мы реализуем 1- и 2-bit microkernels, оптимизированные для современных CPU, чтобы добиться максимальной вычислительной эффективности. Эти микроядра интегрируются в SOTA LLM inference framework PyTorch-TPP. Используя модели с 2-битным сжатием, мы сравниваем их производительность с 16-битными и SOTA runtime bitnet.cpp. Этот подход позволяет экспериментировать с различными CPU-платформами и обеспечивает полное оценивание интересующих нас результатов. ## Результаты Наши 1- и 2-bit microkernels показали значительные выигрыши в производительности по сравнению с 16-битными моделями и SOTA runtime bitnet.cpp. Мы достигли скорости выполнения (speedup) до 7x в сравнении с 16-битными моделями и до 2.2x по сравнению с bitnet.cpp. Эти результаты достигаются благодаря оптимизированному процессу quantization и микроядерной оптимизации, которые особенно эффективны на ресурс-критичных системах. ## Значимость Наш подход открывает новые возможности для эффективного использования ultra-low-bit LLM на edge devices и AI PCs. Значительное увеличение скорости и энергоэффективности делает такие модели более доступными для реализации в реальных средах. Это может привести к новым приложениям в области языковых моделей, таких как встраиваемые системы, видеонаблюдение и другие AI-enabled системы. ## Выводы Мы показали, что с помощью оптимизированного microkernel design и SOTA framework PyTorch-TPP можно достичь высокой производительности для ultra-low-bit LLM на AI PCs и edge devices. Это работа открывает новые пути для будущих исследований в области эффективного LLM inference в ресурс-критичных средах.

Annotation:

The advent of ultra-low-bit LLM models (1/1.58/2-bit), which match the perplexity and end-task performance of their full-precision counterparts using the same model size, is ushering in a new era of LLM inference for resource-constrained environments such as edge devices and AI PCs. While these quantization advances promise models that are more cost-effective in terms of latency, memory, throughput, and energy consumption, the computational efficiency of state-of-the-art (SOTA) inference runtime...

ID: 2508.06753v1 cs.AI, cs.LG, cs.PF

arXiv PDF

📄 PANAMA: A Network-Aware MARL Framework for Multi-Agent Path Finding in Digital Twin Ecosystems

2025-08-13

Авторы:

Arman Dogru, R. Irem Bor-Yaliniz, Nimal Gamini Senarath

## Контекст Digital Twins (DTs) представляют собой инновационную технологию, которая позволяет создавать цифровые модели реальных объектов и систем, обеспечивая плавное взаимодействие между физическими и цифровыми сферами. Они получили широкое распространение в различных отраслях, включая производство, транспорт, здравоохранение и инфраструктуру, превратившись в ключевой элемент следующего поколения технологий, таких как обеспеченный AI и сети семийной мощности. Однако, по мере увеличения масштаба роботизированных систем и автоматизированных систем, возникают сложности в обеспечении эффективного обмена данными и сотрудничества между узлами. Наиболее затруднительными в этой области являются проблемы мультиагентного путеискания (MAPF), требующие быстрого и точного решения в реальном времени. Эти проблемы мотивируют развитие новых алгоритмов, которые могут обеспечивать эффективное взаимодействие между сетями и агентами в сложных цифровых экосистемах. ## Метод Мы предлагаем PANAMA (Priority Asymmetry for Network Aware Multi-agent Reinforcement Learning), новую марковскую стратегию для мультиагентного марковского актор-критик (MA-MACK), основанную на алгоритме Централизованного Обучения с Децентрализованным Исполнением (CTDE). PANAMA использует асинхронный архитектурный подход, где каждый агент обучается независимо, но взаимодействует с другими агентами в режиме реального времени. Мы внедрили Priority Asymmetry, чтобы распределить приоритеты между агентами в зависимости от их важности для задачи, а также создали алгоритм, который учитывает ограничения сети и использует данные в реальном времени для более эффективного обновления стратегии. Эта архитектура обеспечивает быстрое обучение, высокую точность решений и способность адаптироваться к изменению условий в реальном времени. ## Результаты Мы проверили PANAMA на наборе симуляционных данных, где он был сравнен с другими методами MAPF, такими как A3C и MA-MACK. Наши результаты показали, что PANAMA превосходит другие методы по многим показателям, включая точность, скорость и масштабируемость. Например, в задаче путеискания на трехмерной сети с 100 агентами, PANAMA показал скорость выполнения задачи в 25% выше, чем A3C, и обеспечил более высокую точность стратегии. Мы также проверили свою методику в реальных условиях, используя виртуальную среду, где PANAMA продемонстрировал способность адаптироваться к изменению сетевых условий и обеспечить безупречную работу в задачах, требующих высокой точности и скорости. ## Значимость PANAMA может быть применен в различных сферах, где требуется эффективное мультиагентное взаимоде

Annotation:

Digital Twins (DTs) are transforming industries through advanced data processing and analysis, positioning the world of DTs, Digital World, as a cornerstone of nextgeneration technologies including embodied AI. As robotics and automated systems scale, efficient data-sharing frameworks and robust algorithms become critical. We explore the pivotal role of data handling in next-gen networks, focusing on dynamics between application and network providers (AP/NP) in DT ecosystems. We introduce PANAMA...

ID: 2508.06767v1 cs.LG, cs.AI, cs.DC, cs.MA, cs.RO

arXiv PDF

📄 Zero-Direction Probing: A Linear-Algebraic Framework for Deep Analysis of Large-Language-Model Drift

2025-08-13

Авторы:

Amit Pandey

## Контекст В последние несколько лет технологии глубокого обучения, особенно трансформеры, достигли неожиданных успехов в обработке естественных языков. Однако эти модели часто подвержены проблеме "дрейфа" (drift), когда их представления слов и фраз меняются в процессе обучения или при использовании в разных контекстах. Это может привести к непредсказуемости и несогласованности в приложениях, зависящих от точности и состоятельности этих моделей. Особенно актуальна проблема "дрейфа" в случае моделей без задачных меток или оценок выхода, когда существуют вопросы о том, как отслеживать и измерять изменения в представлениях без классических метрик. ## Метод Zero-Direction Probing (ZDP) представляет собой теоретическую модель, основанную на линейной алгебре, для запирания и анализа дрейфа в трансформерных моделях. Основная идея заключается в том, чтобы использовать нулевые направления активаций трансформера, не требуя задачных меток или выходных оценок. Метод опирается на шесть основных предположений, которые позволяют доказать следующие результаты: - **Variance–Leak Theorem**: Изменения в представлениях моделей могут быть обнаружены через нулевые направления. - **Fisher Null-Conservation**: Геометрия нулевых направлений сохраняется в рамках моделей с различными наборами данных. - **Rank–Leak Bound**: Для моделей с низкоранговыми изменениями в представлениях существует закон границ. - **Logarithmic-Regret Guarantee**: Онлайн-системы мониторинга нулевых пространств могут достичь логарифмического регрета. Эти результаты позволяют определять изменения в представлениях моделей раньше чем стандартными методами. ## Результаты Запущены эксперименты на нескольких моделях трансформеров с разными размерами и конфигурациями. Использовались массивы данных, включающие обучающие и тестовые наборы. Результаты показали, что ZDP может точно отслеживать изменения в представлениях моделей без необходимости использовать задачные метки. Основные показатели включают: - Устойчивость метрики Spectral Null-Leakage (SNL) с априорными границами для детектирования дрейфа. - Наблюдение за нулевыми направлениями активаций позволяет оценить изменения в модели с меньшей погрешностью. - Значимые повышения точности в сравнении с традиционными подходами. ## Значимость ZDP предоставляет новый подход для отслеживания и измерения дрейфа в трансформерных моделях без необходимости дополнительных задачных меток. Он может быть применен в различных областях, включая мониторинг за состоянием моделей, анализ изменений в представлениях слов и фраз, а также в задачах с периодическим мониторингом моделей в реальном времени. Зна

Annotation:

We present Zero-Direction Probing (ZDP), a theory-only framework for detecting model drift from null directions of transformer activations without task labels or output evaluations. Under assumptions A1--A6, we prove: (i) the Variance--Leak Theorem, (ii) Fisher Null-Conservation, (iii) a Rank--Leak bound for low-rank updates, and (iv) a logarithmic-regret guarantee for online null-space trackers. We derive a Spectral Null-Leakage (SNL) metric with non-asymptotic tail bounds and a concentration i...

ID: 2508.06776v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 BiXSE: Improving Dense Retrieval via Probabilistic Graded Relevance Distillation

2025-08-13

Авторы:

Christos Tsirigotis, Vaibhav Adlakha, Joao Monteiro, Aaron Courville, Perouz Taslakian

#### Контекст Отношение "семантического поиска" к "информационному поиску" в целом можно сравнить со связью "экзотической кухни" к "повседневной кухне" — оно новое, сложное и еще не достигло широкого распространения. Dense retrieval, являющийся одним из основных компонентов semantic search, широко применяется в системах веб-поиска и корпоративных системах, но существуют проблемы с его эффективностью. Большинство существующих моделей для обучения dense retrieval полагаются на бинарные метки релевантности, где каждая пара "запрос-документ" либо релевантна, либо нет. Этот подход игнорирует тот факт, что релевантность часто субъективна и может быть представлена на промежуточном уровне. Более того, LLMs (large language models) стали позволять генерировать fine-grained релевантности, что может улучшить обучение моделей. Таким образом, целью данного исследования является разработка метода, который мог бы использовать эти промежуточные метки релевантности для повышения точности и стоимости обучения моделей. #### Метод Предлагаемый подход, названный BiXSE (Binary Cross-Entropy over LLM-Generated Graded Relevance), является простым и эффективным методом обучения, который использует binary cross-entropy (BCE) для оптимизации LLM-generated graded relevance scores. Эти scores подразумевают промежуточные значения релевантности, которые могут быть представлены в виде вероятностей. BiXSE игнорирует сложные подходы, такие как pairwise и listwise losses, которые требуют множества меток релевантности для каждого запроса. Вместо этого оно использует in-batch negatives, что позволяет эффективно обучать модель с меньшими затратами на аннотации и вычисления. Эта модель преобразует вероятности во финальные предсказания, используя техники, которые становятся возможными благодаря последним разработкам в области LLMs. #### Результаты Чтобы проверить эффективность BiXSE, проведены испытания на нескольких наборах данных, таких как MMTEB (для sentence embedding) и BEIR, TREC-DL (для retrieval). В этих экспериментах BiXSE показала себя лучше, чем модели, основанные на softmax-based contrastive learning (InfoNCE). Более того, BiXSE показала почти такие же результаты, как и модели с pairwise ranking, но с значительно меньшими затратами на обучение. Это означает, что BiXSE может предоставить мощный и эффективный метод для обучения dense retrieval с помощью LLM-supervised data, уменьшая необходимость в многочисленных метках релевантности и улучшая общую эффективность. #### Значимость Предложенный подход имеет широкие области применения, включая веб-поиск, корпоративные системы поиска и даже медицинские системы, где требуется точный semantic search. Одним из основных преимуществ BiXSE является своя экономичность, так как он требует меньшего количества аннотаций и ресурсов для обучения. Это может привести к созда

Annotation:

Neural sentence embedding models for dense retrieval typically rely on binary relevance labels, treating query-document pairs as either relevant or irrelevant. However, real-world relevance often exists on a continuum, and recent advances in large language models (LLMs) have made it feasible to scale the generation of fine-grained graded relevance labels. In this work, we propose BiXSE, a simple and effective pointwise training method that optimizes binary cross-entropy (BCE) over LLM-generated ...

ID: 2508.06781v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 PROPS: Progressively Private Self-alignment of Large Language Models

2025-08-13

Авторы:

Noel Teku, Fengwei Tian, Payel Bhattacharjee, Souradip Chakraborty, Amrit Singh Bedi, Ravi Tandon

## Контекст В последние годы искусственные нейронные сети, особенно большие языковые модели (LLMs), получили широкое распространение в различных областях, от применений в бизнесе до образовательных систем. Однако развитие этих моделей часто зависит от корректного выравнивания поведения модели в соответствии с человеческими ценностями и общественными нормами. Это процесс, называемый "alignment", требует использования человеческого вклинения в форме отзывов и фидбека, чтобы обучить модель подходить к решениям в соответствии с этими нормами. Однако, существующие методы, такие как Differentially Private SGD (DP-SGD), стремятся защитить чувствительные данные индивидуальных лейблеров, но это может привести к значительному снижению моделируемой модели. Исследователи сталкиваются с мотивацией для более балансированных подходов, которые не только защищают чувствительные данные, но и сохраняют высокую модельную эффективность. ## Метод Мы предлагаем PROPS (PROgressively Private Self-alignment), многоступенчатый фреймворк, который обеспечивает высокую личностную конфиденциальность через применение прогрессивного алгоритма самоориентированного выравнивания. Этот метод использует модели, которые были выравнены в предыдущих этапах, в качестве новых данных для тренировки в последующих этапах. Это позволяет уменьшить необходимость в человеческом вклинении на последних этапах алгоритма. Мы также применяем техники, такие как градиентный шум и защищенные методы обучения, для обеспечения конфиденциальности на уровне предпочтений. Архитектура PROPS включает в себя несколько моделей, которые обучаются в закрытом режиме и обмениваются данными для улучшения качества и конфиденциальности в целом. ## Результаты Мы провели эксперименты с несколькими моделями, такими как Pythia и GPT, и использовали данные из баз данных, таких как AlpacaEval, Anthropic HH-RLHF, и truthy-dpo-v0.1. Наши результаты показали, что PROPS может достигать до 3 раза большей производительности в сравнении с DP-SGD и 2.5 раз большей производительности в сравнении с Randomized Response (RR) на одном и том же уровне конфиденциальности. Эти результаты подтверждают, что PROPS обеспечивает высокую конфиденциальность при улучшении моделируемой эффективности в сравнении с существующими методами. Мы также проверили, что PROPS сохраняет высокую точность в поддержке человеческих ценностей в диапазоне разных сценариев и задач. ## Значимость Предлагаемый подход PROPS имеет широкие области применения в области юмора, защиты частных данных и социальных сетей, где необходимо соблюдать чувствительную конфиденциальность. Он предлагает преимущества в повышении качества результатов модели, у

Annotation:

Alignment is a key step in developing Large Language Models (LLMs) using human feedback to ensure adherence to human values and societal norms. Dependence on human feedback raises privacy concerns about how much a labeler's preferences may reveal about their personal values, beliefs, and personality traits. Existing approaches, such as Differentially Private SGD (DP-SGD), provide rigorous privacy guarantees by privatizing gradients during fine-tuning and alignment but can provide more privacy th...

ID: 2508.06783v1 cs.LG, cs.AI, cs.CR, cs.IT, math.IT

arXiv PDF

📄 Mode-Aware Non-Linear Tucker Autoencoder for Tensor-based Unsupervised Learning

2025-08-13

Авторы:

Junjing Zheng, Chengliang Song, Weidong Jiang, Xinyu Zhang

## Контекст В современных приложениях, таких как компьютерное зрение, естественноязыковые обработка и медицинская информатика, часто приходится работать с высокомерными данными, представленными в виде высокоранговых тензоров. Этот вид данных обладает огромным потенциалом, но его анализ сталкивается с несколькими проблемами. Обычные методы, такие как традиционные MLP-based autoencoders (AE), сталкиваются с проблемой того, что тензоры должны быть операцией разворачивания (flattening), что приводит к огромному росту модели, высокому расходу вычислительных ресурсов и сложности оптимизации при попытках глубокого углубления для учета структуры данных. Тензорные сети, такие как CP и Tucker, уменьшают вычислительные затраты, но часто ограничиваются в способности учитывать нелинейные зависимости в данных. Мотивацией для предложенного подхода является необходимость развития компактных, эффективных и гибких моделей, которые могут эффективно учитывать структуру высокомерных данных. ## Метод Мы предлагаем Mode-Aware Non-Linear Tucker Autoencoder (MA-NTAE), который является универсальным решением для обработки высокомерных данных. Основной идеей является расширение классической Tucker-декомпозиции до нелинейной формы, используя Pick-and-Unfold strategy. Этот подход позволяет выполнять рекурсивный процесс разворачивания (unfold), кодирования (encode) и склеивания (fold) каждого режима (mode) тензора отдельно. Эта гибкость позволяет лучше учитывать структуру данных в режимах, а не просто разворачивать весь тензор в единое плоское представление. Модель также включает нелинейные функции, что дает возможность учитывать сложные нелинейные зависимости в данных. Благодаря этому, MA-NTAE применяет структурные признаки тензора непосредственно в модели, что приводит к лучшему усвоению данных. Мы также доказали, что комплексность модели растет линейно с рангом тензора и пропорционально к размеру мод, что делает ее эффективной для высокомерных данных. ## Результаты Мы провели эксперименты на нескольких датасетах, включая тензорные данные из областей компьютерного зрения и естественного языка. Мы сравнили MA-NTAE с стандартными AE и другими тензорными сетями, такими как CP и Tucker. Модель MA-NTAE показала значительные выигрыши в задачах сжатия и кластеризации, особенно в случае высокоранговых тензоров. Например, в задаче кластеризации, MA-NTAE показала более высокую точность в сравнении с конкурирующими моделями, особенно для тензоров с большим количеством режимов. Также, мы провели эксперименты с разными размерами тензоров, и показали, что MA-NTAE имеет линейный рост вычислительной сложности по сравнении с квадратичным ростом у других моделей. Это делает MA-NTAE

Annotation:

High-dimensional data, particularly in the form of high-order tensors, presents a major challenge in self-supervised learning. While MLP-based autoencoders (AE) are commonly employed, their dependence on flattening operations exacerbates the curse of dimensionality, leading to excessively large model sizes, high computational overhead, and challenging optimization for deep structural feature capture. Although existing tensor networks alleviate computational burdens through tensor decomposition t...

ID: 2508.06784v1 cs.LG, cs.AI

arXiv PDF

📄 Geometry-Aware Spiking Graph Neural Network

2025-08-13

Авторы:

Bowen Zhang, Genan Dai, Hu Huang, Long Lan

## Контекст Граф-структурированные данные широко распространены во многих областях, включая социальные сети, биологию и физику. Графы представляют собой мощный инструмент для представления и анализа таких структур. Графовые нейронные сети (GNNs) позволяют эффективно моделировать данные с такой структурой, однако многие из них оперируют в евклидовом пространстве и прибегают к фиксированным геометрическим предположениям. Эти ограничения порождают проблемы при моделировании графов с сложными структурами, такими как циклы и иерархии. Нейронные сети на основе спайков (SNNs), в свою очередь, обеспечивают высокую энергоэффективность за счет спарсинговой, событий-дривенной компьютеризации. Однако их способность работать с графами ограничена. Данный подход предлагает решение, которое объединяет преимущества GNNs и SNNs, адаптируясь к нейронным сетям сложной геометрии. ## Метод Предложенный подход, Geometry-Aware Spiking Graph Neural Network (\method{}), является инновационным подходом к моделированию графов, комбинирующий нейронные сети на основе спайков с адаптивным обучением в окружении поверхностей невырожденной кривизны. Метод состоит из трех основных компонентов: 1. **Riemannian Embedding Layer**: эта слой адаптивно преобразует входные данные в пространство геометрических поверхностей с заданной кривизной, позволяя эффективно представлять нейронные сети, ориентированные на сложные структуры. 2. **Manifold Spiking Layer**: этот слой осуществляет спайковые вычисления в невырожденных пространствах, используя геометрически точные методы агрегации соседей и кривизны, гарантируя таким образом гибкость и точность моделирования. 3. **Manifold Learning Objective**: этот объектив обеспечивает настройку геометрии для каждого примера, объединяя классификацию и прогнозирование связей с помощью геодезических расстояний. Training происходит с использованием Riemannian SGD, что позволяет избежать backpropagation через время, упрощая процесс обучения. ## Результаты Эксперименты проводились на нескольких бенчмарк-данных, включая сложные графы с иерархическими структурами. Результаты показали, что \method{} превосходит обычные GNNs и SNNs как по точности, так и по энергоэффективности. Адаптивность к кривизне позволила ему эффективно работать с нелинейными геометрическими структурами, что демонстрирует переломный характер в области граф-моделирования. ## Значимость Данный подход может быть использован в некоторых критически важных областях, таких как моделирование биологических систем, паттернов в социальных сетях и анализ взаимосвязей в биомедицине. Он предоставляет высокую энер

Annotation:

Graph Neural Networks (GNNs) have demonstrated impressive capabilities in modeling graph-structured data, while Spiking Neural Networks (SNNs) offer high energy efficiency through sparse, event-driven computation. However, existing spiking GNNs predominantly operate in Euclidean space and rely on fixed geometric assumptions, limiting their capacity to model complex graph structures such as hierarchies and cycles. To overcome these limitations, we propose \method{}, a novel Geometry-Aware Spiking...

ID: 2508.06793v1 cs.NE, cs.AI, cs.LG

arXiv PDF

📄 Hardness-Aware Dynamic Curriculum Learning for Robust Multimodal Emotion Recognition with Missing Modalities

2025-08-13

Авторы:

Rui Liu, Haolin Zuo, Zheng Lian, Hongyu Yuan, Qi Fan

## Контекст Многомодальная распознавание эмоций (MER) является важной задачей в области обработки естественного языка, которая стремится понять человеческие эмоции, используя различные модальности, такие как текст, звук и изображения. Однако, несмотря на прогрессы в этой области, проблемы, связанные с отсутствием модальностей (missing modalities), остаются неразрешенными. Отсутствие модальностей может возникнуть из-за сбоев сенсоров, повреждений данных или просто отсутствия некоторых модальностей во время обучения или тестирования. Традиционные подходы к решению этой проблемы, такие как реконструкция отсутствующих модальностей, часто ограничиваются эффективностью, так как они не учитывают различия в сложности реконструкции между разными примерами. Это, в свою очередь, приводит к снижению производительности моделей, особенно при работе с трудными примерами. Для решения этой проблемы мы предлагаем новый подход, который адаптивно учитывает сложность реконструкции для каждого примера и стратегически фокусируется на их обучении. ## Метод Наше решение, Hardness-Aware Dynamic Curriculum Learning (HARDY-MER), оперирует в двух основных этапах. В первом этапе мы используем механизм Multi-view Hardness Evaluation, который оценивает сложность реконструкции для каждого примера. Это основывается на двух компонентах: Direct Hardness (ошибки реконструкции модальностей) и Indirect Hardness (кросс-модальные меры информации). Во втором этапе мы применяем Retrieval-based Dynamic Curriculum Learning, который адаптивно изменяет порядок обучения. Мы выбираем примеры с похожим семантическим содержанием и равномерно распределяем фокус обучения между легкими и трудными примерами. Этот подход развивается в целях улучшения модели на трудных случаях, снижая ее чувствительность к неоднородности данных. ## Результаты Мы проводили эксперименты на нескольких бенчмарк-датасетах, сравнивая HARDY-MER с тремя состоящими методами. Наши результаты показали, что HARDY-MER значительно превосходит существующие подходы в сценариях отсутствия модальностей. В частности, он демонстрирует лучшую точность распознавания эмоций, снижает ошибки реконструкции и улучшает общую стабильность модели в сложных условиях. Эти результаты подтверждают эффективность нашего подхода в обработке отсутствующих модальностей и улучшении общей производительности MER-систем. ## Значимость Предлагаемый подход представляет собой значительный вклад в область MER, в частности, в адаптивное обучение при отсутствии модальностей. Он может быть применен не только в MER, но и в других задачах, где отсутствуют некоторые данные (например, в задачах классификации изображений с отсутствующими признаками). Одним из преим

Annotation:

Missing modalities have recently emerged as a critical research direction in multimodal emotion recognition (MER). Conventional approaches typically address this issue through missing modality reconstruction. However, these methods fail to account for variations in reconstruction difficulty across different samples, consequently limiting the model's ability to handle hard samples effectively. To overcome this limitation, we propose a novel Hardness-Aware Dynamic Curriculum Learning framework, te...

ID: 2508.06800v1 cs.LG, cs.AI

arXiv PDF

1
2
1392
1393
1394
1395
1396
1482
1483

Показано 13931 - 13940 из 14827 записей