📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Assessing local deformation and computing scalar curvature with nonlinear conformal regularization of decoders

2025-08-29

Авторы:

Benjamin Couéraud, Vikram Sunkara, Christof Schütte

## Контекст Одна из основных задач в области машинного обучения — выявление основных факторов, объясняющих данные. Это ключевая проблема во многих приложениях, извлекающих полезные структуры из высокомерных данных. Автокодировщики (autoencoders) — это мощный инструмент для решения этой задачи. Они состоят из двух основных компонентов: энкодера (кодировщика), который преобразует входные данные в низкомерное представление, и декодера (декодировщика), позволяющего восстановить исходные данные из этого представления. Таким образом, автокодировщики позволяют учить множество низкомерных множеств, представляющих оптимальные низкомерные репрезентации входных данных. Однако, несмотря на их эффективность, в стандартных автокодировщиках нерегулируемость множеств обучения может привести к локальным деформациям и нечеткости манифолтов. Данная статья предлагает новую методологию — **nonlinear conformal regularization** — для решения этой проблемы. ## Метод В этой работе предлагается новый подход к геометрической регуляризации в автокодировщиках. **Nonlinear conformal regularization** (NCR) добавляет к традиционной архитектуре автокодировщика новый компонент — **conformal factor**. Это скалярное поле, которое измеряет локальные деформации, возникающие при преобразовании низкомерного множества обратно в исходное пространство. Регуляризатор выражается с помощью нелинейного распределения, что дает гибкость в учете локальных деформаций. Эта техника также позволяет вычислить **scalar curvature** (геометрическую кривизну) манифолта, учитывая локальные дисторсии. Архитектура NCR включает в себя усовершенствованный декодер с конформирующим регуляризатором, который обеспечивает не только эффективное учеть локальных деформаций, но и позволяет оценивать геометрические свойства обученного множества. ## Результаты Эксперименты проводились на двух датасетах: **Swiss roll** и **CelebA**. На **Swiss roll** демонстрируется как NCR позволяет сохранить локальную структуру данных при разложении на множество, уменьшая дисторсии и улучшая точность. На **CelebA** NCR используется для измерения геометрической кривизны низкомерных поверхностей, полученных с помощью автокодировщика. На графиках показаны различные метрики локальных деформаций, включая scalar curvature, что демонстрирует то, как NCR позволяет контролировать и измерять геометрические свойства данных. Результаты показывают значительное улучшение точности и стабильности в сравнении с базовым автокодировщиком. ## Значимость NCR может быть применено в различных приложениях, где геометрические свойства множества играют ключевую роль, таких как **геометрическая аналитика**,

Annotation:

One aim of dimensionality reduction is to discover the main factors that explain the data, and as such is paramount to many applications. When working with high dimensional data, autoencoders offer a simple yet effective approach to learn low-dimensional representations. The two components of a general autoencoder consist first of an encoder that maps the observed data onto a latent space; and second a decoder that maps the latent space back to the original observation space, which allows to lea...

ID: 2508.20413v1 cs.LG, cs.AI, 68T07

arXiv PDF

📄 Understanding and Tackling Over-Dilution in Graph Neural Networks

2025-08-27

Авторы:

Junhyun Lee, Veronika Thost, Bumsoo Kim, Jaewoo Kang, Tengfei Ma

## Контекст В графовых нейронных сетях (GNNs) возникают проблемы, такие как over-smoothing и over-squashing, которые характеризуются потерей точности и информативности представлений графов. Эти проблемы связаны с нелинейными особенностями информационного процесса в GNNs, которые влияют на эффективность обучения. Одна из самых серьезных проблем, которая часто упускается, — это over-dilution, которая проявляется в потере информации на уровне отдельных узлов в процессе передачи сообщений. Это происходит даже в случае одного слоя, где распространение сообщений из других узлов может подавить характеристики локального узла. Этот эффект требует глубокого изучения для создания более развитых методов GNN. ## Метод Мы предлагаем подробный анализ over-dilution в MPNNs, опираясь на двухфакторный подход: intra-node dilution для представления вершины на уровне атрибутов и inter-node dilution для представления вершины в контексте всего графа. Для того чтобы снять это ограничение, мы предлагаем инновационную парадигму, основанную на трансформерах, которая уменьшает эффект over-dilution, оптимизируя локальные и глобальные взаимосвязи в графе. Это решение интегрируется с существующими методами GNN, улучшая их качество и широту представления вершин. Мы также предлагаем многослойный подход для точного управления локальным и глобальным взаимодействием данных. ## Результаты Мы провели эксперименты на нескольких стандартных графовых наборах данных, включая Cora, Citeseer и Pubmed. Наши результаты показывают, что наше решение существенно повышает точность, сокращая проблему over-dilution в MPNNs. Мы также произвели сравнительный анализ с другими методами, такими как GCN и GAT, и показали, что наш подход дает значительные показатели по метрикам accuracy и F1-score. Данные эксперименты подтвердили, что наш трансформер-ориентированный подход значительно повышает качество представления узлов, снижая ограничения, связанные с over-dilution. ## Значимость Наш подход может быть применен в различных областях, где используются графы, таких как рекомендательные системы, моделирование сетей, биоинформатика и финансы. Over-dilution является одной из ключевых проблем в машинном обучении на графах, и наше решение может улучшить качество представления узлов в различных GNN-моделях. Это не только повышает точность, но и позволяет моделям более эффективно использовать информацию на графе, обеспечивая более точные и информативные представления. ## Выводы Мы установили, что over-dilution является критически важной проблемой в MPNNs, которая требует более глубокого изучения. Наш трансформер-ориентированный подход снимает это огра

Annotation:

Message Passing Neural Networks (MPNNs) hold a key position in machine learning on graphs, but they struggle with unintended behaviors, such as over-smoothing and over-squashing, due to irregular data structures. The observation and formulation of these limitations have become foundational in constructing more informative graph representations. In this paper, we delve into the limitations of MPNNs, focusing on aspects that have previously been overlooked. Our observations reveal that even within...

ID: 2508.16829v1 cs.LG, cs.AI, 68T07, 68R10, 68T05, I.2.6; G.2.2; F.2.2

arXiv PDF

📄 Reliable Unlearning Harmful Information in LLMs with Metamorphosis Representation Projection

2025-08-23

Авторы:

Chengcan Wu, Zeming Wei, Huanran Chen, Yinpeng Dong, Meng Sun

## Контекст Large Language Models (LLMs) оказались неоценимым инструментом в различных областях, но несут в себе значительные риски для безопасности. Эти модели могут содержать в себе небезопасные знания, которые могут быть использованы для вредоносных целей. Например, модели могут хранить информацию, которая нарушает права людей, включает в себя угрозы безопасности или содержит материалы, мешающие нормальному функционированию систем. Чтобы устранить эти риски, возникла необходимость в методах машинного "учтения" (unlearning), которые позволяют удалять нежелательную информацию из моделей без ущерба для их основного функционирования. Несмотря на существующие методы, такие как позитивное и отрицательное оптимизационное воздействие, эти подходы не могут полностью удалить нежелательные сведения, оставаясь в системе в виде ненужных трасс. Это ограничение приводит к возможности реквалификации модели под влиянием внешних угроз, что делает вопрос безопасности очень актуальным. ## Метод Мы предлагаем метод **Metamorphosis Representation Projection (MRP)**, который использует необратимые преобразования в пространстве скрытых слоев нейронных сетей, чтобы выполнять эффективное учтение. Наш подход основывается на проекции и свойствах необратимости, которые позволяют удалять нежелательные сведения, не влияя на другие части модели. Метод работает в следующем порядке: 1. **Определение целевых слоёв модели** — мы выбираем слои, которые в непосредственном виде хранят нежелательную информацию. 2. **Проекция нежелательной информации** — мы применяем необратимые преобразования, которые удаляют нежелательные сведения без повреждения других частей модели. 3. **Настройка параметров** — мы оптимизируем проекцию и увеличиваем её эффективность в работе. MRP использует подходы, которые не только удаляют нежелательные сведения, но и позволяют модели продолжать работать устойчиво и эффективно. ## Результаты Мы проводили ряд экспериментов, чтобы проверить эффективность нашего подхода. Использовав множество реальных данных, мы применяли MRP для удаления нежелательных знаний из моделей. Наши результаты показали, что MRP позволяет эффективно удалять нежелательные сведения, не влияя на производительность модели. Мы успешно обосновали, что наш подход действительно эффективен в сравнении с другими методами, такими как градиентные методы, и позволяет удалять нежелательные знания без повторного возникновения. ## Значимость Наш подход имеет широкие диапазоны применения в различных областях безопасности информации, включая банковские сист

Annotation:

While Large Language Models (LLMs) have demonstrated impressive performance in various domains and tasks, concerns about their safety are becoming increasingly severe. In particular, since models may store unsafe knowledge internally, machine unlearning has emerged as a representative paradigm to ensure model safety. Existing approaches employ various training techniques, such as gradient ascent and negative preference optimization, in attempts to eliminate the influence of undesired data on tar...

ID: 2508.15449v1 cs.LG, cs.AI, 68T07, I.2.6

arXiv PDF

📄 rETF-semiSL: Semi-Supervised Learning for Neural Collapse in Temporal Data

2025-08-15

Авторы:

Yuhan Xie, William Cappelletti, Mahsa Shoaran, Pascal Frossard

## Контекст Глубокие нейронные сети (DNNs), применяемые к задачам классификации временных рядов, должны эффективно характеризировать сложные тренды и динамику данных. Несмотря на прогресс в обучении с подкреплением (self-supervised learning), оптимальное подборщие предварительных задач (pretext tasks) для обучения остается нерешенной проблемой. Этот этап часто основывается на эвристиках, а его работоспособность в супервизированном сегменте не гарантируется. Мы предлагаем сочетать self- и semi-supervised learning в стратегии, нацеленной на формирование представлений, которые соответствуют феномену Neural Collapse — очень жесткой геометрии внутренних представлений, наблюдаемой при оптимальном обучении классификаторов. ## Метод Мы предложили **rETF-semiSL**, метод, который следует двум принципам: (1) использование циклических представлений (cyclic representations) для подготовки и (2) добавление генеративных задач для улучшения семантической структуры. Мы используем **rotational equiangular tight frame (rETF)** — классификатор, который генерирует циклические представления трехмерных векторов. Эти представления являются фундаментальным инструментом для само-супервизионной подготовки. Кроме того, мы расширили подход, включив **pseudo-labeling**, что позволяет эффективно использовать небольшие выборки меток. Для эффективного представления динамики временных рядов мы включили **generative pretext tasks**, такие как подбор моделей изображений. Мы также внедрили **sequential augmentation**, чтобы повысить выделительные свойства представлений. ## Результаты Мы провели эксперименты на трех популярных датасетах временных рядов с многоканальной классификацией: **UCR**, **UEA** и **HHAR**. Мы сравнили нашу модель с различными архитектурами (LSTM, Transformer, State-Space Models) и существующими методами обучения (SimCLR, MoCo, BYOL). Результаты показали, что **rETF-semiSL** приводит к существенному улучшению в производительности, особенно при малом количестве меток. Мы также показали, что наш подход значительно соответствует теоретическим предположениям Neural Collapse, чего не достигают другие методы. ## Значимость Метод **rETF-semiSL** имеет широкие приложения в области обработки временных рядов, таких как здравоохранение, мониторинг сетей и датчики. Он обеспечивает повышенную точность классификации, особенно при небольшом количестве меток. Это направляет наши исследования в направлении создания представлений, глубже взаимосвязанных с теоретическими принципами, чтобы повысить надежность и эффективность моделей. ## Выводы Мы представили **rETF-semiSL**, новый подход к обучению с подкреплением для временных рядов, который использует циклические представления и гене

Annotation:

Deep neural networks for time series must capture complex temporal patterns, to effectively represent dynamic data. Self- and semi-supervised learning methods show promising results in pre-training large models, which -- when finetuned for classification -- often outperform their counterparts trained from scratch. Still, the choice of pretext training tasks is often heuristic and their transferability to downstream classification is not granted, thus we propose a novel semi-supervised pre-traini...

ID: 2508.10147v1 cs.LG, cs.AI, 68T07

arXiv PDF

Показано 11 - 14 из 14 записей