📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Rilwan Umar, Aydin Abadi, Basil Aldali, Benito Vincent, Elliot A. J. Hurley, Hotoon Aljazaeri, Jamie Hedley-Cook, Jamie-Lee Bell, Lambert Uwuigbusun, Mujeeb Ahmed, Shishir Nagaraja, Suleiman Sabo, Weaam Alrbeiqi

#################### ## Контекст #################### Погодные прогнозы являются ключевым фактором для снижения рисков при стихийных бедствиях, оптимизации сельского хозяйства и эффективного управления ресурсами. Традиционные системы прогнозирования погоды основываются на централизованных моделях, которые сталкиваются с проблемами, такими как возможность атак с высокой стоимостью, ограниченная масштабируемость и уязвимость к отказам в работе. Эти недостатки становятся все более актуальными, если принимать во внимание рост количества данных и требования к безопасности. Мы предлагаем распределенную модель прогнозирования погоды, использующую методы машинного обучения и блокчейн-технологии для обеспечения безопасности, прозрачности и устойчивости. #################### ## Метод #################### Мы предложили фреймворк, в котором реализована Федеративная Лингвистика (FL) для обучения моделей с учетом приватности пользователей, и блокчейн-технологии для верификации и обеспечения достоверности моделей. FL позволяет обучать модели на распределенных данных без передачи их в общую сеть, что улучшает безопасность и снижает трафик. Блокчейн Ethereum используется для прозрачного проверки моделей с помощью доказательств взаимного безопасности. Для эффективного хранения данных был использован Interplanetary File System (IPFS). Для того, чтобы повысить уровень доверия к моделям, мы внедрили репутационную систему голосования. #################### ## Результаты #################### Мы провели эксперименты с данными погоды, собранными с различных погодных станций. Модели FL были обучены на данных нескольких участников, а затем их модели были проверены с помощью Ethereum. Мы сравнили наши результаты с традиционными моделями и получили значительное повышение точности прогноза и уменьшение времени обработки. Блокчейн повысил доверие к моделям, а репутационная система улучшила выбор наиболее точных моделей. Использование IPFS позволило эффективно хранить и получать данные. #################### ## Значимость #################### Наша модель является значительным развитием для безопасного и эффективного прогнозирования погоды. Она может использоваться в сельском хозяйстве, страховании, энергетической отрасли и других отраслях, где точность прогнозов и безопасность критически важны. Модель обеспечивает улучшение производительности, уменьшает риск отказа в работе и обеспечивает прозрачность в данных и моделях, что делает ее привлекательной для широкого круга пользователей. #################### ## Выводы #################### Мы успешно разработали распределенную модель прогнозирования погоды, использующую FL и блокчейн-технологии. Этот подход демонстрирует значительное улучшение точности прогнозов, безопасности и м
Annotation:
Weather forecasting plays a vital role in disaster preparedness, agriculture, and resource management, yet current centralized forecasting systems are increasingly strained by security vulnerabilities, limited scalability, and susceptibility to single points of failure. To address these challenges, we propose a decentralized weather forecasting framework that integrates Federated Learning (FL) with blockchain technology. FL enables collaborative model training without exposing sensitive local da...
ID: 2508.09299v2 cs.LG, cs.AI, cs.CR
Авторы:

Minghao Liu, Chia-Hsuan Lu, Marta Kwiatkowska

#### Контекст Graph neural networks (GNNs) широко используются в высокорисковых приложениях, таких как мониторинг финансовых операций и медицинские диагностические системы. Однако они остаются подверженными адверсарным атакам, модифицирующим входные данные или структуру графа. Даже небольшие изменения могут привести к непредсказуемому поведению сети. Несмотря на развитие методов, обеспечивающих адверсарную устойчивость, многие не поддерживают законность (soundness) и полноту (completeness), необходимых для надежного проверки. Это открывает проблему в подтверждении достоверности результатов GNNs при работе с существенными задачами. #### Метод Мы предлагаем метод полной проверки GNNs на устойчивость к адверсарным взаимодействиям с графом, направленным на узлы и ребра. Метод основывается на технике уточнения ограничений (bound tightening) для эффективного решения ограниченных задач устойчивости. Он поддерживает три вида агрегации в сообщениях — сумма, максимум и среднее — которые широко используются в сообщениях GNNs. Метод реализован в виде программного решения с использованием преимуществ развития существующих средств для упрощения решения сложных задач. #### Результаты Мы проводили эксперименты на двух стандартных датасетах (Cora и CiteSeer) и двух датасетах реальных данных (Amazon и Yelp), связанных с мошенничеством. Наш метод проверял GNNs на устойчивость к адверсарным изменениям в графе, включая добавление и удаление ребер. Результаты показывают, что наши решения эффективно выполняются на небольших датасетах и выдают более точные результаты в сравнении с другими подходами. Этот подход позволяет оптимизировать процесс проверки и обеспечить надежные результаты для работы GNNs в жизненных ситуациях. #### Значимость Наш метод может быть применен в сферах, где GNNs требуют доказательства их безопасности и точности, таких как мошенничество, безопасность систем, технологии распознавания образов. Он предлагает высокую точность и эффективность, что может привести к улучшению доверия к GNNs в высокоуровневых приложениях. Будущие работы будут направлены на расширение метода для более сложных моделей GNNs и улучшение поддержки агрегации. #### Выводы Мы представили метод для точной проверки GNNs с помощью уточнения ограничений для устойчивости к адверсарным изменениям. Этот метод поддерживает три вида агрегации (сумма, максимум и среднее) и показывает высокую эффективность на нескольких датасетах. Это подтверждает возможность повысить доверие к GNNs в приложениях с высоким риском. Будущие работы будут нацелены на расширение стабильности и гибко
Annotation:
Graph neural networks (GNNs) are increasingly employed in high-stakes applications, such as fraud detection or healthcare, but are susceptible to adversarial attacks. A number of techniques have been proposed to provide adversarial robustness guarantees, but support for commonly used aggregation functions in message-passing GNNs is still lacking. In this paper, we develop an exact (sound and complete) verification method for GNNs to compute guarantees against attribute and structural perturbatio...
ID: 2508.09320v1 cs.LG, cs.AI, cs.CR
Авторы:

Gideon Vos, Liza van Eijk, Zoltan Sarnyai, Mostafa Rahimi Azghadi

## Контекст В области нейронаучных исследований одной из актуальных проблем является улучшение регуляризационных методов, применяемых в нейронных сетях. Одним из важных аспектов этого вопроса является механизм **synaptic pruning** в биологических мозгах, когда медленные или ненужные синаптические связи удаляются для оптимизации эффективности работы системы. В то же время, в случае артифициальных нейронных сетей, методы регуляризации, такие как **dropout**, не учитывают активность связей и произвольно удаляют нейроны, что может привести к потере значимых связей. Это приводит к необходимости разработки более эффективных методов, которые будут ближе адаптированы к принципам биологических систем. ## Метод В ходе исследования был разработан **magnitude-based synaptic pruning** метод, который динамически оценивает важность связей во время обучения нейронных сетей. Метод интегрируется непосредственно в цикл обучения в качестве альтернативы к стандартному методу **dropout**. Визуально он работает так: во время обучения происходит временное отключение слабых связей (применяется подход с **progressive sparsification**), что позволяет сохранить градиентный поток для активных связей. Таким образом, в каждом шаге обучения происходит уменьшение глобального спарсинга в сети, что приводит к улучшению производительности. Также, для управления этим процессом введена **cubic schedule**, которая регулирует степень спарсинга в зависимости от времени обучения. Этот подход позволяет избежать отдельного этапа прунинга и последующего оптимизации, который традиционно применяется в других методах. ## Результаты Разработанный метод был проверен на нескольких моделях временных рядов, включая **RNN**, **LSTM** и **Patch Time Series Transformer**, на четырёх различных датасетах. Он показал статистически значимые улучшения в сравнении с базовыми моделями и моделями с применением стандартного **dropout**. Например, в случае финансового прогнозирования, **magnitude-based synaptic pruning** уменьшил **Mean Absolute Error (MAE)** до 20% в сравнении с моделями без регуляризации, и даже до 52% при использовании некоторых моделей трансформеров. Этот результат подтверждает значительную эффективность нового метода в регуляризации нейронных сетей. ## Значимость Новый подход может быть применен в различных областях, таких как **финансовый анализ**, **рекомендательные системы**, **идентификация объектов на изображениях** и др. Благодаря тому, что он динамически оптимизирует сеть в процессе обучения, он предлагает более эффективное решение, чем стандартные методы. Это дает потенциал для улучшения производительности моделей в сложных задачах, таких как прогнозирование финансовых показа
Annotation:
Synaptic pruning in biological brains removes weak connections to improve efficiency. In contrast, dropout regularization in artificial neural networks randomly deactivates neurons without considering activity-dependent pruning. We propose a magnitude-based synaptic pruning method that better reflects biology by progressively removing low-importance connections during training. Integrated directly into the training loop as a dropout replacement, our approach computes weight importance from absol...
ID: 2508.09330v1 cs.LG, cs.AI
Авторы:

Zhongtian Sun, Anoushka Harit

## Контекст Финансовые графы, представляющие взаимосвязи между активами, макроэкономическими индикаторами и новостями, являются важной структурой для принятия решений в финансовой сфере. Однако их динамическое изменение порождает сложные задачи по причинно-следственным связям и управлению рисками. Существующие подходы часто снижают точность или не учитывают геометрические свойства графов. Мотивацией для настоящего исследования является развитие методологии, которая может эффективно обнаруживать причины финансовых шоков и оценивать их влияние в динамических условиях. ## Метод RicciFlowRec основывается на геометрической методологии, использующей риcci-поток и риcci-кривизну для анализа динамических финансовых графов. Метод анализирует взаимосвязи между элементами графа, оценивая кривизну в каждой вершине и считая риcci-поток для понимания шоков. Это позволяет выявлять локальные стрессы и определять глобальные риски. Данные представляются в виде графов с вершинами, соответствующими активам или индикаторам, и ребрами, представляющими взаимосвязи. Процедура определения риcci-кривизны основана на матрицах смежности и весов ребер. Эти меры используются для определения причинных структур и их вклада в риск. ## Результаты На основе S&P 500 данных и сентимент-анализа FinBERT показана эффективность RicciFlowRec в прогнозировании риска и причинных характеристик. Используя метрики качества, такие как F1-score и RMSE, мы сравнивали нашу модель с современными подходами. Эксперименты показали, что RicciFlowRec обеспечивает более высокую точность в определении причин и более стабильные результаты при синтетических шумовых входных данных. Это подтверждает повышенную точность и улучшенную интерпретируемость рекомендаций. ## Значимость Предлагаемый подход может применяться в различных финансовых областях, включая позиционирование портфелей, оценку риска и прогнозирование возврата на инвестиции. Рицци-кривизна и рицци-поток обеспечивают новый взгляд на причинно-следственные связи, улучшая качество рекомендаций и уменьшая возможность человеческих ошибок в финансовую аналитику. Этот подход также может быть расширен для других геометрических графов и приложений, где важна геометрическая причинно-следственная аналитика. ## Выводы Рицци-поток и рицци-кривизна позволяют эффективно анализировать динамические финансовые графы, обеспечивая новый подход к причинно-следственному анализу и риск-менеджменту. Наша модель RicciFlowRec демонстрирует перспективы
Annotation:
We propose RicciFlowRec, a geometric recommendation framework that performs root cause attribution via Ricci curvature and flow on dynamic financial graphs. By modelling evolving interactions among stocks, macroeconomic indicators, and news, we quantify local stress using discrete Ricci curvature and trace shock propagation via Ricci flow. Curvature gradients reveal causal substructures, informing a structural risk-aware ranking function. Preliminary results on S\&P~500 data with FinBERT-based s...
ID: 2508.09334v1 cs.LG, cs.AI, cs.IR
Авторы:

Mansi, Anastasios Lepipas, Dominika Woszczyk, Yiying Guan, Soteris Demetriou

#### Контекст Текст-изображение модели способны генерировать высококачественные изображения на основе естественного языка, используя пользовательские описания. Однако мало изучалось, возможно ли такое же соответствие в случае дисторсийных языковых структур, таких как речь при деменции. Данная работа фокусируется на изучении этого аспекта, а также на разработке методов для объяснения этих соответствий. Несмотря на проблемы стабильности текст-изображение моделей, они показались полезными в области здравоохранения, особенно при помощи машинного обучения. Более того, данные о специфической речи не всегда доступны в масштабах, которые требуются для традиционных методов обучения. В подобных ситуациях текст-изображение модели становятся важной альтернативой. Мы исследуем возможность алгоритмов распознавания деменции на основе генерируемых изображений. #### Метод Мы использовали модель Stable Diffusion для генерации изображений на основе текстов, описывающих речь людей с деменцией. В качестве основной выборки использовались данные ADReSS (Alzheimer’s Disease ReTrieval System). Модель была обучена на связке текста и изображений, позволяя изучить совпадение между речевыми особенностями и генерируемыми изображениями. Для объяснения этого соответствия применялись методы экспериментального анализа, такие как saliency maps и feature attribution. Эксперименты проверяли возможность распознавания деменции на основе генерируемых образов и разбирались в вопросе того, какие части текста способствуют этой распознаваемости. #### Результаты Изучение показало возможность распознавания деменции с аккуратностью 75% на выборке ADReSS, используя только генерируемые изображения. Экспериментальный анализ показал, что определенные части языка, такие как слова, описывающие ментальные нарушения, являются ключевыми факторами для распознавания. Эксперименты также подтвердили, что модели не только могут выделить ключевую информацию о деменции, но и сохраняются в рамках логического алгоритма генерации изображений. #### Значимость Результаты этой работы могут применяться в области диагностики деменции и поддержки пациентов, используя текст-изображение модели. Они демонстрируют возможность использования нейронных сетей для распознавания патологической речи без требования больших объемов руководства. Это может стать важной альтернативой для традиционных методов диагностики, которые требуют больших ресурсов и времени. Будущие исследования могут расширить данные модели на другие синдромы деменции и исследовать возможность их использования для других типов патологической речи. #### Вывод
Annotation:
Text-to-image models generate highly realistic images based on natural language descriptions and millions of users use them to create and share images online. While it is expected that such models can align input text and generated image in the same latent space little has been done to understand whether this alignment is possible between pathological speech and generated images. In this work, we examine the ability of such models to align dementia-related speech information with the generated i...
ID: 2508.09385v1 cs.LG, cs.AI
Авторы:

Usman Anjum, Chris Stockman, Cat Luong, Justin Zhan

## Контекст Многие мета-обучающие алгоритмы стремятся решить задачи обучения с ограниченными данными, но часто сталкиваются с проблемой недостаточной универсальности (domain-generalization). Эта проблема возникает, когда алгоритмы, обученные на одной среде, не могут работать эффективно в других. Одной из популярных техник, стремящихся решить эту проблему, является Sharpness-Aware Minimization (SAM), которая стремится найти модели с меньшим разбросом потерь в неполностью обозначенных областях пространства параметров. Тем не менее, SAM и другие похожие подходы не тщательно адаптированы для мета-обучения. Данная работа адресует эту проблему, предлагая Domain-Generalization Sharpness-Aware Minimization Model-Agnostic Meta-Learning (DGS-MAML), который сочетает SAM с мета-обучением, чтобы улучшить общуюсть моделей. ## Метод DGS-MAML представляет собой би-уровневую оптимизацию, где первый уровень оптимизирует функцию потерь, а второй — мета-обучение. Алгоритм использует функцию SAM для ограничения sharpness (стеринности) градиентов, чтобы повысить устойчивость модели к изменениям в домене. Внутри DGS-MAML введены два градиентных матчинга: один между локальным и мета-градиентом, другой — между мета-градиентом и градиентом на новой задаче. Этот подход позволяет модели оптимально адаптироваться к новым задачам с минимальным количеством данных. Теоретический анализ основывается на PAC-Bayes и гарантиях сходимости, чтобы продемонстрировать эффективность DGS-MAML. ## Результаты Для оценки DGS-MAML проведены эксперименты на стандартных бенчмарк-данных, включая CIFAR-10-C, CIFAR-100-C, miniImageNet и tieredImageNet. Обучение проводилось в условиях малого доступа к данным (few-shot learning). Результаты показывают, что DGS-MAML превосходит существующие алгоритмы, такие как MAML и Reptile, в тестах generalization и accuracy. Например, на CIFAR-10-C DGS-MAML показал прирост в accuracy на 12% по сравнению с базовым MAML. Эти результаты подтверждают, что DGS-MAML эффективно обобщается на новые домены и является оптимальным выбором для сценариев с ограниченными данными. ## Значимость DGS-MAML применим в многих областях, где необходима универсальная модель для различных доменов, таких как распознавание образов, текстовый анализ и биоинформатика. Он позволяет уменьшить время обучения и повысить точность на незнакомых данных. Основное преимущество DGS-MAML заключается в интеграции SAM в мета-обучение, что дает более точную адаптацию и устойчивость. Это делает DGS-MAML перспективным для будущих исследований в области мета-обучения и адаптивных систем. ## Выводы DGS-MAML достигает значительных улучшений в области общедоступности (generalization) мета
Annotation:
This paper introduces Domain Generalization Sharpness-Aware Minimization Model-Agnostic Meta-Learning (DGS-MAML), a novel meta-learning algorithm designed to generalize across tasks with limited training data. DGS-MAML combines gradient matching with sharpness-aware minimization in a bi-level optimization framework to enhance model adaptability and robustness. We support our method with theoretical analysis using PAC-Bayes and convergence guarantees. Experimental results on benchmark datasets sh...
ID: 2508.09418v1 cs.LG, cs.AI
Авторы:

Xiaoyu Li, Guangyu Tang, Jiaojiao Jiang

## Контекст В современных системах интеллектуального анализа данных, особенно в области графовых и гиперграфовых моделей, значительное внимание уделяется моделированию высокогордичных связей. Эти связи возникают при объединении нескольких элементов в группы, тогда как традиционные графы оперируют только парными связями. Особенно важны различные сценарии, когда связи между элементами имеют сложную структуру, например, когда несколько субъектов участвуют в совместном действии, например, когда несколько авторов совместно публикуют статью. Гиперграфовые модели позволяют эффективно представлять такие ситуации, но традиционные подходы существуют некоторые ограничения. Многие существующие гиперграфовые модели зависят от фиксированного числа слоев для массового передачи сообщений, что может привести к длинным зависимостям и нестабильному обучению в глубоких структурах. Это создает мотивацию для развития более стабильных и эффективных моделей для работы с высокоградиентными связями. ## Метод Рассматривается фреймворк Implicit Hypergraph Neural Networks (IHGNN), который применяет идею нелинейного уравнения фиксированного точки для представления высокоградиентных связей. Основной идеей является то, что вместо стандартных слоев с глубиной, работает на основе решения уравнения, которое стабильно и эффективно воспроизводит высокоградиентные связи в графе. В этой модели используется нелинейная формула, которая дает возможность глобального представления всех элементов в гиперграфе. Это позволяет уменьшить глубину модели и сделать её более устойчивой к деформациям, понижая риск накопления ошибок во время передачи сообщений в глубоких слоях. Острой проблемой является то, что существующие гиперграфовые модели не всегда способны гарантировать хорошую тренировку, особенно в ситуациях, когда данные являются сложными и зависимости между элементами неоднозначны. В этом контексте IHGNN предлагает новый подход к решению этой проблемы. ## Результаты Для исследования и подтверждения эффективности IHGNN проводились эксперименты с использованием различных данных, включая бенчмарк-данные из области работ по цитированию. Эти эксперименты показали, что IHGNN превосходит существующие модели по точности и устойчивости к инициализации и настройке параметров. В частности, она продемонстрировала способность грамотно обрабатывать сложные зависимости между элементами, что делает её более эффективной в ситуациях с высокой сложностью. Дополнительно, проводился анализ устойчивости модели, в том числе при различных вариантах инициализации и настро
Annotation:
Many real-world interactions are group-based rather than pairwise such as papers with multiple co-authors and users jointly engaging with items. Hypergraph neural networks have shown great promise at modeling higher-order relations, but their reliance on a fixed number of explicit message-passing layers limits long-range dependency capture and can destabilize training as depth grows. In this work, we introduce Implicit Hypergraph Neural Networks (IHGNN), which bring the implicit equilibrium form...
ID: 2508.09427v1 cs.LG, cs.AI
Авторы:

Ziyu Liu, Azadeh Alavi, Minyi Li, Xiang Zhang

#### Контекст В области машинного обучения для временных рядов применяются различные подходы, включая самостоятельное обучение (self-supervised learning, SSL), которое позволяет эффективно использовать большие объемы непрозрачных данных. SSL включает два основных подхода: методы контрастирования (contrastive methods) и подходы генеративного моделирования (generative approaches). Методы контрастирования становятся эффективными в ситуациях, когда необходимо выделять одинокие примеры внутри классов, но они чувствительны к высокой внутриклассовой схожести временных рядов. Генеративные подходы, напротив, могут хорошо моделировать данные, но их эффективность требует больших объемов исходных данных. Таким образом, существует потребность в разработке рамфармы, которая бы объединила эти два подхода, чтобы использовать их как можно более эффективно. #### Метод Мы предлагаем **Contrastive Generative Time series Framework (CoGenT)** — первый подход, который объединяет контрастирование и генеративные методы в едином рамфарме. Основная идея CoGenT заключается в совместном использовании контрастирования и генеративного моделирования для обучения модели. CoGenT включает в себя два основных компонента: контрастирующее обучение (contrastive learning) и подход генеративного моделирования (generative approach). Контрастирующее обучение используется для выделения особенностей временных рядов, которые помогают в их различении, а генеративное моделирование используется для моделирования распределений данных. Оба эти подхода объединены в единую модель, чтобы модель могла эффективно обрабатывать временные ряды, даже при высокой внутриклассовой схожести. #### Результаты Мы проводили эксперименты с CoGenT на шести различных наборах данных временных рядов. Наши результаты показали, что CoGenT превосходит отдельные подходы — SimCLR и MAE — на значительной дистанции. Мы измерили F1-меру, которая показывала, что CoGenT превышает SimCLR на 59.2%, а также повышает F1-меру в сравнении с MAE на 14.27%. Эти результаты указывают на то, что CoGenT эффективно объединяет преимущества контрастирования и генеративного моделирования, повышая точность и устойчивость модели к временным рядам с высокой внутриклассовой схожестью. #### Значимость Предложенная рамфармма CoGenT имеет широкое применение в различных областях, где временные ряды являются ключевым объектом анализа, например, в здравоохранении, финансовых рынках и промышленности. Основные преимущества CoGenT состоят в том, что он улучшает точность и устойчивость модели в сравнении с отдельными подходами к обучению. Благодаря этому, CoGenT может быть применен в ситуациях, где данные недостаточного объема или где существ
Annotation:
Self-supervised learning (SSL) for multivariate time series mainly includes two paradigms: contrastive methods that excel at instance discrimination and generative approaches that model data distributions. While effective individually, their complementary potential remains unexplored. We propose a Contrastive Generative Time series framework (CoGenT), the first framework to unify these paradigms through joint contrastive-generative optimization. CoGenT addresses fundamental limitations of both a...
ID: 2508.09451v1 cs.LG, cs.AI
Авторы:

Muhammad Sakib Khan Inan, Kewen Liao

## Контекст Область исследования IoT (Internet of Things) находится в центре технологического развития, особенно в сферах умных городов, промышленности и здравоохранения. Технологии IoT собирают огромные объемы данных временных рядов, которые являются основоположными для повышения уровня автоматизации и аналитики. Однако, существуют значительные проблемы, такие как неполнота метаданных, разнообразие источников данных, различные частоты сбора данных, несогласованные единицы измерения и непостоянные временные метки. Эти факторы существенно затрудняют интерпретацию данных и сокращают эффективность смарт-систем. В этом контексте, целью исследования является разработка алгоритма, который может эффективно обрабатывать и классифицировать данные временных рядов IoT, даже в условиях ограниченного количества меток. ## Метод Методология исследования основывается на создании модели DeepFeatIoT, которая объединяет различные подходы к извлечению признаков. Основной компонент — загруженная MLP-модель, которая извлекает локальные и глобальные признаки непосредственно из данных временных рядов. Дополнительно, включены неучитывающие обучение случайные ядра для добавления хаотичности в процесс. Эта модель также использует представления, сгенерированные с помощью бо LLM (Large Language Model), чтобы дополнительно улучшить точность классификации. Архитектура DeepFeatIoT позволяет интегрировать эти различные признаки с минимальными предварительными усилиями, чтобы повысить универсальность и эффективность модели. ## Результаты Модель DeepFeatIoT была проверена на нескольких реальных датасетах временных рядов IoT из различных критически важных приложений. Она показала постоянно высокую точность и общий подход к классификации данных, сравнительно избыточно выигрывая перед состоянием технологии моделей. Даже при ограниченных объемах меток, DeepFeatIoT демонстрирует высокую универсальность и точность. Эти результаты подтверждают модельную эффективность и подтверждают ее потенциал в обеспечении более точной интерпретации данных временных рядов в вопросах смарт-систем. ## Значимость Приложения DeepFeatIoT могут быть важны в сферах здравоохранения, промышленности 4.0, умных городов и других областях, где использование данных временных рядов IoT ключевой. Такая модель, объединяя различные подходы, обеспечивает более широкий диапазон возможностей для анализа и статистики. Кроме того, она может снизить требования к ручной метковке данных, что значительно сокращает время и ресурсы для обучения моделей. Это делает DeepFeatIoT ключевым инструментом для развития систем управления и анализа в IoT.
Annotation:
Internet of Things (IoT) sensors are ubiquitous technologies deployed across smart cities, industrial sites, and healthcare systems. They continuously generate time series data that enable advanced analytics and automation in industries. However, challenges such as the loss or ambiguity of sensor metadata, heterogeneity in data sources, varying sampling frequencies, inconsistent units of measurement, and irregular timestamps make raw IoT time series data difficult to interpret, undermining the e...
ID: 2508.09468v1 cs.LG, cs.AI
Авторы:

Birong Pan, Mayi Xu, Qiankun Pi, Jianhao Chen, Yuanyuan Zhu, Ming Zhong, Tieyun Qian

#### Контекст Современные Large Language Models (LLMs) обладают высоким потенциалом в различных областях, но сталкиваются с систематическими проблемами, связанными с безопасностью и качеством. Одной из ключевых проблем является нехватка баланса между безопасностью и полезностью. На данный момент используются методы, ориентированные на грубые вмешательства в слои моделей. Они не могут гарантировать точную корректировку действий модели в ответ на безопасность и качество. Данная проблема требует развития более тонких методов корректировки модели, которые бы позволили достичь сбалансированного взаимодействия между безопасностью и полезностью. #### Метод Предлагаемый метод NeuronTune основывается на тонкой модификации сигналов специфичных нейронов для достижения баланса между безопасностью и полезностью. Метод начинает с атрибуции, чтобы определить безопасность-критичные и полезность-критичные нейроны во всех слоях. Затем, NeuronTune применяет методы мета-обучения для адаптивного усиления сигналов безопасности и торможения сигналов полезности. Одним из ключевых преимуществ является то, что NeuronTune позволяет гибко контролировать степень вмешательства в функционировании модели, корректируя количество модифицируемых нейронов. Это делает NeuronTune универсальным инструментом для применения в различных сценариях, где требуется высокая безопасность или высокая полезность. #### Результаты На широком наборе экспериментов, включающих задачи с текстом и задачи безопасности, NeuronTune показал существенный выигрыш по сравнению с текущими технологиями. Он улучшил безопасность модели, сократив частоту провалов в тестах на вредоносные запросы, при этом сохранив высокую качественную генерацию текста и задачу, которые традиционно негативно отражаются после других методов корректировки. Эти результаты подтверждают, что NeuronTune является эффективным методом для достижения баланса между безопасностью и полезностью в LLMs. #### Значимость NeuronTune может быть применен в различных областях, где необходима высокая безопасность и качество текста. Например, в области медицины, юриспруденции, финансов, где любая деформация текста может привести к серьезным последствиям. Также NeuronTune позволяет решать проблемы, связанные с нежелательной генерацией ненормативной лексики или вранья, что является важной задачей для многих систем текстового понимания. Использование NeuronTune помогает сделать LLMs более надежными и стабильными в различных областях их применения. #### Выводы Результаты экспериментов подтверждают, что NeuronTune является эффектив
Annotation:
Ensuring robust safety alignment while preserving utility is critical for the reliable deployment of Large Language Models (LLMs). However, current techniques fundamentally suffer from intertwined deficiencies: insufficient robustness against malicious attacks, frequent refusal of benign queries, degradation in generated text quality and general task performance--the former two reflecting deficits in robust safety and the latter constituting utility impairment. We trace these limitations to the ...
ID: 2508.09473v1 cs.LG, cs.AI, cs.CL
Показано 2681 - 2690 из 2901 записей